2022 AI 대학원 챌린지

LG | 채용 | B-cell | Epitope | Classification | macro-f1

  • moneyIcon 상금 : 총 2,500만원
  • 311명 마감

 

Public 0.6410 코드 공유(Transformer encoder based model)only seq

공동작성자

stroke
2022.08.01 10:28 1,683 조회 language

저희 팀 코드 중 Language model을 사용한 코드 공유합니다. 전체적인 코드 흐름은 Dacon에서 제공해 준 Baseline을 참고해 구성되었습니다.
대회 과정에서 여러 Language모델을 사용하고, Uniref50에 대해 pre-trained된 esm-1b도 사용해 보았으나 transformer encoder를 사용한 모델이 가장 좋은 성능을 보여주었습니다.

Transformer encoder를 쌓아 epitope의 representation으로 사용하고, antigen의 representation으로 4가지의 feature를 사용해 예측하는 방식입니다.

특이사항으로 사용한 GPU가 많아 코드를 코랩으로 실행하긴 어려울 것 같습니다. (추후 가능하다면 코랩용으로 수정해 올리도록 하겠습니다.)

코드