2022 AI 대학원 챌린지

LG | 채용 | B-cell | Epitope | Classification | macro-f1

  • moneyIcon Prize : 총 2,500만원
  • 311명 마감

 

[public 0.6262] T5 for classification task (코드공유)

공동작성자

stroke
2022.08.02 15:31 3,647 Views language

T5모델을 사용한 classification코드입니다.

hugging face 라이브러리를 사용했고,
Uniref-50을 사전학습한 모델인 "Rostlab/prot_t5_xl_uniref50"를 사용했습니다.

학습 데이터는 시퀀스 만을 이용했습니다.
epitope_seq와 양 옆의 antigen_seq를 window size 50 만큼 잘라서 학습시켰습니다.

레이블은 "0" 또는 "1"의 텍스트로 출력되도록 학습했습니다.

Code
로그인이 필요합니다
0 / 1000
안녕해요
2022.08.02 16:23

위 모델과 관련해 오해가 있을 수 있는 부분으로 prot_t5_xl_uniref50 모델은 uniref-50에 대해서만 pre-training된 모델이 아닌 것으로 알고 있습니다!
prot_t5_xl_uniref50 모델은 20억개의 단백질로 이루어진 BFD데이터 셋에 대해 1차적으로 pre-train되고, 그 후에 추가적으로 uniref-50 데이터 셋에 대해 pre-training한 것으로 알고 있습니다.

-_-
2022.08.02 17:09

네 말씀하신것과 같이 BFD데이터를 사용하여 학습된 모델입니다.
해당 모델은 이번 대회에서 사용하면 안되는 거였네요..
지적 감사합니다.😄