서두르세요! "데이스쿨 40% 할인" 12월 2일까지!
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[public 0.6262] T5 for classification task (코드공유)
공동작성자
T5모델을 사용한 classification코드입니다.
hugging face 라이브러리를 사용했고,
Uniref-50을 사전학습한 모델인 "Rostlab/prot_t5_xl_uniref50"를 사용했습니다.
학습 데이터는 시퀀스 만을 이용했습니다.
epitope_seq와 양 옆의 antigen_seq를 window size 50 만큼 잘라서 학습시켰습니다.
레이블은 "0" 또는 "1"의 텍스트로 출력되도록 학습했습니다.
네 말씀하신것과 같이 BFD데이터를 사용하여 학습된 모델입니다.
해당 모델은 이번 대회에서 사용하면 안되는 거였네요..
지적 감사합니다.😄
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
위 모델과 관련해 오해가 있을 수 있는 부분으로 prot_t5_xl_uniref50 모델은 uniref-50에 대해서만 pre-training된 모델이 아닌 것으로 알고 있습니다!
prot_t5_xl_uniref50 모델은 20억개의 단백질로 이루어진 BFD데이터 셋에 대해 1차적으로 pre-train되고, 그 후에 추가적으로 uniref-50 데이터 셋에 대해 pre-training한 것으로 알고 있습니다.