분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 0.68251 하찌아빠팀] part 02. Transformer classifier
공동작성자
이번 파트는 pretrained transformer를 활용하여 epitope classification을 시도하는 과정을 공유드립니다.
주요 시도는 아래와 같습니다.
1. 데이터 셋의 assay group 별 샘플 갯수와 그에 따른 label 분포가 상이해집니다.
따라서 데이터 셋의 assay group이 qualitative binding인지 아닌지에 따라 두 그룹으로 나눠 학습을 진행했습니다.
2. Transformer 모델은 sequence embedding part와 feature embedding part로 나뉘어 있습니다.
Sequence embedding은 UR50/S를 활용하여 사전 학습된 ESM 중 가벼운 모델을 활용했으며, 모델이 무거워지더라도 성능이 좋아지지 않았습니다.
그리고 part 01.에서 추출한 feature들을 입력받아 non-linear combination을 시행했습니다.
최종 결과를 위해 두 embedding part를 concatenate하고, 2차원으로 출력했습니다.
3. epitope은 지정된 길이의 시계열의 중앙에 위치하도록 조정됩니다.
양 끝에 모자라는 부분은 pad 토큰을 활용하여 메꿨습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved