분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
전기톱원숭이 - ESM(3 sequences) + (CT-CTD/CNT features) +Tabnet
안녕하세요. 전기톱원숭이입니다.
Sequence modeling(ESM pretrained model)과 Protein seuqence로부터의 feature extraction을 이용해 접근했습니다.
1. Sequence modeling
- left antigen, epitope, right antigen 각각의 sequence modeling vector를 추출했습니다.
- left antigen 64, epitope 128, right antigen 64 길이의 sequence를 ESM 모델에 입력해 결과로 얻은 sequence embedding을 사용했습니다.
2. Feature extraction
- Feature extraction을 위해 CT-CTD feature와 Amino aicds, Dipeptides frequency를 epitope와 antigen전체에 적용해 feature를 얻어 사용했습니다.
학습을 하기 위한 모델은 Tabnet을 사용했습니다.
모델 검증을 위해 K-fold를 이용했습니다. 모델 검증에 효과적이고, robust한 결과를 얻을 수 있었습니다.
Inference에는 모든 fold 모델들의 prob을 합하여 mean을 해준 뒤 threshold로 classification했습니다.
실험은 Tabnet, LGBM 모델로 ESM, CT-CTD, CNT + categorical feature의 조합으로 진행하였으며, 학습 시 PCA/AE를 이용해 dimension reduction도 함께 수행해보았습니다.
모델 결과는 Tabnet 모델에 ESM+categorical feature조합이 가장 성능이 좋았습니다만, 해당 대회에 늦게 참여해서 feature extraction 결과로 많은 실험은 해보지 못했던게 아쉽습니다. 추후, CT-CTD/CNT feature와 적절한 PCA혹은 AE를 이용하고, model ensemble을 하면 더 좋은 결과를 얻을 수 있지 않을 까 기대해봅니다. :)
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 몇 가지 질문 드릴 것이 있습니다.
1. 대회에 최종 제출한 모델은 CT-CTD/CNT features를 사용하지 않은 모델인가요?
2. PCA 사용여부에 따른 성능 차이가 어느정도인지 궁금합니다.
감사합니다.😄