2022 AI 대학원 챌린지

LG | 채용 | B-cell | Epitope | Classification | macro-f1

  • moneyIcon Prize : 총 2,500만원
  • 311명 마감

 

전기톱원숭이 - ESM(3 sequences) + (CT-CTD/CNT features) +Tabnet

2022.08.02 02:26 2,486 Views language

안녕하세요. 전기톱원숭이입니다.

Sequence modeling(ESM pretrained model)과 Protein seuqence로부터의 feature extraction을 이용해 접근했습니다.

1. Sequence modeling
- left antigen, epitope, right antigen 각각의 sequence modeling vector를 추출했습니다.
- left antigen 64, epitope 128, right antigen 64 길이의 sequence를 ESM 모델에 입력해 결과로 얻은 sequence embedding을 사용했습니다.
2. Feature extraction
- Feature extraction을 위해 CT-CTD feature와 Amino aicds, Dipeptides frequency를 epitope와 antigen전체에 적용해 feature를 얻어 사용했습니다.

학습을 하기 위한 모델은 Tabnet을 사용했습니다. 

모델 검증을 위해 K-fold를 이용했습니다. 모델 검증에 효과적이고, robust한 결과를 얻을 수 있었습니다.
Inference에는 모든 fold 모델들의 prob을 합하여 mean을 해준 뒤 threshold로 classification했습니다.

실험은 Tabnet, LGBM 모델로 ESM, CT-CTD, CNT + categorical feature의 조합으로 진행하였으며, 학습 시 PCA/AE를 이용해 dimension reduction도 함께 수행해보았습니다.

모델 결과는 Tabnet 모델에  ESM+categorical feature조합이 가장 성능이 좋았습니다만, 해당 대회에 늦게 참여해서 feature extraction 결과로  많은 실험은 해보지 못했던게 아쉽습니다.  추후, CT-CTD/CNT feature와 적절한 PCA혹은 AE를 이용하고, model ensemble을 하면 더 좋은 결과를 얻을 수 있지 않을 까 기대해봅니다. :)

감사합니다.

Code
로그인이 필요합니다
0 / 1000
-_-
2022.08.02 13:29

안녕하세요 몇 가지 질문 드릴 것이 있습니다.
1. 대회에 최종 제출한 모델은 CT-CTD/CNT features를 사용하지 않은 모델인가요?
2. PCA 사용여부에 따른 성능 차이가 어느정도인지 궁금합니다.
감사합니다.😄