커뮤니티 대회 교육

2022 AI 대학원 챌린지

LG | 채용 | B-cell | Epitope | Classification | macro-f1

  • moneyIcon 상금 : 총 2,500만원
  • 265명 마감

 

[private 0.74872] 1일1빙 - Protein features + RF 코드 공유

2022.08.05 22:55 503 조회 language

안녕하세요 1일1빙팀입니다.
대회기간 중 성능이 가장 좋았던 protein features를 추가로 활용해서 Random Forest 모델을 학습한 코드 공유드립니다.

다른 분이 공유해주시기도 했던 biopython 라이브러리의 ProteinAnalysis 모듈로 epitope와 antigen의 단백질 feature를 추출해서 정형 데이터로 학습에 이용했습니다.
기존 데이터 중에서는
assay_method_technique, assay_group, disease_type, disease_state, reference_date, reference_title을 사용했고,

protein feature 중에서는 
aromaticity, gravy, instability_index, isoelectric_point, length(epitope만 사용), molecular_weight, monoisotopic 을 사용하였습니다.

학습은 Random forest 모델을 사용했습니다.
CatBoost같은 다른 앙상블 모델도 사용해봤는데 이상하게 RF가 성능이 더 좋네요.

K-fold cross validation으로 5개의 모델을 학습하고, 각 모델의 prediction을 soft-voting해서 최종 추론에 사용했습니다.

pretrained ESM 모델이나 cnn1d 등 시도해본게 더 있었는데 성능이 좋지 않아서 아쉽네요.
나중에 시간이 된다면 공유드리도록 하겠습니다.
다들 고생 많으셨습니다:)

코드
로그인이 필요합니다
0 / 1000
이전 글
이전 글이 존재하지 않습니다.
현재 글
[private 0.74872] 1일1빙 - Protein features + RF 코드 공유
대회 - 2022 AI 대학원 챌린지
좋아요 4
조회 503
댓글 0
4달 전
다음 글
[Private 0.75069] 새벽반 - BoW + Random Forest 코드 공유
대회 - 2022 AI 대학원 챌린지
좋아요 4
조회 412
댓글 0
4달 전