Jump AI(.py) 2025 : 제 3회 AI 신약개발 경진대회

알고리즘 | 분자 구조 | 정형 | 회귀 | 바이오

  • moneyIcon 상금 1,500만 원
  • 1,134명 마감
마감

 

Private 20 | 많이 늦었지만 코드 공유할게요~

2025.10.11 22:03 1,281 조회 language

시간이 지나도 상위권분들은 코드를 아무도 공유 안하셔서 공유해봅니다!
다른 신약 대회 도전하시는 분들에게 도움이 되었으면 합니다.

제 코드의 핵심은 Chemprop 라이브러리에 있는 D-MPNN 모델을 이용해서 임베딩 특징을 추출하고, RDKIT 특징들도 합쳐서 최종적으로 트리 모델인 Catboost로 예측하는겁니다.
가장 중요한 점은 데이터가 적고, 특히 고활성 분자의 개수가 극소수이기 때문에, 여러가지 데이터 증강 기법(SMILES Enumeration, Mixup) 을 사용해 고활성 분자(pIC50>10) 개수를 늘려줘서 일반화시키는 것입니다. 또한 대회 평가 지표에 맞는 커스텀 손실함수를 만들어 고활성 분자의 오차를 줄이고, 실제값과 예측값 간의 선형 상관관계를 최대화했습니다.

다른 대회들도 파이팅하세요!

코드
로그인이 필요합니다
0 / 1000
당쇠
2025.10.12 08:57

삼도님
감사합니다.~

삼도
2025.10.12 18:54

네~ 다른 대회도 파이팅하세요~

도비콘
2025.10.14 09:21

상도님도 화이팅 입니다.

hazze
2025.10.22 13:21

감사합니다 삼도님!

삼도
2025.10.22 14:50

네~ 화이팅하세용~