분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Private 20 | 많이 늦었지만 코드 공유할게요~
시간이 지나도 상위권분들은 코드를 아무도 공유 안하셔서 공유해봅니다!
다른 신약 대회 도전하시는 분들에게 도움이 되었으면 합니다.
제 코드의 핵심은 Chemprop 라이브러리에 있는 D-MPNN 모델을 이용해서 임베딩 특징을 추출하고, RDKIT 특징들도 합쳐서 최종적으로 트리 모델인 Catboost로 예측하는겁니다.
가장 중요한 점은 데이터가 적고, 특히 고활성 분자의 개수가 극소수이기 때문에, 여러가지 데이터 증강 기법(SMILES Enumeration, Mixup) 을 사용해 고활성 분자(pIC50>10) 개수를 늘려줘서 일반화시키는 것입니다. 또한 대회 평가 지표에 맞는 커스텀 손실함수를 만들어 고활성 분자의 오차를 줄이고, 실제값과 예측값 간의 선형 상관관계를 최대화했습니다.
다른 대회들도 파이팅하세요!
네~ 다른 대회도 파이팅하세요~
상도님도 화이팅 입니다.
감사합니다 삼도님!
네~ 화이팅하세용~
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
삼도님
감사합니다.~