제1회 신약개발 AI 경진대회

Random Forest, LB = 30.72567

2023.08.12 12:24 4,662 조회 language

Random Forest를 활용한 훈련 코드입니다.
코드는 아래 순서로 진행됩니다.

1. 데이터 전처리: "AlogP"의 결측치를 "LogD"로 대체합니다.
2. 데이터 분할: KFold를 활용하여 총 10개 Dataset으로 분리합니다.
3. Ensemble: 각 Dataset에서 얻은 모델로 예측한 후 평균하여 최종 결과를 냅니다.

코드
로그인이 필요합니다
0 / 1000
비회원
2023.08.13 22:12

SMILES는 사용안하신건가요?

배가_고파졌다
2023.08.14 19:25

ruv
2023.09.03 11:42

Fold 안에 모델을 계속 재정의하셨는데 이유가 있을까요?

배가_고파졌다
2023.09.03 22:56

Fold 별로 학습 데이터에 따라 각각 학습시키려고 모델을 새로 만들었습니다.

배가_고파졌다
2023.09.03 22:59

랜덤 포레스트는 해당이 안될수도 있는데요,
fit()을 실행하는 경우 이미 학습된 모델에서 시작하는 경우도 있어서 새로 만들어 주었습니다.

최성진
2023.09.08 11:26

감사합니다. 참고 많이 했습니다