분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 1st] Random Forest + 5-Fold 교차검증
* 웹에서 plotly 시각화 결과가 안보여서 matplotlib, seaborn으로 변환 후 재업로드 합니다! (파일 수정하려고 했는데 수정이 안되네요 ㅠ)
안녕하세요, 복자입니다.
주피터 환경이 아니라 코드 정리에 조금 시간이 걸렸네요.
EDA에서는 눈에 띄는 인사이트는 발견하지 못했지만,
기업가치 컬럼은 실수형으로 변환 가능한 경우 전처리를 진행했고,
결측치는 특정 범주형 컬럼을 기준으로 그룹화한 뒤, 그룹 평균으로 채워 넣었습니다.
중요한 피처들을 중심으로 파생변수를 최대한 다양하게 만들어가며 실험을 이어갔고,
5-Fold 교차검증을 통해 컬럼을 하나씩 제거하면서 성능을 점진적으로 개선했습니다.
하이퍼파라미터도 유사한 방식으로 조정하며, 최적의 조합을 찾아갔습니다.
예측값이 전반적으로 과대 추정되는 경향이 있어서 이를 확인했고,
후처리를 통해 추정값을 조정하는 방식으로 대응했습니다.
0.0375라는 보정 값은 여러 번 실험을 반복하면서 직접 찾아낸 수치입니다.
모델은 여러 가지를 시도해봤지만, 최종적으로는 RandomForest가 가장 안정적인 성능을 보여주었습니다.
모두 정말 고생 많으셨습니다!
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved