기업 성공 확률 예측 해커톤: 미래의 성공기업을 발굴하라!

데이콘 해커톤 | 알고리즘 | 입문 | 정형 | 회귀 | Weighted MAE

  • moneyIcon 상금 : 데이스쿨 프로 구독권
  • 953명 마감

 

[Private 8th] RandomForest + Residual Modeling

2025.05.31 19:00 840 조회 language

다들 고생하셨습니다. 순위는 아쉽지만, 그래도 코드는 공유해봅니다.
이번 대회는 데이터가 작고, 특성(컬럼) 수가 적어서 이 데이터에 맞는 최적화가 중요해 보였습니다.
그러다 보니 추가되는 것이 많아지고 코드가 복잡해졌습니다. 코드 공유해주신 다른 분들 솔루션을 보니까 역시 "Simple is best"네요. 많이 배워갑니다.
그리고 다른 분들이 말해주셨던 것처럼 이 대회는 타겟이 이산 값으로 나온다는 것을 파악하고, 경계값 최적화 및 반올림을 하는 것이 핵심인 것 같습니다.
저는 여기에서 실제 값과 예측값의 차이를 학습시킨 잔차 모델까지 활용하여 점수를 올렸습니다.
특성 중요도를 구했을 때 랜덤 포레스트(RF)가 다른 모델에 비해 월등히 높게 나와 다른 모델은 사용하지 않았습니다.

하지만 너무 복잡한 전처리로 인한 과적합 때문에 점수가 잘 나오지 않은 것 같습니다. 다음 대회에서는 이런 부분을 참고해서 더 잘해봐야겠네요.
다들 다음 대회도 화이팅입니다!

개발 환경 : Windows, VS Code

코드