분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 6위] RandomForest + StratifiedKFold
EDA로는 A,B,C가 차지하는 범위가 컸고, 주택소유상태에는 'ANY'가 있었고, 연간소득 금액이 0원인 행을 발견하고 제거하였습니다.
또한 금융 데이터라서 관련 있는 피처끼리 사칙연산으로 무작정 피처 개수를 늘리는데 신경을 썼습니다.
그러다가 점수가 오르지 않아서 Feature importance로 제일 점수 낮은 피처부터 차츰 정리했습니다.
맨 처음 시도했던 'ANY', 연간소득 0 값의 데이터도 포함하는 게 좋겠다고 생각되어 제거하지 않는 방향으로 다시 바꿨습니다.
마지막으로 Optuna와 제일 점수 높은 Seed를 골라 StratifiedKFold - 10으로 마무리 하였습니다.
Optuna 같은 경우는 depth와 estimator 만으로 하다가 시간이 너무 오래걸려서 depth만 놓고 돌렸습니다.
네 의도적인건 아니고 그냥 평균점수 보려고 kfold 사용했습니다. 적당한 점수가 나와서 수정하지 않고 제출했습니다. 1위 축하드립니다.
넵 감사합니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
코드 잘 봤습니다~
다만, 궁금한 점이 생겨 댓글 남깁니다.
코드 상으로는 KFold로 데이터를 쪼개서 학습한 뒤에 바로 Test데이터에 적용한 것으로 보이는데,
혹시 전체 데이터가 아닌 일부 데이터만 학습한게 맞을까요?