분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
제출 성능
과적합은 아닌데 제출하면 성능이 나빠지는 원인을 모르겠습니다.
이희원님 댓글 감사합니다.
그런데 제가 겪고있는 상황은 과적합이라기에는 조금 다른 상황인 것 같습니다.
lgbm 모델을 사용함에 있어서 n_estimator를 500과 100000으로 나누어서 실행한 결과에서
전자는 검증 14, 제출 50
후자는 검증 20, 제출 20 성능을 갖습니다. (낮을수록 높은 성능)
이 부분에 관하여 혹시 짐작가시는 부분이 있는지요?
다시한번 답변 감사합니다.
개인적인 생각으로는, 후자가 전체 Test셋이 공개됐을때, 더 좋은 성능을 보장 할 수 있는지 의문이 듭니다.
현재 진행중인 대회라면, Test셋 중 일부분의 테스트 데이터 셋에서 성능을 측정했을 터인데, 운이 좋게도 lgbm을 오버피팅하니 일부분의 테스트 데이터 셋에서 보다 잘 예측 했다고 생각됩니다. 전체 Test 셋에서는 어떻게 될지 모르는 상태가 되는 것이죠.
validation과 일부 test 데이터 간의 결과물이 상관관계가 있는 상태에서 유의미하게 score을 낮출 수 있는 방향으로 진행하는게 도움이 될 것 같습니다. ( 검증, 제출의 score을 둘 다 낮출 수 있도록 )
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
train data에 너무 overfitting되면 그런 현상이 나타나긴 합니다.