분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Boost up AI 2025 : 신약 개발 경진대회
val score 와 public score 가 매우 일치하지 않는 문제...
과적합 이슈인지, train과 test의 분포가 다른건지 모르겠지만
val score의 지표(RMSE, NRMSE, pearson_correlation)가 무의미할 정도로 public score가 다르게 나오네요,
다른 분들도 비슷한 상황이지 궁금합니다.
ㅠㅠ
데이터가 적어서 그렇습니다. Train set과 Test set 모두 일반화가 가능할 정도로 데이터가 많지 않습니다.
특히 Test set의 경우 데이터가 100개 밖에 되지 않아 validation score와 public score의 차이가 커질 수 밖에 없습니다.
평가 데이터가 많으면 좋을텐데요.. 흠
Smiles 데이터셋들은 많은 데이터를 모으기 어려워요.. 특히 이번 처럼 특정 단백질을 target으로 했으면 더욱이....
학습/테스트 데이터 모두 적습니다. public/private shake-up도 상당할 것으로 보이네요
그러니까요 Shakeup이 무시무시할 것 같아요..
저는 지표에서 현재 public 리더보드 기준으로 똑같이 측정시에 학습 이후 로그에 출력되는 점수랑 비교했을 때 오차범위가 +-0.05정도 되는 것 같아요
(이건 아마 1차 평가시 테스트 데이터 50%중에서 ★무작위 80%★를 검증하는 것이라서 그런 것 같습니다.
즉, 똑같은 파일을 제출하더라도 점수가 다르다는 것이 될수도 있다는 말이죠 (제가 이해한 것이 맞다면) )
이럴 때 최종 제출을 CV 기준으로 할지 LB 기준으로 할지 고민이 될 것 같습니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
저도 그렇습니다.