분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Boost up AI 2025 : 신약 개발 경진대회
val score 와 public score 가 매우 일치하지 않는 문제...
과적합 이슈인지, train과 test의 분포가 다른건지 모르겠지만
val score의 지표(RMSE, NRMSE, pearson_correlation)가 무의미할 정도로 public score가 다르게 나오네요,
다른 분들도 비슷한 상황이지 궁금합니다.
ㅠㅠ
데이터가 적어서 그렇습니다. Train set과 Test set 모두 일반화가 가능할 정도로 데이터가 많지 않습니다.
특히 Test set의 경우 데이터가 100개 밖에 되지 않아 validation score와 public score의 차이가 커질 수 밖에 없습니다.
평가 데이터가 많으면 좋을텐데요.. 흠
Smiles 데이터셋들은 많은 데이터를 모으기 어려워요.. 특히 이번 처럼 특정 단백질을 target으로 했으면 더욱이....
학습/테스트 데이터 모두 적습니다. public/private shake-up도 상당할 것으로 보이네요
그러니까요 Shakeup이 무시무시할 것 같아요..
저는 지표에서 현재 public 리더보드 기준으로 똑같이 측정시에 학습 이후 로그에 출력되는 점수랑 비교했을 때 오차범위가 +-0.05정도 되는 것 같아요
(이건 아마 1차 평가시 테스트 데이터 50%중에서 ★무작위 80%★를 검증하는 것이라서 그런 것 같습니다.
즉, 똑같은 파일을 제출하더라도 점수가 다르다는 것이 될수도 있다는 말이죠 (제가 이해한 것이 맞다면) )
이럴 때 최종 제출을 CV 기준으로 할지 LB 기준으로 할지 고민이 될 것 같습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
저도 그렇습니다.