val score 와 public score 가 매우 일치하지 않는 문제...

Boost up AI 2025 : 신약 개발 경진대회

푹신한이불

2025.06.25 23:47 2,511 조회

과적합 이슈인지, train과 test의 분포가 다른건지 모르겠지만

val score의 지표(RMSE, NRMSE, pearson_correlation)가 무의미할 정도로 public score가 다르게 나오네요,

다른 분들도 비슷한 상황이지 궁금합니다.

댓글 9개

로그인이 필요합니다

comment

0 / 1000

Naturesh

2025.06.26 00:19

저도 그렇습니다.

푹신한이불

2025.06.26 12:34

ㅠㅠ

EISLab_이희원

2025.06.26 00:28

데이터가 적어서 그렇습니다. Train set과 Test set 모두 일반화가 가능할 정도로 데이터가 많지 않습니다.
특히 Test set의 경우 데이터가 100개 밖에 되지 않아 validation score와 public score의 차이가 커질 수 밖에 없습니다.

푹신한이불

2025.06.26 12:33

평가 데이터가 많으면 좋을텐데요.. 흠

EISLab_이희원

2025.06.26 12:45

Smiles 데이터셋들은 많은 데이터를 모으기 어려워요.. 특히 이번 처럼 특정 단백질을 target으로 했으면 더욱이....

NAJUNGHWAN

2025.06.26 00:50

학습/테스트 데이터 모두 적습니다. public/private shake-up도 상당할 것으로 보이네요

푹신한이불

2025.06.26 12:32

그러니까요 Shakeup이 무시무시할 것 같아요..

신약보단마약이지

2025.06.26 13:00

저는 지표에서 현재 public 리더보드 기준으로 똑같이 측정시에 학습 이후 로그에 출력되는 점수랑 비교했을 때 오차범위가 +-0.05정도 되는 것 같아요
(이건 아마 1차 평가시 테스트 데이터 50%중에서 ★무작위 80%★를 검증하는 것이라서 그런 것 같습니다.
즉, 똑같은 파일을 제출하더라도 점수가 다르다는 것이 될수도 있다는 말이죠 (제가 이해한 것이 맞다면) )