Boost up AI 2025 : 신약 개발 경진대회

val score 와 public score 가 매우 일치하지 않는 문제...

2025.06.25 23:47 1,837 조회

과적합 이슈인지, train과 test의 분포가 다른건지 모르겠지만

val score의 지표(RMSE, NRMSE, pearson_correlation)가 무의미할 정도로 public score가 다르게 나오네요,

다른 분들도 비슷한 상황이지 궁금합니다.

로그인이 필요합니다
0 / 1000
Naturesh
2025.06.26 00:19

저도 그렇습니다.

푹신한이불
2025.06.26 12:34

ㅠㅠ

EISLab_이희원
2025.06.26 00:28

데이터가 적어서 그렇습니다. Train set과 Test set 모두 일반화가 가능할 정도로 데이터가 많지 않습니다.
특히 Test set의 경우 데이터가 100개 밖에 되지 않아 validation score와 public score의 차이가 커질 수 밖에 없습니다.

푹신한이불
2025.06.26 12:33

평가 데이터가 많으면 좋을텐데요.. 흠

EISLab_이희원
2025.06.26 12:45

Smiles 데이터셋들은 많은 데이터를 모으기 어려워요.. 특히 이번 처럼 특정 단백질을 target으로 했으면 더욱이....

NAJUNGHWAN
2025.06.26 00:50

학습/테스트 데이터 모두 적습니다. public/private shake-up도 상당할 것으로 보이네요

푹신한이불
2025.06.26 12:32

그러니까요 Shakeup이 무시무시할 것 같아요..

인간은대체왜그럴까
2025.06.26 13:00

저는 지표에서 현재 public 리더보드 기준으로 똑같이 측정시에 학습 이후 로그에 출력되는 점수랑 비교했을 때 오차범위가 +-0.05정도 되는 것 같아요 
(이건 아마 1차 평가시 테스트 데이터 50%중에서 ★무작위 80%★를 검증하는 것이라서 그런 것 같습니다. 
즉, 똑같은 파일을 제출하더라도 점수가 다르다는 것이 될수도 있다는 말이죠 (제가 이해한 것이 맞다면) )

김범주
2025.06.27 16:16

이럴 때 최종 제출을 CV 기준으로 할지 LB 기준으로 할지 고민이 될 것 같습니다.