분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Boost up AI 2025 : 신약 개발 경진대회
실험하면서 얻게된 경험(?) 공유 드립니다.
rmse 수치는 public score와 비례하진 않는 것 같습니다.
-> 실험 결과 rmse의 수치가 낮았을 때보다, rmse의 수치가 높았을 때 기존 1등 public score가 높게 나왔었습니다. (아마 데이터셋이 적어서 그런 것 같습니다(?))
train.csv의 값에서 0의 라벨은 학습에 필요하다고 생각됩니다.
-> 실험 결과 라벨에서 0을 무시하고 결과를 봤더니 오히려 점수가 하락했었습니다.
(만약 0을 없애고 학습을 하게 되면 모델이 이 구조가 필요한 지, 아닌지 모르는 것 같습니다.)
inhibition의 평균이 높다고 좋은 것도 아닌 것 같습니다.
-> 제 지식에선 Inhibition이 높으면 약효가 강한 것으로 알고 있습니다. 그렇다고 Inhibition의 평균이 높다고 또 점수가 높게 나오는 건 아닌 것 같습니다.
나중에 새로운 거 발견하면 또 올릴게용♥
---------------------------------------------------------------------------
실험결과 똑같은 파일을 제출하더라도 점수가 다르게 나오는 걸 확인했습니다.
리더보드 채점에 명시되어 있는 테스트 샘플 50% 중 무작위 80%를 평가하는 것 때문에 그런 것 같습니다.
즉 운이 좋아서, 예측한 샘플들의 점수가 무작위 80%에 잘 맞으면 점수가 높게 나오고, 그렇지 않다면 낮게 나오는 것 같습니다.
이 문제를 해결하기 위해선 모델을 보다 견고하게 조정하고 오차 값을 줄이는 게 포인트인 것 같습니다.
같은 파일은 같은 점수가 나와야하는 것 같은데... 채점 서버 시드가 유지가 안되는 것 같은데 이건 문의가 필요할 것 같아 보이네요.
이번 대회는 의도한 것 같아요. 채점 방식에도 저렇게 명시되어 있긴 하네요
읽어보니 의도한 것 같네요. 근대 이런 방식이면 리더보드자체가 의미가 없는데... 의아하긴 하네요. 알려주셔서 감사합니다 !
저도 궁금하긴 하네요.. 어떤 의미로 랜덤 샘플링을 기준으로 잡으신건지 ㅜㅜ
Deleted Comment
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
Deleted Comment