Boost up AI 2025 : 신약 개발 경진대회

실험하면서 얻게된 경험(?) 공유 드립니다.

2025.06.26 09:49 1,711 조회

rmse 수치는 public score와 비례하진 않는 것 같습니다.

-> 실험 결과 rmse의 수치가 낮았을 때보다, rmse의 수치가 높았을 때 기존 1등 public score가 높게 나왔었습니다. (아마 데이터셋이 적어서 그런 것 같습니다(?))


train.csv의 값에서 0의 라벨은 학습에 필요하다고 생각됩니다.

-> 실험 결과 라벨에서 0을 무시하고 결과를 봤더니 오히려 점수가 하락했었습니다.

(만약 0을 없애고 학습을 하게 되면 모델이 이 구조가 필요한 지, 아닌지 모르는 것 같습니다.)


inhibition의 평균이 높다고 좋은 것도 아닌 것 같습니다.

-> 제 지식에선 Inhibition이 높으면 약효가 강한 것으로 알고 있습니다. 그렇다고 Inhibition의 평균이 높다고 또 점수가 높게 나오는 건 아닌 것 같습니다.


나중에 새로운 거 발견하면 또 올릴게용♥


---------------------------------------------------------------------------


실험결과 똑같은 파일을 제출하더라도 점수가 다르게 나오는 걸 확인했습니다. 

리더보드 채점에 명시되어 있는 테스트 샘플 50% 중 무작위 80%를 평가하는 것 때문에 그런 것 같습니다.


즉 운이 좋아서, 예측한 샘플들의 점수가 무작위 80%에 잘 맞으면 점수가 높게 나오고, 그렇지 않다면 낮게 나오는 것 같습니다.


이 문제를 해결하기 위해선 모델을 보다 견고하게 조정하고 오차 값을 줄이는 게 포인트인 것 같습니다.


로그인이 필요합니다
0 / 1000
인간은대체왜그럴까
2025.06.26 17:06

삭제된 댓글입니다

Cafelatte
2025.06.27 11:10

같은 파일은 같은 점수가 나와야하는 것 같은데... 채점 서버 시드가 유지가 안되는 것 같은데 이건 문의가 필요할 것 같아 보이네요.

인간은대체왜그럴까
2025.06.30 11:43

이번 대회는 의도한 것 같아요. 채점 방식에도 저렇게 명시되어 있긴 하네요

Cafelatte
2025.06.30 12:57

읽어보니 의도한 것 같네요. 근대 이런 방식이면 리더보드자체가 의미가 없는데... 의아하긴 하네요. 알려주셔서 감사합니다 !

인간은대체왜그럴까
2025.06.30 14:19

저도 궁금하긴 하네요.. 어떤 의미로 랜덤 샘플링을 기준으로 잡으신건지 ㅜㅜ

Cafelatte
2025.06.30 12:57

삭제된 댓글입니다