유전체 정보 품종 분류 AI 경진대회

대회 채점 방식 문의

2022.12.22 09:13 2,273 Views

안녕하세요

대회 채점 방식 문의드립니다.

대회가 종료되면 Test data의 100%를 활용하여 평가한다고 규칙에 써있던데, public test data 60%도 채점에 활용되는건가요?

데이터가 크지 않아 의심되는 라벨을 바꿔보면서 True class를 찾을 수 있을것 같습니다.( 1~2개 차이로 순위변동이 클 것 같아서 샘플 하나하나가 소중합니다ㅜㅜ)

코드를 보시겠지만 정답을 알고 모델링하면 막기는 어려우실텐데ㅜㅜ(이런 경우 다른 플랫폼에서는 개인 참가자가 웹 사이트를 만들어 다같이 정답지를 공유하는 사태도 발생했었습니다..)

로그인이 필요합니다
0 / 1000
portion_jack
2022.12.22 09:23

정답을 알고 하는 모델링의 흔적을 발견하기 어렵지 않을것으로 생각되는데, 어려운가요? (개인적인 궁금증입니다..)

처음해봐요
2022.12.22 11:24

Seed를 변경하면서 모델링하거나 파라미터 변경 post processing 등등이 있을것 같습니다.

DACON.GM
2022.12.22 10:33

안녕하세요 처음해봐요님,
먼저 현재 리더보드에 나타나는 점수는 Test 데이터셋에서 사전에 임의로 샘플링된 60%로만 채점된 결과(Public Score)입니다.
대회 종료 후 Test 데이터셋의 전체 100%로 채점된 결과가 Private 리더보드의 점수이며, 모든 평가는 Private Score로만 이루어집니다.
또한 직접 수기로 예측 Label을 변경하며 제출하는 행위는 부정행위에 해당하며, 적발 시 실격처리됩니다.
감사합니다.

처음해봐요
2022.12.22 11:53

Private에서 Public test는 제외하지 않는거죠?
수기로 예측하지 않고 그럴듯하게 모델링해서 나올 수 있고 라벨을 하나씩 꿔 제출하는것도 모델링해서 나왔다고 하면... 
대회에서 비슷한 사례가 있어 걱정이 많이됩니다. 주최측도 원하는 결과를 가져가지 못할 것이고요.
방지하려면 test sample을 조금 더 추가하고 나머지 40% sample + 추가된 sample 로만 private 평가하는 것이 좋을 것 같은데 검토 부탁드립니다!

DACON.GM
2022.12.22 12:36

안녕하세요 처음해봐요님,
우려하시는 방식의 부정행위는 추후 코드 검증 과정에서도 상세하게 검증을 요구합니다.
예를 들어, 수기로 답을 작성해나가면서 나름의 test 데이터에 대한 답지를 구축하고 그것을 바탕으로 모델 하이퍼파라미터를 튜닝하는 등의 방법 역시
코드 검증 과정에서 코드와 솔루션 상의 뚜렷한 인과관계가 없다면 추가 검증을 요구합니다.
감사합니다.