분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
데이터 및 평가에 관해서 문의드립니다.
안녕하세요 이전에 올려주신 데이터에 오류가 있어 13일에 새로운 데이터 파일을 재업로드해주신걸로 알고 있습니다.
다름이 아니라 제가 과거에 올라온 데이터와 수정 후 올라온 데이터로 모델링해본 결과 점수에 차이가 발생하는걸로 확인되었습니다.
이전 데이터로 학습 후 제출한 리더보드 건에 대해서는 Reset을 시켜야 공정한 대회라고 생각하는데
이전에 제출된 파일들에 대한 Reset을 할 계획이신지, 과거 데이터로 분석을 진행할 시 발생할 수 있는 점수 상승에 대해 어떻게 모니터링할 계획이신지 여쭤보고 싶습니다.
감사합니다.
테스트 데이터는 변경을 못하지 않나요?
테스트 데이터는 추론 과정에서만 사용할 수 있다고 규칙에 적혀있고, 테스트 데이터는 변경을 못하는걸로 알고 있습니다.
말씀하신 부분은 트레인 데이터를 변경할 수 있다는 말씀이신것 같은데 테스트 데이터는 변환이 불가하므로 점수 초기화 및 코드 모니터링을 하는게 맞다고 생각합니다.
Serena Kim님.
안녕하세요. 데이콘 팀입니다.
우선 테스트 데이터를 추론 과정에서만 사용할 수 있다는 의미는, 학습 과정에서는 사용 불가능하다는 의미입니다.
또한 테스트 데이터를 가공하는 등의 변경은 가능합니다. 예를 들어 대회 데이터가 텍스트 데이터인 경우 train 데이터에 적용했던 텍스트 전처리 작업은 테스트 데이터에도 동일하게 적용 가능합니다.
다만, 테스트 데이터를 포함한 가공 (ex. min-max scaling 시 train 데이터와 test 데이터를 한 번에 fit 하여 변환하는 경우)는 data leakage에 해당됩니다.
감사합니다.
데이콘 팀 드림.
답변이 되었습니다 감사합니다
삭제된 댓글입니다
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
Serena Kim님.
안녕하세요. 데이콘 팀입니다.
새롭게 제공 된 데이터를 가공하여 이전에 제공된 데이터로 충분히 변환 할 수 있기 때문에, 해당 부분으로 인한 점수 초기화 계획은 따로 있지 않습니다.
감사합니다.
데이콘 팀 드림.