분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Track1 알고리즘 부문 : K리그-서울시립대 공개 AI 경진대회
외부 데이터 및 데이터 누출 관련 문의
3) 외부 데이터 사용 금지
4) 평가 데이터 누수(Data Leakage)
game_id-episode 단위로 독립적으로 수행되어야 합니다. 예측은 해당 에피소드 내부의 시퀀스 데이터만을 입력으로 사용하여야 하며, 다른 에피소드(동일 경기 내 다른 episode 포함)의 데이터를 활용한 추론은 금지됩니다.위와 같이, train 데이터 전체를 활용한 사전 학습 모델 구축은 가능하다 되어있으나, 에피소드 간 정보 활용은 안된다고 되어있습니다.
에피소드 관련 제약을 보면, 에피소드 1을 추론하는 과정에서 에피소드 2, 3, ... 등 다른 에피소드의 정보를 가져와 에피소드 1의 추론에 사용하는 것은 금지된다고 볼 수 있습니다.
그렇다면, train 데이터 전체를 통합해 생성한 (사전 학습) 모델(여러 에피소드에 걸친 정보 활용)을 생성하고, 이를 추론 시점에서 활용하는 것은 가능한가요?
예를 들어, tree 기반 모델에서 player_id를 피쳐로 주면 학습/추론 시점에서 전체 에피소드에 걸친 player_id 특성을 추출하고 활용하게 됩니다.
에피소드 간 정보 활용의 제약이 정확히 어떻게 되는지 궁금합니다.
또한 match_info를 game_id로 결합해서 사용하는 경우, 이것도 '해당 에피소드 외부 데이터' 를 사용하게 되는건데(일부 피쳐는 에피소드 종료 후 알 수 있는 정보) 제약 조건에 문제가 되는건지 궁금합니다.
제가 이해하기에, 추론 시점에서 다른 데이터를 열어보고 동적으로 계산하여 피쳐를 생성하는 것 은 안되지만
추론 시점 이전에 일종의 룩업 테이블을 만들어두고(예: {선수 ID: 피쳐} 형태) 이를 추론 시점에 가져와 쓰는 것은 (일종의 데이터 증강이니) 가능이라고 보이는데
다른 에피소드 간 데이터를 활용한 추론 금지, 그리고 match_info.csv 파일 활용에 대해 더 자세히 설명 부탁드립니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
1) 제공된 학습 데이터 내에서의 활용은 모두 허용됩니다.
2) match_info.csv는 대회에서 공식적으로 제공된 데이터로, 외부 데이터에 해당하지 않으며 사용이 가능합니다.