Track1 알고리즘 부문 : K리그-서울시립대 공개 AI 경진대회

외부 데이터 및 데이터 누출 관련 문의

2025.12.25 06:47 864 조회

3) 외부 데이터 사용 금지

  • 본 경진대회에서 제공한 데이터 외의 모든 외부 데이터는 사용이 금지됩니다. 단, 제공된 학습 데이터를 바탕으로 사전 학습 모델 또는 허용된 도구를 활용해 데이터 증강 또는 생성하는 것은 가능합니다.

4) 평가 데이터 누수(Data Leakage)

  • 일반적인 AI 경진대회 원칙과 동일하게 테스트 데이터에 대한 사전 접근·활용 그로 인한 Data Leakage 행위는 일체 금지됩니다. 참가자는 학습 데이터 기반으로만 모델을 개발해야 합니다.
  • 모든 예측은 game_id-episode 단위로 독립적으로 수행되어야 합니다. 예측은 해당 에피소드 내부의 시퀀스 데이터만을 입력으로 사용하여야 하며, 다른 에피소드(동일 경기 내 다른 episode 포함)의 데이터를 활용한 추론은 금지됩니다.


위와 같이, train 데이터 전체를 활용한 사전 학습 모델 구축은 가능하다 되어있으나, 에피소드 간 정보 활용은 안된다고 되어있습니다.

에피소드 관련 제약을 보면, 에피소드 1을 추론하는 과정에서 에피소드 2, 3, ... 등 다른 에피소드의 정보를 가져와 에피소드 1의 추론에 사용하는 것은 금지된다고 볼 수 있습니다.


그렇다면, train 데이터 전체를 통합해 생성한 (사전 학습) 모델(여러 에피소드에 걸친 정보 활용)을 생성하고, 이를 추론 시점에서 활용하는 것은 가능한가요?

예를 들어, tree 기반 모델에서 player_id를 피쳐로 주면 학습/추론 시점에서 전체 에피소드에 걸친 player_id 특성을 추출하고 활용하게 됩니다.

에피소드 간 정보 활용의 제약이 정확히 어떻게 되는지 궁금합니다.


또한 match_info를 game_id로 결합해서 사용하는 경우, 이것도 '해당 에피소드 외부 데이터' 를 사용하게 되는건데(일부 피쳐는 에피소드 종료 후 알 수 있는 정보) 제약 조건에 문제가 되는건지 궁금합니다.


제가 이해하기에, 추론 시점에서 다른 데이터를 열어보고 동적으로 계산하여 피쳐를 생성하는 것 은 안되지만

추론 시점 이전에 일종의 룩업 테이블을 만들어두고(예: {선수 ID: 피쳐} 형태) 이를 추론 시점에 가져와 쓰는 것은 (일종의 데이터 증강이니) 가능이라고 보이는데

다른 에피소드 간 데이터를 활용한 추론 금지, 그리고 match_info.csv 파일 활용에 대해 더 자세히 설명 부탁드립니다.

로그인이 필요합니다
0 / 1000
DACON.GM
2026.01.02 10:27

1) 제공된 학습 데이터 내에서의 활용은 모두 허용됩니다.
2) match_info.csv는 대회에서 공식적으로 제공된 데이터로, 외부 데이터에 해당하지 않으며 사용이 가능합니다.