HAICon2020 산업제어시스템 보안위협 탐지 AI 경진대회

data leakage issue

2020.08.17 21:09 6,200 조회

1. 대회 규칙

  • 모델 학습에서 HAI 2.0 검증/평가 데이터셋(또는 그 일부) 사용 시 실격 처리됩니다.

예) 검증 데이터셋 내에 있는 정상 데이터를 일부 샘플링하여 학습에 사용하는 경우 등

  • 모델 검증/평가에서 결과 예측시점보다 미래의 데이터를 사용할 수 없습니다(Data Leakage).




2. 주어진 데이터셋



3. 이슈

  • forward looking을 하지 않기 위해, predict할 대상이 되는 데이터보다 시간 순서상 앞에 있는 데이터만 학습에 사용해야한다고 할때(위에 첨부한 두번째 대회 규칙에 의해) test1.csv를 예측하기 위해 사용할수 있는 train 데이터가 없음
  • (위에서와 같은 규칙에 의해) train2.csv, train3.csv를 test1, test2, test3 예측 모델을 만드는데 활용할수 없음
  • 실제 값을 까서 동일한지 확인해보지는 않았으나, [test1.csv, train1.csv, test2.csv]의 timestamp간에 overlap이 있음



의도하신 대회 규칙과 실제 데이터셋간에 차이가 있는것 같아 이슈로 올립니다. 확인 부탁드려요. 감사합니다.

로그인이 필요합니다
0 / 1000
DACONIO
2020.08.18 11:49

안녕하세요.
같은 파일 내에서만 data laekage 문제가 없으면 됩니다.
모델 학습 및 예측시 파일 사이의 data leakage 문제는 없습니다.

ex)
동일 test파일 예측시 17:23:04 데이터를 활용해 17:23:03 예측 (X)
2020년 7월 12일 train데이터로 학습 시킨 모델을 이용해 test파일 2020년7월 11일 예측 (O)