가스공급량 수요예측 모델개발

알고리즘 | 정형 | 회귀 | 수요예측 | NMAE

  • moneyIcon 상금 : 총 3,250만원
  • 475명 마감
마감

 

데이터와 관련해서 좀 더 명확한 규정이 필요할 것 같습니다

작성자 비공개
2021.10.28 21:55 1,272 조회

외부 데이터 사용을 허가해버리면 leakage가 일어날 수 밖에 없을 것 같습니다.

test 데이터 시점의 정보를 가져오는 것 뿐 아니라,

구분을 유추한 후 해당되는 데이터를 사용하는 경우 등

이러면 참가자도, 주최측도 복잡해지고 곤란한 상황이 될 것 같습니다.


제 생각엔 이용할 수 있는 데이터를 명시해주시거나,

제공해주신 데이터 외에 사용하지 못하게 하는 것이

더 클리어한 것 같은데요.

규정이 변경될 일은 없는 건가요? 관련해서 어떤 입장이신지 문의드립니다.

로그인이 필요합니다
0 / 1000
DACONIO
2021.12.21 11:55

안녕하세요. 작성자님.

본 경진대회는 2018년 12월 31일까지의 정보로 테스트 기간의 가스 공급량 수요 예측을 하는 것을 목표로 하고 있습니다.
이에 따라 2018년 12월 31일 후 획득 가능한 데이터 사용은 data leakage에 해당합니다.

외부데이터의 허용이 data leakage의 가능성을 높인다고 말씀해주신 부분은 충분히 이해합니다. 
그런 관리의 어려움에도 불구하고, 보다 예측력이 높은 모델을 만들기를 목적으로 하고 있어 외부데이터를 허용했습니다.
대회 참가자분들을 신뢰하는 동시에 관련해서는 대회 중 또는 평가단계에서 data leakage 가능성을 모니터링하고 있고 발견되는 경우 탈락조치합니다.

감사합니다.
데이콘 드림.

anonymous
작성자
2021.10.29 17:08

삭제된 댓글입니다

anonymous
작성자
2021.10.29 17:15

현재 데이터 내에 A,B,C 등의 구분이 있는데 (아마 지역으로 예상됩니다)
A, B, C의 지역을 유추한 후, 지역에 해당하는 2019년도 이전 데이터(해당 지역의 온도, 인구 등)를 취득해서 예측하는 경우 leakage 인가요 아닌가요?

DACONIO
2021.12.21 11:55

안녕하세요 작성자님.

2018년 12월 31일 이전에 공개된 데이터는 data leakage에 해당하지 않습니다.

감사합니다. 
데이콘 드림.