분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
시계열 예측의 Data Leakage 규칙 관련 상세 설명
안녕하세요, LG Aimers 여러분!
AI 해커톤(경진대회)을 진행하다 보면, 가장 빈번하게 실격되는 이유 중 하나가 바로 Data Leakage입니다.
이로 인한 불이익을 받는 일이 없도록, Data Leakage의 개념과 사례에 대해 소개해 드리고자 합니다.
먼저 일반적인 Data Leakage(데이터 누수, 정보 누설)에 대한 개념은 [링크]에서 확인해볼 수 있습니다.
하지만 이번 해커톤의 경우에는 각 ID에 매핑되는 제품 특성 정보들을 기준으로 각가 '시계열 예측'을 수행해야하기 때문에,
일반적인 정형 데이터 예측 문제와 달리 시계열 예측 문제에 적용되는 Data Leakage 규칙에 중점적으로 설명드리고자 합니다.
이번 '온라인 채널 제품 판매량 예측 AI 오프라인 해커톤'의 데이터의 경우,
Train 데이터의 기간이 22년 1월 1일 ~ 23년 4월 24일까지의 일별 판매량 데이터로 구성되어 있고,
Test 데이터의 기간이 23년 4월 25일 ~ 23년 5월 15일까지로, 향후 21일의 일별 판매량을 예측해야합니다.
즉, 향후 21일의 ID 별 일별 판매량을 예측하는 것이기 때문에 별도의 추론을 위한 Input 데이터인 test.csv 파일은 제공하지 않습니다. (추론에 필요한 정보는 train.csv에서 모두 활용할 수 있으며, 이해가 어려운 경우에는 Baseline 코드를 참고해주세요)
다음은 본 해커톤을 진행하면서 가장 중요한 Data Leakage 규칙에 대한 내용을 정리한 내용입니다.
대회를 진행하면서 본인이 진행하는 방법이 Data Leakage에 해당하는지 햇갈리는 경우에는 꼭 사전에 데이콘에 문의하여 불이익을 받는 일이 없도록 부탁드리겠습니다.
데이콘은 앞으로도 투명하고 공정한 대회 운영을 위해 더욱 노력하겠습니다.
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved