DASCHOOL! Fall Special Discount
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
식음업장 메뉴 수요 예측 AI 온라인 해커톤
Data leakage에 관한 문의 사항
안녕하세요! Data Leakage에 관해 궁금점이 있어 문의드립니다.
데이터셋을 하나씩 확인해보면서 데이터셋 안에서 확인된 배경지식을 활용해도 되는지 궁금합니다.
예를 들어,
1. A 메뉴가 2023-01~05까지는 판매량이 0이었는데 2023-06부터 판매하기 시작
-> A 메뉴가 06월에 출시했을 것이라는 판단
2. B 메뉴가 2023-09~2024-03에만 판매
-> 계절 메뉴일 것이라는 판단
-> B 메뉴는 제철이 9월부터 3월이라는 지식
3. C 메뉴가 2024-03까지만 판매
-> C 메뉴는 단종되었을 것이라는 판단
위 3가지 예시 중 반영하면 안되는 번호와 이유에 대해 설명해주시면 감사하겠습니다!
제가 도메인 지식의 여부를 말씀드린다는 것을 데이터 누수로 잘못 전달드린 것 같습니다. 특히 2번과 같은 사항은 도메인 지식에 해당하는지 알고 싶습니다!
도메인 지식이라기 보다는 EDA를 통한 데이터 분석에 가깝습니다. 전혀 문제될 소지가 없습니다 ㅎㅎ
감사합니다!!!
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
질문의 기간이 모두 train set의 기간 내이므로, data leakage는 아닙니다.