DASCHOOL! Fall Special Discount
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Data leakage에 관한 문의 사항
안녕하세요! Data Leakage에 관해 궁금점이 있어 문의드립니다.
데이터셋을 하나씩 확인해보면서 데이터셋 안에서 확인된 배경지식을 활용해도 되는지 궁금합니다.
예를 들어,
1. A 메뉴가 2023-01~05까지는 판매량이 0이었는데 2023-06부터 판매하기 시작
-> A 메뉴가 06월에 출시했을 것이라는 판단
2. B 메뉴가 2023-09~2024-03에만 판매
-> 계절 메뉴일 것이라는 판단
-> B 메뉴는 제철이 9월부터 3월이라는 지식
3. C 메뉴가 2024-03까지만 판매
-> C 메뉴는 단종되었을 것이라는 판단
위 3가지 예시 중 반영하면 안되는 번호와 이유에 대해 설명해주시면 감사하겠습니다!
제가 도메인 지식의 여부를 말씀드린다는 것을 데이터 누수로 잘못 전달드린 것 같습니다. 특히 2번과 같은 사항은 도메인 지식에 해당하는지 알고 싶습니다!
도메인 지식이라기 보다는 EDA를 통한 데이터 분석에 가깝습니다. 전혀 문제될 소지가 없습니다 ㅎㅎ
감사합니다!!!
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
질문의 기간이 모두 train set의 기간 내이므로, data leakage는 아닙니다.