데이스쿨! 가을맞이 특별할인
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Data leakage에 관한 문의 사항
안녕하세요! Data Leakage에 관해 궁금점이 있어 문의드립니다.
데이터셋을 하나씩 확인해보면서 데이터셋 안에서 확인된 배경지식을 활용해도 되는지 궁금합니다.
예를 들어,
1. A 메뉴가 2023-01~05까지는 판매량이 0이었는데 2023-06부터 판매하기 시작
-> A 메뉴가 06월에 출시했을 것이라는 판단
2. B 메뉴가 2023-09~2024-03에만 판매
-> 계절 메뉴일 것이라는 판단
-> B 메뉴는 제철이 9월부터 3월이라는 지식
3. C 메뉴가 2024-03까지만 판매
-> C 메뉴는 단종되었을 것이라는 판단
위 3가지 예시 중 반영하면 안되는 번호와 이유에 대해 설명해주시면 감사하겠습니다!
제가 도메인 지식의 여부를 말씀드린다는 것을 데이터 누수로 잘못 전달드린 것 같습니다. 특히 2번과 같은 사항은 도메인 지식에 해당하는지 알고 싶습니다!
도메인 지식이라기 보다는 EDA를 통한 데이터 분석에 가깝습니다. 전혀 문제될 소지가 없습니다 ㅎㅎ
감사합니다!!!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
질문의 기간이 모두 train set의 기간 내이므로, data leakage는 아닙니다.