분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
문의
안녕하세요.
밑에 질문 글에
1) train에서 주식 매수기간과 보유기간을 사용해서 매도 날짜를 계산하고, 매도 시점의 데이터를 사용하는 게 DATA LEAKAGE인가요?
이런 질문이 있었는데요.
이 부분이 왜 DATA Leakage인지 알려주실 수 있을까요 ?
제가 이해한 것은
예를 들어 train data의 어떤 example이
매수일 : 2020.09.01
보유일(hold_d) : 4일
이를 토대로, 개장일(외부 데이터)을 참고하여
매도 일자가 2020.09.04 라는 것을 알아내어 사용한 것이
리키지에 해당 된다는 것으로 이해했는데,
어떤 부분에서 누설에 해당 하는 것인지 알려주시면 감사하겠습니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 작성자님.
답변에 문제가 있었던 것 같습니다.
답변의 의도는 2021년 매도 시점의 데이터를 사용하는 것은 data leakage라는 것을 의미합니다.
정확한 답변을 드리지 못해 혼란을 드린 점 죄송합니다.
해당 답변도 수정하도록 하겠습니다.
감사합니다.
데이콘 드림.