NH Investment & Securities Big Data Competition

Algorithm | Structured | Regression | Finance | RMSE

  • moneyIcon Prize : 총 5,000만원 규모 상금 및 경품 제공
  • 832 Users Completed
Closed

 

문의

Anonymous
2021.09.27 14:52 906 Views

안녕하세요.


밑에 질문 글에

1) train에서 주식 매수기간과 보유기간을 사용해서 매도 날짜를 계산하고, 매도 시점의 데이터를 사용하는 게 DATA LEAKAGE인가요?

이런 질문이 있었는데요.



이 부분이 왜 DATA Leakage인지 알려주실 수 있을까요 ?

제가 이해한 것은

예를 들어  train data의 어떤 example이


매수일 : 2020.09.01

보유일(hold_d) : 4일


이를 토대로, 개장일(외부 데이터)을 참고하여

매도 일자가 2020.09.04 라는 것을 알아내어 사용한 것이

리키지에 해당 된다는 것으로 이해했는데,

어떤 부분에서 누설에 해당 하는 것인지 알려주시면 감사하겠습니다.

Login Required
0 / 1000
DACONIO
2021.12.21 12:27

안녕하세요 작성자님.

답변에 문제가 있었던 것 같습니다.
답변의 의도는 2021년 매도 시점의 데이터를 사용하는 것은 data leakage라는 것을 의미합니다.
정확한 답변을 드리지 못해 혼란을 드린 점 죄송합니다.
해당 답변도 수정하도록 하겠습니다.

감사합니다. 
데이콘 드림.