분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
데이터 문의 드립니다.
안녕하세요. 데이터에 관하여 질문 드립니다.
stk_bnc_hist를 참조하면,
stk_hld_train 데이터는 해당 고객이 해당 주식을 1주라도 팔면 그 날을 매도일이라고 보고 hold_d를 계산하는 것으로 보입니다.
그런데, 왜 stk_hld_test데이터는 해당 고객이 해당 주식 몇 주를 매도한 기록이 있는데도 거기까지를 hold_d로 보는 것이 아닌가요?(왜 hist_d에 그 날들도 포함이 되어있나요?)
예시를 들자면, stk_hld_test 파일에 있는
0ad104dbed99be0cd858aa772765ddedade554601a981bec9b177d8416085534 // A131760 // 20200120 // 236 // IDX00004 // 0
이 데이터를 보시면 해당 고객이 A131760을 2020년 01월 20일에 최초 매도해서 236일동안 가지고 있었다고(hist_d) 적혀있고, 이에 2021년 기간까지를 포함한 hold_day 를 예측하는 것이 목표입니다.
그런데 stk_bnc_hist를 보시면,
0ad104dbed99be0cd858aa772765ddedade554601a981bec9b177d8416085534 // 20200120 // A131760 // 2972 // 6716720 // 500 0ad104dbed99be0cd858aa772765ddedade554601a981bec9b177d8416085534 // 20200121 // A131760 // 2000 // 4730000 // 500 0ad104dbed99be0cd858aa772765ddedade554601a981bec9b177d8416085534 // 20200214 // A131760 // 1969 // 4410560 // 500 0ad104dbed99be0cd858aa772765ddedade554601a981bec9b177d8416085534 // 20200225 // A131760 // 1977 // 3963885 // 500
해당 고객은 2020년 01월 20일 이후 주식을 몇차례에 거쳐 팔았던 기록이 있습니다.
그럼에도 test데이터에는 hist_d에 그대로 2020년 12월 31일까지 보유한 날짜가 적혀있습니다.
만약 0 주가 되도록 전량 매도해야 그 날까지의 기간을 hold_day, 주식 보유 기간이라고 본다면,
어째서 stk_hld_train에는 hold_day가 그렇게(1주라도 팔면 매도일로 보도록) 산정이 되어있는 것인가요?
즉 stk_hld_train과 stk_hld_test가 hold_day를 산정하는 방식이 다른 것 아닌가요?
hold_day를 산정할 때 전량 매도한 날을 기준으로 일수를 세는 것인지, 현재 train 데이터처럼 1주라도 매도한 날을 기준으로 일수를 세는 것인지 꼭 답변해주시면 혼동이 없을 것 같습니다.
감사합니다.
삭제된 댓글입니다
train 데이터와 test 데이터에서 hold_d를 산정하는 방식은 동일합니다.
hold_d는 특정 고객이 특정 주식을 매수하여 전량 매도하는 날까지의 개장일 수 입니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 작성자님.
hold_d는 전량 매도한 날을 기준으로 일수를 셉니다.
예로 보여주신 0ad104dbed99be0cd858aa772765ddedade554601a981bec9b177d8416085534 // A131760 // 20200120 // 236 // IDX00004 의 경우
말씀하신 것처럼 매수 이후 주식을 조금씩 매도했지만 2021년 이전에 전량 매도 하지 않았기 때문에 stk_hld_test데이터에만 존재하고 "stk_hld_train데이터에는 존재하지 않습니다". 1주라도 매도한 날을 기준으로 일수를 세었다면 skt_hld_train데이터에 hold_d가 측정돼야 합니다.
train[(train.act_id == "0ad104dbed99be0cd858aa772765ddedade554601a981bec9b177d8416085534") &(train.iem_cd == "A131760")]
--> 결과값이 출력되지 않습니다.
감사합니다.
데이콘 드림.