분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
토스 NEXT ML CHALLENGE : 광고 클릭 예측(CTR) 모델 개발
시간 정보 문의
안녕하세요. 대회 참가자입니다.
현재 제공된 데이터에 시간 정보(timestamp, date 등)가 포함되어있지 않은데요.
이럴 경우, Train Set 데이터를 Train/Valid로 나눴을 때 data leakage 위험이 있어보입니다.
데이터를 랜덤하게 나눈다면. 미래 데이터를 학습해서 과거를 예측하는 데 사용할 수 있어, 실제 성능과 검증 성능 간 차이가 발생할 수 있을 것 같습니다.
따라서 시간 데이터도 함께 제공이 가능한지 문의드립니다.
만약 개인정보 식별 이슈가 있다면, 시간을 순서 정보와 같은 익명화 된 시간 정보로 제공해주셔도 좋을 것 같습니다.
그리고 현재 train, test set은 이런 시간 순서가 고려되어 나뉜 상태인지 궁금합니다.
안내 부탁드립니다. 감사합니다 :)
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
시간 정보가 없는 상태에서 랜덤 분할을 하면 말씀하신 것처럼 data leakage 문제가 생길 수 있죠.
특히 시계열적 특성이 내포된 데이터라면 순서 기반 분할이 꼭 필요하다고 생각합니다 https://sprunkigames.io