토스 NEXT ML CHALLENGE : 광고 클릭 예측(CTR) 모델 개발

시간 정보 문의

2025.09.28 19:49 690 Views

안녕하세요. 대회 참가자입니다.


현재 제공된 데이터에 시간 정보(timestamp, date 등)가 포함되어있지 않은데요.

이럴 경우, Train Set 데이터를 Train/Valid로 나눴을 때 data leakage 위험이 있어보입니다.

데이터를 랜덤하게 나눈다면. 미래 데이터를 학습해서 과거를 예측하는 데 사용할 수 있어, 실제 성능과 검증 성능 간 차이가 발생할 수 있을 것 같습니다.

따라서 시간 데이터도 함께 제공이 가능한지 문의드립니다.

만약 개인정보 식별 이슈가 있다면, 시간을 순서 정보와 같은 익명화 된 시간 정보로 제공해주셔도 좋을 것 같습니다.


그리고 현재 train, test set은 이런 시간 순서가 고려되어 나뉜 상태인지 궁금합니다.

안내 부탁드립니다. 감사합니다 :)



Login Required
0 / 1000
oglaperry22
2025.10.18 16:41

시간 정보가 없는 상태에서 랜덤 분할을 하면 말씀하신 것처럼 data leakage 문제가 생길 수 있죠.
특히 시계열적 특성이 내포된 데이터라면 순서 기반 분할이 꼭 필요하다고 생각합니다 https://sprunkigames.io