데이스쿨! 가을맞이 특별할인
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
제공 데이터 관련 질문
대회 측에서 제공한 public_data의 test_files의 의미가 궁금합니다. test_files의 기간이 왜 그렇게 설정되었는지 궁금하고, 특정 날짜의 엑셀 파일을 보면 특정 날짜 이전의 정보들이 들어있는데 그 이유와 사용처와 모르겠습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요.
public_data의 test_files는 2020년 9월 29일 ~ 2020년 11월 5일 날짜로 구분되어있습니다.
이렇게 데이터를 날짜로 구분해놓은 이유는 학습 데이터 추가 과정에서 Data Leakage를 막고, 편의성을 제공하기 위함입니다.
해당 기간(2020년 9월 29일 ~ 2020년 11월 5일)에 추가적으로 사용할 수 있는 학습데이터가 다릅니다.
예를 들어 2020년 9월 29일에는 train.csv(~2020년 9월 28일)만 학습에 사용이 가능하지만,
2020년 9월 30일에는 train.csv 파일에 더해 2020년 9월 29일의 데이터도 학습에 사용이 가능합니다. (해당 시점에 얻을 수 있는 데이터라 간주)
때문에 각 test 파일들이 특정 날짜 이전의 정보들을 포함하고 있는 것입니다.
이렇게 구분해 놓았을 때, 일자를 기준으로 train.csv 파일과 test_{날짜}.csv 파일을 concat해서 최종적인 train set으로 활용할 수 있습니다. (baseline 코드의 '추론' 부분 참고)
감사합니다.
데이콘 드림.