DASCHOOL! Fall Special Discount
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
제공 데이터 관련 질문
대회 측에서 제공한 public_data의 test_files의 의미가 궁금합니다. test_files의 기간이 왜 그렇게 설정되었는지 궁금하고, 특정 날짜의 엑셀 파일을 보면 특정 날짜 이전의 정보들이 들어있는데 그 이유와 사용처와 모르겠습니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요.
public_data의 test_files는 2020년 9월 29일 ~ 2020년 11월 5일 날짜로 구분되어있습니다.
이렇게 데이터를 날짜로 구분해놓은 이유는 학습 데이터 추가 과정에서 Data Leakage를 막고, 편의성을 제공하기 위함입니다.
해당 기간(2020년 9월 29일 ~ 2020년 11월 5일)에 추가적으로 사용할 수 있는 학습데이터가 다릅니다.
예를 들어 2020년 9월 29일에는 train.csv(~2020년 9월 28일)만 학습에 사용이 가능하지만,
2020년 9월 30일에는 train.csv 파일에 더해 2020년 9월 29일의 데이터도 학습에 사용이 가능합니다. (해당 시점에 얻을 수 있는 데이터라 간주)
때문에 각 test 파일들이 특정 날짜 이전의 정보들을 포함하고 있는 것입니다.
이렇게 구분해 놓았을 때, 일자를 기준으로 train.csv 파일과 test_{날짜}.csv 파일을 concat해서 최종적인 train set으로 활용할 수 있습니다. (baseline 코드의 '추론' 부분 참고)
감사합니다.
데이콘 드림.