Agricultural Product Price Prediction AI Contest

Algorithm | Structured | Regression | Crops | RMSE

  • moneyIcon Prize : 2,600만원
  • 2,027 Users Completed

 

제공 데이터 관련 질문

Anonymous
2021.09.03 13:21 1,372 Views

대회 측에서 제공한 public_data의 test_files의 의미가 궁금합니다. test_files의 기간이 왜 그렇게 설정되었는지 궁금하고, 특정 날짜의 엑셀 파일을 보면 특정 날짜 이전의 정보들이 들어있는데 그 이유와 사용처와  모르겠습니다.

Login Required
0 / 1000
DACONIO
2021.12.21 11:51

안녕하세요.

public_data의 test_files는 2020년 9월 29일 ~ 2020년 11월 5일 날짜로 구분되어있습니다.
이렇게 데이터를 날짜로 구분해놓은 이유는 학습 데이터 추가 과정에서 Data Leakage를 막고, 편의성을 제공하기 위함입니다.

해당 기간(2020년 9월 29일 ~ 2020년 11월 5일)에 추가적으로 사용할 수 있는 학습데이터가 다릅니다.
예를 들어 2020년 9월 29일에는 train.csv(~2020년 9월 28일)만 학습에 사용이 가능하지만,
2020년 9월 30일에는 train.csv 파일에 더해 2020년 9월 29일의 데이터도 학습에 사용이 가능합니다. (해당 시점에 얻을 수 있는 데이터라 간주)
때문에 각 test 파일들이 특정 날짜 이전의 정보들을 포함하고 있는 것입니다.

이렇게 구분해 놓았을 때, 일자를 기준으로 train.csv 파일과 test_{날짜}.csv 파일을 concat해서 최종적인 train set으로 활용할 수 있습니다. (baseline 코드의 '추론' 부분 참고)

감사합니다.
데이콘 드림.