물류 유통량 예측 경진대회

알고리즘 | 정형 | 회귀 | 운송량 | RMSE

  • moneyIcon 상금 100만 원
  • 1,461명 마감

 

데이터 및 평가에 관해서 문의드립니다.

2021.12.15 16:42 1,454 조회

안녕하세요 이전에 올려주신 데이터에 오류가 있어 13일에 새로운 데이터 파일을 재업로드해주신걸로 알고 있습니다.

다름이 아니라 제가 과거에 올라온 데이터와 수정 후 올라온 데이터로 모델링해본 결과 점수에 차이가 발생하는걸로 확인되었습니다.

이전 데이터로 학습 후 제출한 리더보드 건에 대해서는 Reset을 시켜야 공정한 대회라고 생각하는데

이전에 제출된 파일들에 대한 Reset을 할 계획이신지, 과거 데이터로 분석을 진행할 시 발생할 수 있는 점수 상승에 대해 어떻게 모니터링할 계획이신지 여쭤보고 싶습니다.

감사합니다.


로그인이 필요합니다
0 / 1000
DACON.투게더
2021.12.15 16:57

Serena Kim님.

안녕하세요. 데이콘 팀입니다.

새롭게 제공 된 데이터를 가공하여 이전에 제공된 데이터로 충분히 변환 할 수 있기 때문에, 해당 부분으로 인한 점수 초기화 계획은 따로 있지 않습니다.

감사합니다. 

데이콘 팀 드림.

Serena Kim
2021.12.15 22:25

테스트 데이터는 변경을 못하지 않나요?

Serena Kim
2021.12.15 22:31

테스트 데이터는 추론 과정에서만 사용할 수 있다고 규칙에 적혀있고, 테스트 데이터는 변경을 못하는걸로 알고 있습니다.
말씀하신 부분은 트레인 데이터를 변경할 수 있다는 말씀이신것 같은데 테스트 데이터는 변환이 불가하므로 점수 초기화 및 코드 모니터링을 하는게 맞다고 생각합니다.

DACON.투게더
2021.12.16 09:12

Serena Kim님.

안녕하세요. 데이콘 팀입니다.
우선 테스트 데이터를 추론 과정에서만 사용할 수 있다는 의미는, 학습 과정에서는 사용 불가능하다는 의미입니다.
또한 테스트 데이터를 가공하는 등의 변경은 가능합니다. 예를 들어 대회 데이터가 텍스트 데이터인 경우 train 데이터에 적용했던 텍스트 전처리 작업은 테스트 데이터에도 동일하게 적용 가능합니다.
다만, 테스트 데이터를 포함한 가공 (ex. min-max scaling 시 train 데이터와 test 데이터를 한 번에 fit 하여 변환하는 경우)는 data leakage에 해당됩니다.

감사합니다.

데이콘 팀 드림.

Serena Kim
2021.12.16 14:37

답변이 되었습니다 감사합니다

Serena Kim
2021.12.15 22:25

삭제된 댓글입니다