서울시 따릉이 대여량 예측 경진대회

정형 | 알고리즘 | 초급

  • moneyIcon 상금 : 교육
  • 5,348명 종료까지 D-24

 

따릉이 데이터를 활용한 데이터 분석 2 (전처리)

2020.06.27 13:13 7,973 조회


로그인이 필요합니다
0 / 1000
살기좋은첨단
2022.02.11 09:57

test 데이터 파일의 결측값을 채워줄 때 train 데이터 파일에서의 평균값을 넣어주시는데, test 데이터 파일의 평균값을 넣어줘도 되나요??

train 데이터의 값이 더 많기 때문에 train 데이터를 선택하신 건가요?

DACONIO
2022.02.11 10:11

안녕하세요 살기좋은첨단 님.

Test Data는 모델의 학습, 또는 데이터의 전처리에 이용하실 수 없습니다.
왜냐하면 Test Data는 결과값을 추론하기 전까지 절대로 알 수 없는 데이터로 가정하기 때문입니다.
이러한 가정하에 추론을 진행해야 모델이 실전에서 효과가 있는지 파악할 수 있습니다.

또한 이것은 모든 경진대회에서 동일하게 적용되는 규칙입니다.
Test Data를 모델의 학습, 데이터 전처리에 이용하는 경우 저희는 이것을 "Data Leakage"라고 표현하며, 이를 범하는 참가자는 대회에서 실격처리합니다.

감사합니다.

살기좋은첨단
2022.02.11 10:36

답변 감사합니다!!

krooner
2022.05.22 11:38

좋은 정보 감사합니다.

비닐번호486
2023.03.13 10:52

좋은 정보 감사합니다

이전 글
이전 글이 존재하지 않습니다.
현재 글
따릉이 데이터를 활용한 데이터 분석 2 (전처리)
대회 - 서울시 따릉이 대여량 예측 경진대회
좋아요 17
조회 7,973
댓글 5
5년 전
다음 글
대회 기간 중 제출 가능한 최대 횟수가 초과 되었습니다.~~라는 메시지 뜨면서 제출이 안됩니다.
대회 - 서울시 따릉이 대여량 예측 경진대회
좋아요 3
조회 3,447
댓글 4
3년 전