데이스쿨! 가을맞이 특별할인
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
2025 전력사용량 예측 AI 경진대회
데이터 누수관련 문의
안녕하세요. 대회가 무르익어 가는 가운데 고생이 많습니다.
다름아니라, 데이터 누수 관련 질문의 있습니다.
본 대회에서 제공되는 train과 test데이터 가 있을 때,
train데이터를 나눠서 train,val로 split하지 않습니까?
1.스케일러로 fit할 때 전체 데이터(train+val)로 fit하면 데이터 누수에 해당되나요?
test데이터는 일절 사용하지 않았습니다.
2.스케일러로 fit할때 추론용 으로 주신 test셋을 쓰면 데이터 누수에 해당 되나요?
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
1번. 누수가 아닙니다.
부연설명을 하면, train+val 전체에 해당하는 scale을 적용하여, val 점수에 최적화된 모델을 만들었다면,
최적화된 모델이 test 데이터에 대해서도 좋은 성능을 보일 거라고 생각하기 어렵지 않을까요?
즉, train에 대한 scale값만 사용해야 되지 않을까요?
2번. train+test 전체에 대해서나, test데이터 전체에 대해 fit을 사용하면 데이터 누수입니다.
모델을 평가하는 용도로 제공된 test 데이터가 N 건이 제공되었을 수 있지만, 실제 데이터는
1건일지 1000건일지 알수 없는 데이터가 제공된다고 가정합니다.
훈련모델에 test데이터가 한건씩 입력하여, 결과를 수집하는 구조라고 생각해야 합니다.
따라서, test에 대해서는 통계를 뽑으려고 하면 안됩니다.