데이터 누수관련 문의

2025 전력사용량 예측 AI 경진대회

데이터 누수관련 문의

또도박사

2025.08.14 17:24 1,132 조회

안녕하세요. 대회가 무르익어 가는 가운데 고생이 많습니다.

다름아니라, 데이터 누수 관련 질문의 있습니다.

본 대회에서 제공되는 train과 test데이터 가 있을 때,

train데이터를 나눠서 train,val로 split하지 않습니까?

1.스케일러로 fit할 때 전체 데이터(train+val)로 fit하면 데이터 누수에 해당되나요?

test데이터는 일절 사용하지 않았습니다.

2.스케일러로 fit할때 추론용 으로 주신 test셋을 쓰면 데이터 누수에 해당 되나요?

감사합니다.

댓글 1개

로그인이 필요합니다

comment

0 / 1000

basslibrary

2025.08.15 16:50

1번. 누수가 아닙니다.
  부연설명을 하면, train+val 전체에 해당하는 scale을 적용하여, val 점수에 최적화된 모델을 만들었다면,
  최적화된 모델이 test 데이터에 대해서도 좋은 성능을 보일 거라고 생각하기 어렵지 않을까요?
  즉, train에 대한 scale값만 사용해야 되지 않을까요?
2번. train+test 전체에 대해서나, test데이터 전체에 대해 fit을 사용하면 데이터 누수입니다.
   모델을 평가하는 용도로 제공된 test 데이터가 N 건이 제공되었을 수 있지만, 실제 데이터는
   1건일지 1000건일지 알수 없는 데이터가 제공된다고 가정합니다.
   훈련모델에 test데이터가 한건씩 입력하여, 결과를 수집하는 구조라고 생각해야 합니다.
   따라서, test에 대해서는 통계를 뽑으려고 하면 안됩니다.

📣 댓글 작성 창의 위치가 댓글 리스트 상단으로 이동했습니다!

목록으로

cube 인터뷰

대회 - 2025 SW중심대학 디지털 경진대회 : AI부문

10달 전

현재 글

데이터 누수관련 문의

대회 - 2025 전력사용량 예측 AI 경진대회

10달 전

21 원정대 팀 인터뷰

대회 - 2025 SW중심대학 디지털 경진대회 : AI부문

10달 전