Gas Supply Demand Forecast Competition

Algorithm | Structured| Regression | Demand forecasting | NMAE

  • moneyIcon Prize : 총 3,250만원
  • 475 Users Completed
Closed

 

test 데이터셋 data leakage 관련 문의!

2021.10.27 15:24 1,126 Views

안녕하세요.

기본 베이스 코딩에 의하면, test.csv를 불러온 후,

'일시/시간/구분' 컬럼의 내용으로부터

'구분', 'month', 'day', 'weekday', '시간'이라는 다섯 개의 컬럼을 생성해내고

이를 test_x 라는 데이터프레임에 넣고, 이를 predict( )  구문에 넣고 예측을 합니다.


제 질문은 다음과 같습니다.

원래 test.csv 파일에 있는 '일시/시간/구분' 컬럼에서 (위의 다섯개의 컬럼 외에도) 추가로 다른 컬럼을 파생 생성하여

test_x라는 데이터프레임에 (기존 다섯개의 컬럼 옆에 병행해서) 추가로 넣고,

이를 predict( ) 구문에 넣고 예측을 해도 되는지 문의드립니다.

(data leakage 관련 문의)


제 생각에는 2019년 자료를 다른 곳에서 가져와 덧붙이는 것이 아니고,

주어진 test.csv 파일의 기존 '일시/시간/구분' 컬럼 값에서 파생해서 추가적인 컬럼을 만드는 것이기 때문에

문제가 없을 거라고 판단됩니다.

확인해 주시면 감사하겠습니다.

Login Required
0 / 1000
DACONIO
2021.12.21 11:56

안녕하세요. JasonLec님

날짜와 같이 test 기간 전에 획득 가능한 데이터 사용은 data leakage에 해당하지 않습니다.

감사합니다.
데이콘 드림.

JasonLec
2021.10.27 16:50

빠른 회신 감사합니다. 추가로 좀 더 구체적으로 질문드리겠습니다.

테스트셋에 들어가는 19년 1월 1일 ~ 3월31일 날짜를 통해서
90일중에 어떤 날이 24절기(예, 입춘, 우수, ...)에 들어가는지 '절기FLAG'을 추가로 생성할 수 있습니다.
이런 절기FLAG를 테스트셋에 기존 날짜로부터 유추해서 생성가능해서 사용해도 되는지 최종적으로 확인받고 싶습니다.

답변 주신 글의 논리에 의하면 가능하다고 판단이 됩니다.
그래도 작업이 헛수고가 되는 것을 막고 싶어서, 작업시작하기 전에 여쭤보고 확인받고 싶습니다.

감사합니다.