분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
test 데이터셋 data leakage 관련 문의!
안녕하세요.
기본 베이스 코딩에 의하면, test.csv를 불러온 후,
'일시/시간/구분' 컬럼의 내용으로부터
'구분', 'month', 'day', 'weekday', '시간'이라는 다섯 개의 컬럼을 생성해내고
이를 test_x 라는 데이터프레임에 넣고, 이를 predict( ) 구문에 넣고 예측을 합니다.
제 질문은 다음과 같습니다.
원래 test.csv 파일에 있는 '일시/시간/구분' 컬럼에서 (위의 다섯개의 컬럼 외에도) 추가로 다른 컬럼을 파생 생성하여
test_x라는 데이터프레임에 (기존 다섯개의 컬럼 옆에 병행해서) 추가로 넣고,
이를 predict( ) 구문에 넣고 예측을 해도 되는지 문의드립니다.
(data leakage 관련 문의)
제 생각에는 2019년 자료를 다른 곳에서 가져와 덧붙이는 것이 아니고,
주어진 test.csv 파일의 기존 '일시/시간/구분' 컬럼 값에서 파생해서 추가적인 컬럼을 만드는 것이기 때문에
문제가 없을 거라고 판단됩니다.
확인해 주시면 감사하겠습니다.
빠른 회신 감사합니다. 추가로 좀 더 구체적으로 질문드리겠습니다.
테스트셋에 들어가는 19년 1월 1일 ~ 3월31일 날짜를 통해서
90일중에 어떤 날이 24절기(예, 입춘, 우수, ...)에 들어가는지 '절기FLAG'을 추가로 생성할 수 있습니다.
이런 절기FLAG를 테스트셋에 기존 날짜로부터 유추해서 생성가능해서 사용해도 되는지 최종적으로 확인받고 싶습니다.
답변 주신 글의 논리에 의하면 가능하다고 판단이 됩니다.
그래도 작업이 헛수고가 되는 것을 막고 싶어서, 작업시작하기 전에 여쭤보고 확인받고 싶습니다.
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요. JasonLec님
날짜와 같이 test 기간 전에 획득 가능한 데이터 사용은 data leakage에 해당하지 않습니다.
감사합니다.
데이콘 드림.