분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
2022 UOS 빅데이터 알고리즘 경진대회
Data Leakage에 대한 질문
일반적으로 통용되는 상식을 최종결과물에 반영하고 싶은데 혹시 다음과 같은 경우가 Data Leakage에 해당되지는 않겠죠??
예를 들어, 한국의 장마기간이 6~7월 중에 발생한다는 '일반적 상식'으로 test데이터 6~7월에 페널티(또는 가중치)를 주는 코드를 넣은 경우입니다.
test데이터의 어떤 정보도 사용하지 않았고 그저 일반적 상식을 사용한 경우인데 규칙의
가 마음에 걸려서 혹시나 싶어 질문드립니다.
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 fender님,
말씀해주신 방법은 Data Leakage 혹은 외부데이터 사용 규칙 위반에는 해당하지 않는 것으로 파악됩니다.
그러나 Train과 동일하게 Test에도 동일한 방식으로 가중치가 부여되어야 하며,
예를 들어 과거 데이터를 기반으로한 논리적인 분석 근거 자료가 없이 2022년에만 가중치가 다르게 부여되는 경우에는 추가 검증을 요구할 수 있으며, 검증 요구에 대한 해소가 불가능할 경우에는 Data Leakage에 해당될 수 있습니다.
감사합니다.