분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Data Leakage 관련 문의입니다.
안녕하세요
질문 있습니다.
피처 엔지니어링 중 샘플별 연관관계에 대한 피처를 만들고 싶다는 생각이 들었습니다.
그러나 여기서 궁금한 것은 그렇게 만든 피처를 테스트 데이터에도 생성하려면
테스트 데이터를 sort하는 등의 몇 가지 조작을 해야 할 텐데
이런 경우는 테스트 데이터를 전혀 모른다는 가정에 위배되는 것인지 궁금합니다.
추가적으로 어리석은 질문일지 모르지만
마땅히 물어볼 곳이 없어서..
혹시 피처 엔지니어링을 할 때 보통 샘플별 분석은 하지 않는지도 궁금합니다.
아 그렇다면
test data의 행의 개수를 피처로 넣는 것은 data leakage일까요?
그리고 test data set을 행 기준으로 sort하는 것은 안되는지 궁금합니다
안녕하세요. 하르딘님
예 그렇습니다.
test data의 행의 개수를 피처로 넣으면 data leakage입니다.
test data set을 sort하신다는 것이 어떤 말씀이신지 알려주실 수 있을까요?
감사합니다.
데이콘 드림
아! 그렇군요
감사합니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요. 하르딘님
train data셋을 기준으로 만든 규칙을 test data에 일괄적으로 적용하는 것은 data leakage가 아니나
test data셋 만을 활용하여 규칙을 만들면 data leakage입니다.
아울러, 토론 게시판을 활용하시면 다양한 참가자분들과 대회에 대한 논의를 하실 수 있습니다.
감사합니다.
데이콘 드림