DACON Monthly Credit Card User Arrear Prediction AI Competition

Algorithm | Structured | Classification | Finance | LogLoss

  • moneyIcon Prize : KRW 1M
  • 3,855 Users Completed

 

Data Leakage 관련 문의입니다.

2021.04.23 10:42 1,353 Views

안녕하세요

질문 있습니다.


피처 엔지니어링 중 샘플별 연관관계에 대한 피처를 만들고 싶다는 생각이 들었습니다.

그러나 여기서 궁금한 것은 그렇게 만든 피처를 테스트 데이터에도 생성하려면

테스트 데이터를 sort하는 등의 몇 가지 조작을 해야 할 텐데


이런 경우는 테스트 데이터를 전혀 모른다는 가정에 위배되는 것인지 궁금합니다.


추가적으로 어리석은 질문일지 모르지만

마땅히 물어볼 곳이 없어서..

혹시 피처 엔지니어링을 할 때 보통 샘플별 분석은 하지 않는지도 궁금합니다.

Login Required
0 / 1000
DACONIO
2021.12.23 09:54

안녕하세요. 하르딘님

train data셋을 기준으로 만든  규칙을 test data에 일괄적으로 적용하는 것은 data leakage가 아니나
test data셋 만을 활용하여 규칙을 만들면 data leakage입니다.
아울러, 토론 게시판을 활용하시면 다양한 참가자분들과 대회에 대한 논의를 하실 수 있습니다.

감사합니다.
데이콘 드림

하르딘
2021.04.23 13:30

아 그렇다면
test data의 행의 개수를 피처로  넣는 것은 data leakage일까요?

그리고 test data set을 행 기준으로 sort하는 것은 안되는지 궁금합니다 

DACONIO
2021.12.23 09:54

안녕하세요. 하르딘님

예 그렇습니다. 

test data의 행의 개수를 피처로 넣으면 data leakage입니다.
test data set을 sort하신다는 것이 어떤 말씀이신지 알려주실 수 있을까요?

감사합니다.
데이콘 드림

하르딘
2021.04.23 15:31

아! 그렇군요
감사합니다!