여행 상품 신청 여부 예측 AI 해커톤

[private 11위] 0.92727, CatBoost

2022.09.06 22:37 839 조회 language

안녕하세요. 이번 대회의 공유해 주신 코드를 통해 많이 배웠고 많은 도움을 받았습니다. 
특히 데이터 전처리에 대해 많이 배울 수 있었습니다. 부족하지만 제 코드를 공유합니다. 

코드
로그인이 필요합니다
0 / 1000
kisooofficial
2022.09.07 01:01

cols = ['TypeofContact','Occupation','Gender','ProductPitched','MaritalStatus','Designation']
for c in cols:
    lbl = LabelEncoder() 
    lbl.fit(list(train_set[c].values)) 
    lbl.fit(list(test_set[c].values)) 
    train_set[c] = lbl.transform(list(train_set[c].values))
    test_set[c] = lbl.transform(list(test_set[c].values))

라벨 인코딩과정에서 test_set을 이용하는 것은 data leakage에 해당됩니다. 또한, 결측치를 대체하는 과정도 마찬가지입니다.