[신규 오픈 기념] 데이스쿨 최대 40% 할인 🎁
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
여행 상품 신청 여부 예측 AI 해커톤
[private 11위] 0.92727, CatBoost
안녕하세요. 이번 대회의 공유해 주신 코드를 통해 많이 배웠고 많은 도움을 받았습니다.
특히 데이터 전처리에 대해 많이 배울 수 있었습니다. 부족하지만 제 코드를 공유합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
cols = ['TypeofContact','Occupation','Gender','ProductPitched','MaritalStatus','Designation']
for c in cols:
lbl = LabelEncoder()
lbl.fit(list(train_set[c].values))
lbl.fit(list(test_set[c].values))
train_set[c] = lbl.transform(list(train_set[c].values))
test_set[c] = lbl.transform(list(test_set[c].values))
라벨 인코딩과정에서 test_set을 이용하는 것은 data leakage에 해당됩니다. 또한, 결측치를 대체하는 과정도 마찬가지입니다.