분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[private 11위] 0.92727, CatBoost
안녕하세요. 이번 대회의 공유해 주신 코드를 통해 많이 배웠고 많은 도움을 받았습니다.
특히 데이터 전처리에 대해 많이 배울 수 있었습니다. 부족하지만 제 코드를 공유합니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
cols = ['TypeofContact','Occupation','Gender','ProductPitched','MaritalStatus','Designation']
for c in cols:
lbl = LabelEncoder()
lbl.fit(list(train_set[c].values))
lbl.fit(list(test_set[c].values))
train_set[c] = lbl.transform(list(train_set[c].values))
test_set[c] = lbl.transform(list(test_set[c].values))
라벨 인코딩과정에서 test_set을 이용하는 것은 data leakage에 해당됩니다. 또한, 결측치를 대체하는 과정도 마찬가지입니다.