분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 14위] Catboost + KMeans
안녕하세요, 코드 공유드립니다.
1. browser와 os는 개수가 많은 상위 카테고리만 남기고 other로 치환했습니다.
2. continent에 america와 american이 있는 걸 확인해 통일해주었습니다.
3. subcontinent에서 방향과 대륙을 분리해서 전처리한 후, 다시 합쳐 사용했습니다.
4. keyword, referral, traffic_medum, traffic_source의 경우 1,2와 같은 방식으로 처리했을 때 public score가 하락하여 그대로 사용했습니다.
5. session time 중 숫자 부분을 추가하여 Kmeans 과정에서 사용했습니다. (train 시에는 제외)
6. transaction_revenue, quality, duration, Target에 log1p를 적용하여 사용했습니다.
7. transaction의 경우, 값이 0인 것, 1 이상 5 미만인 것, 5 이상인 것으로 나누어 각각 0, 1, 2로 치환해서 썼습니다.
8. EDA 과정에서 TARGET 값의 최소값이 1인 것을 보고 1보다 작은 값은 모두 1로 바꾸어 줬습니다.
9. duration이 0인 경우, TARGET 값을 모두 1로 줬습니다.
Optuna를 사용해서 튜닝했을 때 public score가 조금 더 떨어졌는데, 다음 대회에서는 잘 사용해서 튜닝으로 점수 향상을 노려 보고 싶네요!
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved