웹 로그 기반 조회수 예측 해커톤

알고리즘 | 정형 | 회귀 | 웹 로그 | RMSE

  • moneyIcon 상금 : 인증서
  • 639명 마감

 

[Private 14위] Catboost + KMeans

2024.03.07 21:39 285 조회 language

안녕하세요, 코드 공유드립니다.

1. browser와 os는 개수가 많은 상위 카테고리만 남기고 other로 치환했습니다. 
2. continent에 america와 american이 있는 걸 확인해 통일해주었습니다.
3. subcontinent에서 방향과 대륙을 분리해서 전처리한 후, 다시 합쳐 사용했습니다.
4. keyword, referral, traffic_medum, traffic_source의 경우 1,2와 같은 방식으로 처리했을 때 public score가 하락하여 그대로 사용했습니다.
5. session time 중 숫자 부분을 추가하여 Kmeans 과정에서 사용했습니다. (train 시에는 제외)
6. transaction_revenue, quality, duration, Target에 log1p를 적용하여 사용했습니다.
7. transaction의 경우, 값이 0인 것, 1 이상 5 미만인 것, 5 이상인 것으로 나누어 각각 0, 1, 2로 치환해서 썼습니다.
8. EDA 과정에서 TARGET 값의 최소값이 1인 것을 보고 1보다 작은 값은 모두 1로 바꾸어 줬습니다.
9. duration이 0인 경우, TARGET 값을 모두 1로 줬습니다.

Optuna를 사용해서 튜닝했을 때 public score가 조금 더 떨어졌는데, 다음 대회에서는 잘 사용해서 튜닝으로 점수 향상을 노려 보고 싶네요! 
감사합니다. 

코드