Web Log based Pageview Prediction AI Hackathon

Algorithm | Tabular | Regression | Web Log | RMSE

 

[Private 16위] CatBoostRegressor 단일 모델

2024.03.10 04:32 1,787 Views language

모델의 경우 CatBoostRegressor 단일 모델을 사용하였습니다.

하이퍼파라미터 튜닝의 경우 베이지안 옵티마이제이션을 사용하였으나, 기본 하이퍼파라미터 보다 좋은 성능을 내는 결과를 찾지 못하여 기본 하이퍼파라미터에서 수기로 하나씩 변경해가며 튜닝하였습니다.

전처리의 경우 특성 중요도 결과를 보아 
1. quality 특성과 duration 특성의 중요도가 높게나와 두 특성을 이용하여 특성공학을 진행하였습니다.

2. subcontinent 특성 중 아메리카에 해당되는 값들 중 중앙아메리카 이남의 국가들을 라틴 아메리카로 분류, 중앙아프리카 이남의 국가들을 사하라 이남 아프리카로 분류하였습니다.

3. 거래 수익은 0, 거래 횟수가 1인 것을 이상치로 판단하여 제거하는 작업을 수행하였고, quality와 duration 값에 비해 타겟이 너무 높은 이상치도 제거하였습니다.

모델 학습 환경
- Intel i7-13700k

Code
Previous
No Previous Post
Current
[Private 16위] CatBoostRegressor 단일 모델
Competition - 웹 로그 기반 조회수 예측 해커톤
Likes 7
Views 1,787
Comments 0
1yr ago
Next
[Private 1위] CatBoost + Optuna + StratifiedKFold(group)
Competition - 웹 로그 기반 조회수 예측 해커톤
Likes 29
Views 3,185
Comments 3
1yr ago