웹 로그 기반 조회수 예측 해커톤

알고리즘 | 정형 | 회귀 | 웹 로그 | RMSE

  • moneyIcon 상금 : 인증서
  • 639명 마감

 

[Private 11위] CatBoostRegressor, EDA 기반 파생변수 생성

2024.03.07 23:39 316 조회 language

[전처리]
범주형 변수들의 경우 category 형 변수로 치환하였고, 결측치가 존재하는 경우 결측치도 하나의 범주로 간주하여 사용하였습니다.
수치형 변수들의 경우, 이진변수를 제외한 나머지 변수들에서 skewed 분포가 관찰되어, TARGET 변수와의 상관계수를 가장 크게 하는 변환을 적용하였고,
TARGET 변수 역시 skewed 분포가 관찰되어, 로그 변환을 적용하였습니다.

[변수 추가]
각 수치형 변수 2개의 모든 조합에 대하여 두 변수의 여러 변환값의 비율 또는 곱과 TARGET 변수 간 상관계수를 계산해, 임계값 초과인 변수들을 새로운 파생변수로 추가하였습니다.

[모델링]
XGBRegressor와 CatBoostRegressor 두 모델을 사용하였고, k=3인 K-fold 방식으로 검증하였을 때 CatBoostRegressor 모델이 더 우수한 성능을 보여 최종 모델로 선택하였습니다. optuna를 활용해 하이퍼파라미터 최적화를 시도하였지만, 시간적 여유가 되지 않아 기본 세팅으로 학습을 진행하였습니다. 

아직 경험이 부족한 초보라 다른 분들 코드를 보니 많은 것들을 배워가네요 :) 
제 스스로도 많은 것들을 배울 수 있었던 좋은 경험이었습니다.
  

코드