웹 로그 기반 조회수 예측 해커톤

알고리즘 | 정형 | 회귀 | 웹 로그 | RMSE

상금 : 인증서
639명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[Private 12위] (CatBoost+LGBM+XGBOOST)->voting, optuna

code7ssage

2024.03.06 07:28 427 조회 language

2번째 대회라 미숙한점이 많네요, 그냥 참고용으로만 봐주세요
google colab에서 진행했고, 전처리는 여러가지 시도해봤는데 아무것도 안하고 결측치 최빈값으로 대체하는게 가장 잘나왔네요( 베이스라인 참고했습니다)
모델은 gradient 기반 모델 3개 합쳐서 voting 시도 했을 때 가장 잘나왔네요, randomforest나 svr로도 voting 시도 해봤는데 이게 가장 점수는 잘나왔습니다
가중치도 원래는 optuna로 조정했었는데, 그거보다 2 1 2로 가중치 조정한게 잘나왔었습니다
검증은 교차검증 cv=3, 5로 하든 비슷하게 나와서 시간이 덜걸리게 3으로 조정했습니다
optuna param 값은 아래와 같이 나왔습니다
Best trial:
  Value:  2.7584113380712916
  Params:
    lgbm_n_estimators: 151
    lgbm_learning_rate: 0.04881049368992366
    lgbm_max_depth: 8
    lgbm_num_leaves: 59
    xgb_n_estimators: 962
    xgb_learning_rate: 0.06535670049698246
    xgb_max_depth: 6
    cat_iterations: 283
    cat_learning_rate: 0.03491393321646119
    cat_depth: 6
그리고 보통은 valid에서 rmse값이 낮아지면 test에서도 낮아지는게 보통인데, 이번 대회는 train이랑 test 간의 차이가 커서 그런지 overfitting 안되게 그 중간 지점 찾는게 힘들었네요, 다들 대회 수고하셨습니다~