제2회 코스포 x 데이콘 도서 추천 알고리즘 AI경진대회 채용

채용 | 알고리즘 | 정형 | 추천시스템 | RMSE

  • moneyIcon 상금 : 채용
  • 1,309명 마감

 

[private 3.27458] CatboostRegressor

2023.05.20 23:40 1,769 조회 language

1. Feature Engineering
- Location -> 도시, 주, 나라 분리
- Age -> 범주화하여 파생변수 생성
- User-ID -> 신규 유저 구분
- 문자로 이루어진 데이터는 특수문자, 앞뒤 공백, 다중 공백 제거
- 범주형 변수 모두 LabelEncoding 적용 -> Trainset에 존재하지 않은 Testset의 값은 -1로 라벨링

2. Model Training
- CatboostRegressor 사용
- Cat Feature 사용
- 10 StratifiedKFold
- Optuna 사용하여 하이퍼 파라미터 탐색 및 적용

3. Predict
- Predict result -> 0~10 값으로 후처리

클러스터링, 임베딩, Word2Vec, Fasttext 등을 이용하여 다양한 모델과 파생변수 생성을 시도해보았으나, 결과가 좋지 않았습니다.
감사합니다.

모델 링크 : https://www.dropbox.com/s/c4l0t9eybto2f0m/catmodel.egg?dl=0

PDF
코드