제2회 코스포 x 데이콘 도서 추천 알고리즘 AI경진대회 채용

채용 | 알고리즘 | 정형 | 추천시스템 | RMSE

상금 : 채용
1,267명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[private: 3.27139] CatBoostRegressor + Optuna

춘배사랑개

2023.05.15 11:51 1,997 조회 language

PUBLIC LB 3.25811
PRIVATE LB: 3.27139

* CatBoostRegressor + Optuna

* 핵심: 데이터 전처리와 catboost Pool에 명목, 범주형 변수들을 cat_features에 넣는 것, optuna로 best 파라미터 찾기
* 다양한 변수를 추가(ex. 토픽, 언어구분, 출판연도 구분, 레이팅 카운트 등)해서 나온 결과보다 기본적인 변수들의 전처리가 더 도움이 되었습니다.
* 사람마다 점수 주는 기준이 천차만별이라 User-ID가 점수 예측에 가장 핵심이었습니다.
* 0점으로 처리된 점수가 많아, 0이 아닌 점수를 예측하는 것이 key 중 하나일 것 같습니다.
* fold 수를 5 > 10 > 20으로 늘려가며 확인해본 결과 20일 때 가장 좋은 성과를 보였습니다.
* 최종 예측점수는 각 fold의 예측값을 더하고 fold수로 나눴으며, np.clip으로 점수가 0보다 작거나 10보다 크면 0과 10으로 변환하게 만들었습니다.
* PPT는 LaTex의 beamer를 사용했으며 Template은 Overleaf의 Antibes를 사용하였습니다. (https://www.overleaf.com/learn/latex/Beamer)

* 자세한 EDA, Training history는 Github에서 참조 바랍니다
Github: https://github.com/qusrud0113/Book_Recommender_Systems

복원 모델: https://drive.google.com/file/d/1E_hUcuduSyV32XqrdC9-j8FN42hvP1_k/view?usp=share_link
(fit_model = pickle.load(open('final_model_cat_reg', 'rb'))로 읽음)

좋은 대회 열어주신 데이콘에 감사드립니다.
첫 회귀분석 대회인데 좋은 결과를 얻을 수 있어서 좋았습니다.

PDF

코드

댓글 5개

로그인이 필요합니다

comment

0 / 1000

누리고

2023.05.15 12:56

수상 축하드립니다!! 질문하나 있습니다!
optuna로 파라미터 최적화를 하실 때 어느정도 시간이 걸리셨나요?
저는 colab 환경에서 2시간 넘게 걸려서 궁금해서 여쭤 봅니다!

춘배사랑개

2023.05.15 12:58

안녕하십니까?
저는 코랩 환경에서 너무 오래 걸려서 우분투 가상환경에서 12시간 이상 돌렸습니다.

감사합니다.
<OS>
Ubuntu: Ubuntu 22.04.2 LTS
Linux: Linux 5.15.90.1-microsoft-standard-WSL2, x86_64
CPU: AMD Ryzen 5 5600X 6-Core Processor
RAM: 48GB
GPU: NVIDIA GeForce RTX 3070 8GB

누리고

2023.05.15 13:01

와...역시 대단하십니다.. 코랩으로 안되었던 이유가 다있군요! 감사합니다!

지운지운

2023.05.17 21:23

좋은 정보 감사합니다. 인공지능에 공부중인데 데이터 전처리 부분에서 생각하지 못한 부분들을 많이 배울 수 있었습니다.

춘배사랑개

2023.05.17 21:51

저도 시작한 지 얼마 안돼서 잘은 모르지만, 다같이 열심히 합시다!

감사합니다.

📣 댓글 작성 창의 위치가 댓글 리스트 상단으로 이동하였습니다!