분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[private: 3.27139] CatBoostRegressor + Optuna
PUBLIC LB 3.25811
PRIVATE LB: 3.27139
* CatBoostRegressor + Optuna
* 핵심: 데이터 전처리와 catboost Pool에 명목, 범주형 변수들을 cat_features에 넣는 것, optuna로 best 파라미터 찾기
* 다양한 변수를 추가(ex. 토픽, 언어구분, 출판연도 구분, 레이팅 카운트 등)해서 나온 결과보다 기본적인 변수들의 전처리가 더 도움이 되었습니다.
* 사람마다 점수 주는 기준이 천차만별이라 User-ID가 점수 예측에 가장 핵심이었습니다.
* 0점으로 처리된 점수가 많아, 0이 아닌 점수를 예측하는 것이 key 중 하나일 것 같습니다.
* fold 수를 5 > 10 > 20으로 늘려가며 확인해본 결과 20일 때 가장 좋은 성과를 보였습니다.
* 최종 예측점수는 각 fold의 예측값을 더하고 fold수로 나눴으며, np.clip으로 점수가 0보다 작거나 10보다 크면 0과 10으로 변환하게 만들었습니다.
* PPT는 LaTex의 beamer를 사용했으며 Template은 Overleaf의 Antibes를 사용하였습니다. (https://www.overleaf.com/learn/latex/Beamer)
* 자세한 EDA, Training history는 Github에서 참조 바랍니다
Github: https://github.com/qusrud0113/Book_Recommender_Systems
복원 모델: https://drive.google.com/file/d/1E_hUcuduSyV32XqrdC9-j8FN42hvP1_k/view?usp=share_link
(fit_model = pickle.load(open('final_model_cat_reg', 'rb'))로 읽음)
좋은 대회 열어주신 데이콘에 감사드립니다.
첫 회귀분석 대회인데 좋은 결과를 얻을 수 있어서 좋았습니다.
안녕하십니까?
저는 코랩 환경에서 너무 오래 걸려서 우분투 가상환경에서 12시간 이상 돌렸습니다.
감사합니다.
<OS>
Ubuntu: Ubuntu 22.04.2 LTS
Linux: Linux 5.15.90.1-microsoft-standard-WSL2, x86_64
CPU: AMD Ryzen 5 5600X 6-Core Processor
RAM: 48GB
GPU: NVIDIA GeForce RTX 3070 8GB
와...역시 대단하십니다.. 코랩으로 안되었던 이유가 다있군요! 감사합니다!
좋은 정보 감사합니다. 인공지능에 공부중인데 데이터 전처리 부분에서 생각하지 못한 부분들을 많이 배울 수 있었습니다.
저도 시작한 지 얼마 안돼서 잘은 모르지만, 다같이 열심히 합시다!
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
수상 축하드립니다!! 질문하나 있습니다!
optuna로 파라미터 최적화를 하실 때 어느정도 시간이 걸리셨나요?
저는 colab 환경에서 2시간 넘게 걸려서 궁금해서 여쭤 봅니다!