분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 12위 3.28495] CatboostRegressor+K-fold 10
안녕하세요, 처음으로 참여한 대회의 코드 공유 드립니다. :D
데이터 전처리를 통해 성능이 개선됨을 보면서 너무 재밌게 참여했습니다.
전처리 특이사항으로는 아래와 같은 것들이 있습니다.
1. 이상치 처리 하지 않음
- year에서 100이 넘어가는 값, -1인 값 등을 평균치로 대치 또는 제거하는 방법을 사용하지 않았습니다.
- 평균 평점이나 평가 개수 등을 확인하여 값을 그대로 사용하는 것으로 결정
2. Author, Publisher 등을 최대한 통일
- Penguin, Penguin Books, Penguin Books Audio 같은 것들을 최대한 통일 해주었습니다.
- 오탈자 등을 제거해주기 위해 dictionary를 활용하여 중복 문자 등을 제거했고, 오탈자를 수정해주었습니다.
시도해봤지만 성능에 도움이 되지 않았던 것들은 아래와 같습니다.
1. 유저 평균 평점을 이용하여 Angel, Common, Beginner 로 구분한 것
- 평점을 주는 경향성을 구분하기 위함이었으나, 성능이 크게 떨어졌습니다.
- train과 test 데이터 간의 불균형이 있어서 이지 않을까 유추하고 있습니다.
2. Book, User 군집화
- 책과 유저를 군집화한 컬럼을 추가해주었으나 성능에 큰 영향을 주지 않았습니다.
> 모델 : https://drive.google.com/file/d/1GEzo9WrbyMFrpKABYz7NKhey4_h8efg7/view?usp=share_link
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved