제2회 코스포 x 데이콘 도서 추천 알고리즘 AI경진대회 채용

채용 | 알고리즘 | 정형 | 추천시스템 | RMSE

  • moneyIcon 상금 : 채용
  • 1,309명 마감

 

[Private 12위 3.28495] CatboostRegressor+K-fold 10

2023.05.21 17:11 1,225 조회 language

안녕하세요, 처음으로 참여한 대회의 코드 공유 드립니다. :D 
데이터 전처리를 통해 성능이 개선됨을 보면서 너무 재밌게 참여했습니다. 

전처리 특이사항으로는 아래와 같은 것들이 있습니다. 

1. 이상치 처리 하지 않음 
- year에서 100이 넘어가는 값, -1인 값 등을 평균치로 대치 또는 제거하는 방법을 사용하지 않았습니다.
- 평균 평점이나 평가 개수 등을 확인하여 값을 그대로 사용하는 것으로 결정

2. Author, Publisher 등을 최대한 통일 
- Penguin, Penguin Books, Penguin Books Audio 같은 것들을 최대한 통일 해주었습니다.
- 오탈자 등을 제거해주기 위해 dictionary를 활용하여 중복 문자 등을 제거했고, 오탈자를 수정해주었습니다. 

시도해봤지만 성능에 도움이 되지 않았던 것들은 아래와 같습니다. 
1. 유저 평균 평점을 이용하여 Angel, Common, Beginner 로 구분한 것 
- 평점을 주는 경향성을 구분하기 위함이었으나, 성능이 크게 떨어졌습니다. 
- train과 test 데이터 간의 불균형이 있어서 이지 않을까 유추하고 있습니다.

2. Book, User 군집화
- 책과 유저를 군집화한 컬럼을 추가해주었으나 성능에 큰 영향을 주지 않았습니다. 

 > 모델 : https://drive.google.com/file/d/1GEzo9WrbyMFrpKABYz7NKhey4_h8efg7/view?usp=share_link

PDF
코드