분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[private 3.27458] CatboostRegressor
1. Feature Engineering
- Location -> 도시, 주, 나라 분리
- Age -> 범주화하여 파생변수 생성
- User-ID -> 신규 유저 구분
- 문자로 이루어진 데이터는 특수문자, 앞뒤 공백, 다중 공백 제거
- 범주형 변수 모두 LabelEncoding 적용 -> Trainset에 존재하지 않은 Testset의 값은 -1로 라벨링
2. Model Training
- CatboostRegressor 사용
- Cat Feature 사용
- 10 StratifiedKFold
- Optuna 사용하여 하이퍼 파라미터 탐색 및 적용
3. Predict
- Predict result -> 0~10 값으로 후처리
클러스터링, 임베딩, Word2Vec, Fasttext 등을 이용하여 다양한 모델과 파생변수 생성을 시도해보았으나, 결과가 좋지 않았습니다.
감사합니다.
모델 링크 : https://www.dropbox.com/s/c4l0t9eybto2f0m/catmodel.egg?dl=0
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved