분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[private 3.27458] CatboostRegressor
1. Feature Engineering
- Location -> 도시, 주, 나라 분리
- Age -> 범주화하여 파생변수 생성
- User-ID -> 신규 유저 구분
- 문자로 이루어진 데이터는 특수문자, 앞뒤 공백, 다중 공백 제거
- 범주형 변수 모두 LabelEncoding 적용 -> Trainset에 존재하지 않은 Testset의 값은 -1로 라벨링
2. Model Training
- CatboostRegressor 사용
- Cat Feature 사용
- 10 StratifiedKFold
- Optuna 사용하여 하이퍼 파라미터 탐색 및 적용
3. Predict
- Predict result -> 0~10 값으로 후처리
클러스터링, 임베딩, Word2Vec, Fasttext 등을 이용하여 다양한 모델과 파생변수 생성을 시도해보았으나, 결과가 좋지 않았습니다.
감사합니다.
모델 링크 : https://www.dropbox.com/s/c4l0t9eybto2f0m/catmodel.egg?dl=0
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved