분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[public : 1.01403 / Private 22위 : 1.21497] Str Kfold + LGBM
안녕하세요 처음으로 대회에 참여해봤습니다. 대회 참여하신 데이커분들 고생많으셨습니다.
아직 대회의 룰을 이해를 하진 못했지만 그냥 부딪혀보자는 마인드로 여러 분들의 피드백을 받고자 올려보았습니다.
감사합니다.
프로젝트 설명
차량가격을 예측하는 모델을 구현함에 있어서 결측치 처리와 여러가지 모델들을 Stratified Kfold로 train/valid set으로 나누어 평가 한 후 최적의 모델인 LightGBM으로 결과를 내었습니다.
1. 데이터 결측치 처리
- 결측치인 "배터리용량"은 "제조사", "모델", "차량상태"를 그룹화 한 데이터에 따라서 밀접한 연관성이 있다는 가정하에 그 그룹화한 데이터의 평균으로 전처리를 하였습니다.
- 만약 특정 모델에 차량상태의 데이터가 없으면 제조사가 같은 다른 모델의 배터리용량과 비슷할 것이다라는 가정하에 평균을 내었습니다.
2. Categorical 변수 처리
- 데이터 타입이 "object"인 범주형 변수들을 one-hot encoding 처리 하였습니다.
3. 모델
- Linear regression, Ridge, Lasso, DecisionTreeReg, RandomForestReg, GradientBoostingReg, XGBoost, LightGBM, CatBoost 모델들로 학습을 진행하고 가장 성능이 좋은 모델로 테스트를 진행하였습니다.
4. 평가
- Stratified Kfold를 5번으로 나누어 train/valid set으로 검증을 하였고 RMSE값이 가장 낮은 LightGBM모델로 테스트를 하였습니다.
5. 환경
- python 3.9
- windows 11
감사합니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
👏🏼👏🏼 수고하셨어요~.