전기차 가격 예측 해커톤: 데이터로 EV를 읽다!

데이콘 해커톤 | 알고리즘 | 정형 | 회귀 | EV | RMSE

데이스쿨 프로 구독권
1,313명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[public : 1.01403 / Private 22위 : 1.21497] Str Kfold + LGBM

용용센세

2025.02.01 02:53 2,208 조회 language

안녕하세요 처음으로 대회에 참여해봤습니다. 대회 참여하신 데이커분들 고생많으셨습니다.
아직 대회의 룰을 이해를 하진 못했지만 그냥 부딪혀보자는 마인드로 여러 분들의 피드백을 받고자 올려보았습니다.
감사합니다.

프로젝트 설명
차량가격을 예측하는 모델을 구현함에 있어서 결측치 처리와 여러가지 모델들을 Stratified Kfold로 train/valid set으로 나누어 평가 한 후 최적의 모델인 LightGBM으로 결과를 내었습니다.

1. 데이터 결측치 처리
- 결측치인 "배터리용량"은 "제조사", "모델", "차량상태"를 그룹화 한 데이터에 따라서 밀접한 연관성이 있다는 가정하에 그 그룹화한 데이터의 평균으로 전처리를 하였습니다.
- 만약 특정 모델에 차량상태의 데이터가 없으면 제조사가 같은 다른 모델의 배터리용량과 비슷할 것이다라는 가정하에 평균을 내었습니다.
2. Categorical 변수 처리
- 데이터 타입이 "object"인 범주형 변수들을 one-hot encoding 처리 하였습니다.
3. 모델
- Linear regression, Ridge, Lasso, DecisionTreeReg, RandomForestReg, GradientBoostingReg, XGBoost, LightGBM, CatBoost 모델들로 학습을 진행하고 가장 성능이 좋은 모델로 테스트를 진행하였습니다.
4. 평가
- Stratified Kfold를 5번으로 나누어 train/valid set으로 검증을 하였고 RMSE값이 가장 낮은 LightGBM모델로 테스트를 하였습니다.
5. 환경
- python 3.9
- windows 11