분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 5위, 1.19608] LGBM Regressor, 이상치 제거, 스케일러 선택 등
Private 5위, LGBM Regressor를 활용한 대회 코드입니다.
개발 언어 : Python
개발 환경 : Google Colab
사용 모델 : LGBM Regressor
스케일러 : Standard Scaler
1. 차량 상태에 따른 주행거리와 배터리용량의 관계를 살펴보았습니다.
-> Brand New, Nearly New, Pre-owned(최신, 그나마 최근, 좀 된 것)에 따라서 이를 살펴보면 군집화되는 특성을 보일 것이다 라는 예상을 해보았습니다. 그 결과 위 코드에서 확인할 수 있는 범위를 얻었고 그 범위 안에 해당하지 않는 값들은 모두 이상치로 간주하여 제거하였습니다.
1) Brand New : 0 ~10,000
2) Nearly New : 10,001 ~ 50,000
3) Pre-owned : 50,000 초과
2. IONIQ 모델과 TayGTS 모델에 집중한 것은 위 코드에는 없지만 대회 초반에 Validation 모델을 통해 결과를 확인해보고 실제 값과 예측 값의 오차가 1이상 인 것들을 모아서 데이터 프레임을 만들어보았더니, 가장 많은 요소의 수를 보였던 것들이 해당 모델이었습니다. 따라서 해당 모델들에 대해서 배터리용량과 주행거리(km) 특성을 살펴보면 IONIQ 모델은 아주 난잡하게 되어 있기 때문에 해당 부분을 제거하였습니다.
3. 나머지 짜잘한 것들은 boxplot을 통해서 혼자만 덩그러니 있다던지 (모델 별 보증기간의 박스플롯을 보면 보증기간 8년 같은 경우 혼자만 덩그러니...) 등을 통해서 알게 되었습니다.
4. 261번의 제출 시도....
저는 IONIQ의 경우 어떻게 접근해야 할 지 생각지도 못했네요.
답변감사합니다.
안녕하세요. 컨택을 하고싶은데 혹시 메일 주소 남겨주실수 있을까요? 깃이나 링크드인에 아무것도 없어서 일단 제거 남겨드리겠습니다. wodus1530@naver.com 입니다. 연락 한번만 부탁드리겠습니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
수고하셨습니다.
데이터 전처리 기준 4가지를 도출한 기준이 궁금한데 설명부탁드려도 될런지요.