분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
기존 작성된 EDA를 활용한 데이터 분석하기 (LinearRegression)
안녕하세요.
중고차 가격 예측 경진대회 코드 공유에서만 두 번째 뵙겠습니다.
이전 EDA에 부족한 점이나 조금 더 생각해봐야 할 사항을 코드로 구현하고 이를 토대로 결과를 제출할 수 있게 노트북으로 정리하였습니다.
sklearn에서 구현된 LinearRegression 모델을 사용하였습니다. 이 모델을 그대로 사용하시려면 데이터 유형을 변경하여 예측 및 제출 해주시면 될 것 같습니다.
이 노트북은 google colab에서 작성하였습니다. 목차를 생성하였지만 데이콘에서 보이지 않아 아쉽습니다. jupyter notebook 및 colab을 이용하시면 더욱 편하게 보실 수 있습니다.
감사합니다.
안녕하세요.
본 노트북은 이상 변수 탐색 및 EDA를 통해 데이터를 살펴보고 제출이 가능하도록 만드는 것에 목적을 두었고, 다른 형식을 사용하지 않거나 직접 코드를 구현 한 것 등에 대해 의도한 바는 없습니다.
location에서 train data와 test data에 공통적으로 존재하는 값을 제외하고 other로 통합해주셨는데, private score를 할 때는 location이 다양하게 나올수도 있지 않을까요?
안녕하세요.
private score는 test 데이터 중 50퍼센트라고 명시되어 있어 test 데이터 세트에 포함이 될 것이라고 생각됩니다.
현재 데이터 세트는 나이지리아 "연방공화국"에 대한 중고차 가격예측입니다. 미국 등 주 별로 환경이 다르거나 세법 등이 체계화 된 국가와 다르게 나이지리아는 현재 우리나라처럼 일률적인 환경이라고 생각하고 공통적인 도시를 제외한 나머지 도시들을 other로 통합을 하였습니다. (제가 나이지리아 현지 법이나 국세 체계를 자세하게 모르지만 그럴 것이라고 제 생각을 토대로 코드를 작성하였으나, 이는 사실이 아닌 개인적인 의견입니다. 참고해주세요.)
아하.. test 데이터 중 50퍼센트인지 몰랐어요! 감사합니다:D
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
혹시 라벨링을 직접 코드로 구현하신 이유가 있으실까요? 그리고 웟핫인코딩형식을 안하신 이유가 있을까요?