분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private: 3.57759] 다른 방법 Linear Regression()
안녕하세요~
대략적인 분석 방향
1. Train 데이터에서 User-ID(고객) & Book-ID(도서)별 평균 Book-Rating(평점)을 구한 컬럼 추가
2. 2개 추가된 컬럼으로 LinearRegression() 회귀 모델을 사용하여 Book-Rating(평점) 예측
⇒ 평균 RMSE 2.74가 나옴(대회 1등 RMSE가 3.02인것을 감안했을때 매우 우수하다고 판단)
3. Train에서의 User-ID와 Book-ID별 평균 Book-Rating(평점) 컬럼을 Test 데이터에 User-ID와 Book-ID별로 Merge
4. Merge된 User-ID와 Book-ID별 Book-Rating(평점) 평균으로 Test데이터의 Book-Rating(평점) 예측
⇒ Train에는 없는 Test의 User-ID와 Book-ID는 나이, 사는 지역, 저자, 출판사, 출판년도별 평점 데이터를 통해 각각 예측하여 null값 대체
으로 분석해봤습니다.
https://wijun.tistory.com
에 다양한 분석과 자료 있어요 놀러오세요~ㅎㅎ
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved