분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private: 3.57759] 다른 방법 Linear Regression()
안녕하세요~
대략적인 분석 방향
1. Train 데이터에서 User-ID(고객) & Book-ID(도서)별 평균 Book-Rating(평점)을 구한 컬럼 추가
2. 2개 추가된 컬럼으로 LinearRegression() 회귀 모델을 사용하여 Book-Rating(평점) 예측
⇒ 평균 RMSE 2.74가 나옴(대회 1등 RMSE가 3.02인것을 감안했을때 매우 우수하다고 판단)
3. Train에서의 User-ID와 Book-ID별 평균 Book-Rating(평점) 컬럼을 Test 데이터에 User-ID와 Book-ID별로 Merge
4. Merge된 User-ID와 Book-ID별 Book-Rating(평점) 평균으로 Test데이터의 Book-Rating(평점) 예측
⇒ Train에는 없는 Test의 User-ID와 Book-ID는 나이, 사는 지역, 저자, 출판사, 출판년도별 평점 데이터를 통해 각각 예측하여 null값 대체
으로 분석해봤습니다.
https://wijun.tistory.com
에 다양한 분석과 자료 있어요 놀러오세요~ㅎㅎ
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved