분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
회귀 분석 / 머신러닝 피처 중요도
R로 다항 회귀 분석 돌린 결과입니다.
계수를 기준으로 보면 Score를 예측할 때
Trust>Freedom>Health>Economy>Social Support>Generosity
순으로 영향이 큰 것으로 판단되는데,
머신러닝을 돌려서
Feature importance를 확인하니
이렇게 나옵니다.
Score라는 변수에 영향을 미치는 요인들에 대해 알아보고자했는데 결과를 어떻게 해석해야 할까요?
너무 어렵네요ㅠㅠ
데린이에게 의견 하나하나 너무 소중할 것 같습니다..
제가 아는 부분만 설명드리면,
다중회귀에서 회귀계수의 크기가 변수의 중요도를 의미하는 것이 아닙니다.
회귀계수가 변수의 중요도를 의미하려면 데이터를 표준화하여(Z normalization) 표준화 회귀계수(beta 계수라고도 함)를 구하여
상대비교를 해야 합니다. 왜냐하면 데이터마다 단위와 범위가 다르거든요 ^^;
분석에 참고하세요!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
저도 잘 모르고 부족하지만 가장 간단히 떠오르는 거는 일부 데이터를 test 데이터로 분리한 다음에 각 방법별 예측을 진행하고, 성능(RMSE 값 등)이 좋은 분석방법론을 가장 타당한 분석으로 추정한 다음에 해당 분석에서의 변수 중요도를 살펴보는 것이 어떨까요