회귀 분석 / 머신러닝 피처 중요도

2022.06.29 14:55 2,249 Views

R로 다항 회귀 분석 돌린 결과입니다.

계수를 기준으로 보면 Score를 예측할 때

Trust>Freedom>Health>Economy>Social Support>Generosity

순으로 영향이 큰 것으로 판단되는데,


머신러닝을 돌려서

Feature importance를 확인하니


이렇게 나옵니다.


Score라는 변수에 영향을 미치는 요인들에 대해 알아보고자했는데 결과를 어떻게 해석해야 할까요?

너무 어렵네요ㅠㅠ

데린이에게 의견 하나하나 너무 소중할 것 같습니다..

로그인이 필요합니다
0 / 1000
anthro
2022.06.29 17:52

저도 잘 모르고 부족하지만 가장 간단히 떠오르는 거는 일부 데이터를 test 데이터로 분리한 다음에 각 방법별 예측을 진행하고, 성능(RMSE 값 등)이 좋은 분석방법론을 가장 타당한 분석으로 추정한 다음에 해당 분석에서의 변수 중요도를 살펴보는 것이 어떨까요 

Mather
2022.06.29 22:03
Data is money
2022.06.30 11:32

제가 아는 부분만 설명드리면,
다중회귀에서 회귀계수의 크기가 변수의 중요도를 의미하는 것이 아닙니다. 
회귀계수가 변수의 중요도를 의미하려면 데이터를 표준화하여(Z normalization) 표준화 회귀계수(beta 계수라고도 함)를 구하여
상대비교를 해야 합니다. 왜냐하면 데이터마다 단위와 범위가 다르거든요 ^^;
분석에 참고하세요!