다중공선성 관련 궁금한 것이 있습니다.

2023.05.28 10:11 2,167 조회

메타데이터 분석시에

sm.OLS로 통계적인 수치를 보는 편인데

선생님들은 모델을 만들 때, 다중공선성(Cond.no)나 p|t|값을 유의있게 보는 편인가요??

가끔씩 저런 값을 상관안써도 제출 결과값이 좋게 나오는 경우가 있어서 여쭤봅니다.!!

로그인이 필요합니다
0 / 1000
Soonb
2023.05.29 14:32

목적이나 적용하려는 모델에 따라 다릅니다. 선형회귀 같은 경우는 다중공선성이 없어야 하기 때문에 해결한 뒤 적용하는게 맞는데
많은 모델은 (특히 딥러닝) 동작하는데 크게 상관 안 한다고 알고 있습니다.
또한, 데이터분석이 주 목적이면, 계수를 해석해야 하는데 해석에는 어려움을 주기 때문에, 이런 경우엔 다중공선성이 문제가 된다고 알고있어요~

Idea경진대회
2023.05.29 14:35

회귀분석을 할 때에는 다중공선성을 해결해야하지만, 분류나 딥러닝모델 구현시에는 다중공선성을 크게 신경쓰지 않아도 된다라고 해석했는데 맞을까요??

Soonb
2023.05.29 14:51

네, 데이터분석은 필수, 그리고 분류에서도 선형회귀와 원리가 비슷한 로지스틱회귀를 사용하신다면 신경써야 됩니다.
딥러닝은 말씀하신대로 신경 안 써도 된다고 알고있습니다. 

다중공선성이 안 좋은 영향을 미치는 머신러닝 모델들이 몇개 있는데, 사용하실 모델의 동작원리에 따라 각각 다릅니다.
저 같은 경우는 머신러닝 모델을 쓰면은 왠만하면 다중공선성을 고려하여 제거하는 편이고
딥러닝 모델을 쓰면 신경 안 쓰는 편 입니다.! 

사실 딥러닝은 다중공선성이 있어도 잘 극복해내는 편이라고 생각하시면 편할거 같아요. 
제거해서 나쁠건 없다고 생각합니다.

Idea경진대회
2023.05.29 14:52

그러면 선생님께서는 각각의 머신러닝 모델에 대해서 동작원리를 다 아시고 다중공선성을 처리하신다는거네요..?
대단하십니닷..
혹시 그런 공부관련해서 도움되는 서적이나 사이트같은 것이 있을까요??

Soonb
2023.05.29 15:08

저는 선형회귀에서 왜 다중공선성이 문제가되는지에 대해서 선형대수학 관점에서 배웠던 기억이 있습니다. 그 외에 모델들은 동작 원리는 알지만 거기서 다중공선성이 문제가 되는지는 확실히 알지 못하구요. collinearity in logistic regression 라고 검색하시면 좋은 설명들 많을거에요.

근데 다중공선성 자체가 크게 문제 없다라는 의견도 많은 것도 사실이고.. 그래서 요즘엔 별로 강조가 안되는거 같아요.
만약 원하시는 모델이 있으면 그때 그때 검색해보시는걸 추천드려요. 예를 들어 "랜덤포레스트 다중공선성" 라고만 치셔도 많은 글 들이 나올거에요.
이런 글 들 봐도 완전히 뾰족한 정답은 없어서 많이 읽어보시고 참고하시면 좋을거 같아요 ㅋㅋㅋㅋㅋ (사람마다 의견 다른것도 꽤 됩니당)

Soonb
2023.05.29 15:14

모델별 동작원리는 글쎄요.. 유명한 모델만 몇개 직접 찾아보시면 될거 같습니다.
머신러닝은 Logistic Regression, RandomForest , Boosting계열 하나, SVM 요정도..?