분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Y&Z세대, 누구냐 넌...? - 6가지 질문으로 알아보는 Y&Z세대
안녕하세요. "데이터, 문화가 되다 : League2" - Y&Z세대 투자자 프로파일링에 참여한 댕댕이팀입니다.
3명이서 열심히 밤낮 세워가며 했지만, 첫 참여라 부족한 부분이 많을 수도 있습니다.
언제든지 잘못을 바로잡아 주시면 감사하겠습니다.
예쁘게 봐주세요~!!
잘 읽었습니다. 하지만 두 가지 의문점이 남았습니다.
1)먼저 인과관계를 저런 모형에서 어떻게 찾아낼 수 있는지 의문이 듭니다. 보통 인과관계하면 confounder를 찾고 이를 적절하게 보정하는 과정과, 반사실적 추론 등의 과정들이 있어야 하는데, 단순 회귀분석으로 인과관계를 찾아보려 하셨다는 점이 이해가 되지 않습니다.
2)회귀분석 자체에 대한 의문입니다. 시각화된 결과를 보면 우상단의 점 하나가 leverage이자 outlier여서 매우 큰 영향점이라고 볼 수 있을 것 같은데, 이를 포함한 회귀분석과 포함하지 않은 회귀분석이 같이 진행되었어야 하지 않나 싶습니다. 실제로 저 한 점을 제외하면 '과연 회귀분석이 적절한 도구였을까'하는 의문이 지워지지 않습니다.
조금 공격적인 질문들이어서 죄송하지만, 이런 질문들에 대해 고민해보셨는지 궁금합니다.
답변에 앞서서 질문 정말로 감사합니다. 질문을 통해서 많이 배운 것 같습니다.
1) 인과관계는 원인과 결과의 명확한 증명이 필요하므로 단순회귀분석으로만 찾기는 어려운것이 맞습니다. 저희는 재무제표 항목과 거래량의 관계분석에서 인과관계의 분석단계까지 염두에 두고 분석을 진행했기에 '유의미한 인과관계가 상정된 모델을 구현할 수 있는지'라는 표현을 사용했습니다. 회귀분석을 통한 상관관계의 유효성분석 -> 인과관계 탐색 순으로 진행하려 했지만 상관관계의 유효성 단계에서 부터 무의미함이 판단되어 추가적인 인과관계의 분석을 진행하지 않았습니다. 명확한 표현을 사용하지 않은점 죄송합니다.
2) 제기하신 의문에 대해서 저희 댕댕이들 팀에서도 인지를 하였고 실제로 동시에 진행을 했습니다. 실제로도 가장 상단의 점만 제외하여 진행도 해보았고, 상위 10%, 상위 25% 등 여러 outlier를 제외하고 진행하였습니다. 하지만 말씀하신대로 상위 점들을 제외시에는 어떠한 관계도 나타나지 않았고, 결국 상관관계가 없다는 것을 보여주고자 하는 것이 저희들이 목표했던 바입니다. 어떻게 하면 이것을 효율적으로 보여줄 수 있을 까 고민하는 과정에서 상위 점들을 포함한 자료를 바탕으로 설명하는 것이 시각적으로 이해하기 쉬울 것이라 판단이 들었습니다. 조금 더 이해하기 쉽고, 간략하게 보여드리고자 하다보니 앞서 행한 분석들을 제외했던 점이 실수였던 것 같습니다. 지적 감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
삭제된 댓글입니다