분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Y&Z세대, 4가지 멀티 페르소나] 당신은 어떤 투자자인가요?
안녕하세요! NH투자증권 빅데이터 경진대회 : Y&Z세대 투자자 프로파일링에 참가한 분노한 두더지 팀입니다!
아직 학생이라 코딩과 시각화에 미숙하지만, 재밌게 봐주셨으면 좋겠습니다!
감사합니다. :)
넵 가능한 걸로 알고 있습니다!
데이터명세 PPT에도 Modeling 관련 얘기가 있더라구요.
댓글 감사합니다. :)
k-means 군집화의 경우 유클리드 거리를 사용하기 때문에 categorical data를 one hot encoding하여 사용하기 어렵다고 알고 있는데 이를 어떻게 해결하셨을까요!?
그 점에 대해 저도 궁금하네요. 군집화에 사용한 변수들을 모두 원핫인코딩을 해서 상관없다 판단하고 진행한 것이 아닌지
댓글 감사합니다 :)
처음에는 체결수량, 체결가격 등 numeric data 그대로를 가지고 clustering을 진행했습니다. 그랬더니 clustering 결과가 한 쪽으로 모두 치우치게 되더라구요. (90% 이상)
따라서 구간을 나눈 후 categorical data로 변환한 후 StandardScaler를 이용하여 스케일링을 하고 k-means clustering을 진행했습니다. 그랬는데도 군집이 잘 나뉘지 않았습니다. (아마 말씀해 주신 것처럼 k-means 알고리즘이 유클리드 거리를 사용하기 때문인 것 같습니다.)
해결 방법을 찾아보다가 StandardScaler 대신 RobustScaler를 시도해봤습니다. 체결수량, 체결가격 구간을 나누기 전과 후 모두 RobustScaler를 이용하여 정규화를 했으며 그 결과, 구간을 나누었을 때 군집이 명확하게 잘 나누어졌으며 (거의 동일한 비율) 아래 군집별 비교를 했을 때, 특성들이 군집별로 잘 분류되어 나타났습니다.
물론 정규화가 k-means 알고리즘이 가진 근본적인 문제를 해결해 줄 수는 없을 것입니다. 이것은 저희 분석이 가진 한계점이라고 생각합니다.
numeric data가 없을 때 categorical data를 어떻게 k-means에 활용하면 좋을지, 다른 clustering 방법은 어떤 것이 있는지 더 심도있게 공부하도록 하겠습니다!
*RobustScaler
: 아웃라이어의 영향을 최소화한 기법으로 중앙값과 IQR을 사용하기 때문에 StandardSScaler와 비교해보면 표준화 후 동일한 값을 더 넓게 분포시킴
(reference: https://mkjjo.github.io/python/2019/01/10/scaler.html)
삭제된 댓글입니다
잘하신것같아요!
감사합니다! :)
특징이 잘 나눠진게 신기하네요. 잘 봤습니다. 혹시 군집화 하실 때 3D로 하신 특별한 이유가 있을까요? 일반적으로 이차원에서 시각화하는게 일반적일 텐데 인상적이라서요!
고차원의 데이터셋을 축소하여 시각화하는 방법이다보니, 2차원에서는 겹쳐보이는 데이터가 많았습니다.
따라서 3차원으로도 시도해봤는데 2차원보다 군집이 뚜렷하게 나뉘어 보였기 때문에 3차원 시각화를 해보았습니다.
댓글 감사합니다! :)
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
머신러닝 사용해도 되는거였나요..?