Y&Z Generation Investor Profiling Visualization Competition

Visualization | Structured | Classification | Finance | Qualitative evaluation

25,000,000 KRW
710 Users Completed

Closed

Overview Data Code (share) Talk Leaderboard

Submission

[Y&Z세대, 4가지 멀티 페르소나] 당신은 어떤 투자자인가요?

분노한두더지

2020.12.27 23:56 12,107 Views language

안녕하세요! NH투자증권 빅데이터 경진대회 : Y&Z세대 투자자 프로파일링에 참가한 분노한 두더지 팀입니다!

아직 학생이라 코딩과 시각화에 미숙하지만, 재밌게 봐주셨으면 좋겠습니다!

감사합니다. :)

The code will be kept private during the evaluation period.

10 Comments

comment

0 / 1000

Justin4AI

2020.12.28 03:13

머신러닝 사용해도 되는거였나요..?

분노한두더지

2020.12.28 09:36

넵 가능한 걸로 알고 있습니다!
데이터명세 PPT에도 Modeling 관련 얘기가 있더라구요.
댓글 감사합니다. :)

스몰콘

2020.12.28 10:51

k-means 군집화의 경우 유클리드 거리를 사용하기 때문에 categorical data를 one hot encoding하여 사용하기 어렵다고 알고 있는데 이를 어떻게 해결하셨을까요!?

유연한 남탓, 사고하지 않기

2020.12.28 13:36

그 점에 대해 저도 궁금하네요. 군집화에 사용한 변수들을 모두 원핫인코딩을 해서 상관없다 판단하고 진행한 것이 아닌지

배부른 가니쉬

2020.12.28 14:08

댓글 감사합니다 :)

처음에는 체결수량, 체결가격 등 numeric data 그대로를 가지고 clustering을 진행했습니다. 그랬더니 clustering 결과가 한 쪽으로 모두 치우치게 되더라구요. (90% 이상)

따라서 구간을 나눈 후 categorical data로 변환한 후 StandardScaler를 이용하여 스케일링을 하고 k-means clustering을 진행했습니다. 그랬는데도 군집이 잘 나뉘지 않았습니다. (아마 말씀해 주신 것처럼 k-means 알고리즘이 유클리드 거리를 사용하기 때문인 것 같습니다.)

해결 방법을 찾아보다가 StandardScaler 대신 RobustScaler를 시도해봤습니다. 체결수량, 체결가격 구간을 나누기 전과 후 모두 RobustScaler를 이용하여 정규화를 했으며 그 결과, 구간을 나누었을 때 군집이 명확하게 잘 나누어졌으며 (거의 동일한 비율) 아래 군집별 비교를 했을 때, 특성들이 군집별로 잘 분류되어 나타났습니다.

물론 정규화가 k-means 알고리즘이 가진 근본적인 문제를 해결해 줄 수는 없을 것입니다. 이것은 저희 분석이 가진 한계점이라고 생각합니다.

numeric data가 없을 때 categorical data를 어떻게 k-means에 활용하면 좋을지, 다른 clustering 방법은 어떤 것이 있는지 더 심도있게 공부하도록 하겠습니다!

*RobustScaler
: 아웃라이어의 영향을 최소화한 기법으로 중앙값과 IQR을 사용하기 때문에 StandardSScaler와 비교해보면 표준화 후 동일한 값을 더 넓게 분포시킴
(reference: https://mkjjo.github.io/python/2019/01/10/scaler.html)