Y&Z세대 투자자 프로파일링 시각화 경진대회

분석시각화 | 정형 | 분류 | 금융 | 정성평가| 중복참가 불가, 대학 재학생만 참가 가능

  • moneyIcon 상금 : 총 5,000만원(League1,2 통합)
  • 710명 마감
마감

 

[Y&Z세대, 4가지 멀티 페르소나] 당신은 어떤 투자자인가요?

2020.12.27 23:56 8,074 조회 language

안녕하세요! NH투자증권 빅데이터 경진대회 : Y&Z세대 투자자 프로파일링에 참가한 분노한 두더지 팀입니다!

아직 학생이라 코딩과 시각화에 미숙하지만, 재밌게 봐주셨으면 좋겠습니다!

감사합니다. :)

해당 코드는 심사기간 동안 비공개 됩니다.
로그인이 필요합니다
0 / 1000
Justin4AI
2020.12.28 03:13

머신러닝 사용해도 되는거였나요..?

분노한두더지
2020.12.28 09:36

넵 가능한 걸로 알고 있습니다!
데이터명세 PPT에도 Modeling 관련 얘기가 있더라구요.
댓글 감사합니다. :)

스몰콘
2020.12.28 10:51

k-means 군집화의 경우 유클리드 거리를 사용하기 때문에 categorical data를 one hot encoding하여 사용하기 어렵다고 알고 있는데 이를 어떻게 해결하셨을까요!?

유연한 남탓, 사고하지 않기
2020.12.28 13:36

그 점에 대해 저도 궁금하네요. 군집화에 사용한 변수들을 모두 원핫인코딩을 해서 상관없다 판단하고 진행한 것이 아닌지

배부른 가니쉬
2020.12.28 14:08

댓글 감사합니다 :)

처음에는 체결수량, 체결가격 등 numeric data 그대로를 가지고 clustering을 진행했습니다. 그랬더니 clustering 결과가 한 쪽으로 모두 치우치게 되더라구요. (90% 이상) 

따라서 구간을 나눈 후 categorical data로 변환한 후 StandardScaler를 이용하여 스케일링을 하고 k-means clustering을 진행했습니다. 그랬는데도 군집이 잘 나뉘지 않았습니다. (아마 말씀해 주신 것처럼 k-means 알고리즘이 유클리드 거리를 사용하기 때문인 것 같습니다.)

해결 방법을 찾아보다가 StandardScaler 대신 RobustScaler를 시도해봤습니다. 체결수량, 체결가격 구간을 나누기 전과 후 모두 RobustScaler를 이용하여 정규화를 했으며 그 결과, 구간을 나누었을 때 군집이 명확하게 잘 나누어졌으며 (거의 동일한 비율) 아래 군집별 비교를 했을 때, 특성들이 군집별로 잘 분류되어 나타났습니다.

물론 정규화가 k-means 알고리즘이 가진 근본적인 문제를 해결해 줄 수는 없을 것입니다. 이것은 저희 분석이 가진 한계점이라고 생각합니다.

numeric data가 없을 때 categorical data를 어떻게 k-means에 활용하면 좋을지, 다른 clustering 방법은 어떤 것이 있는지 더 심도있게 공부하도록 하겠습니다!

*RobustScaler
: 아웃라이어의 영향을 최소화한 기법으로 중앙값과 IQR을 사용하기 때문에 StandardSScaler와 비교해보면 표준화 후 동일한 값을 더 넓게 분포시킴
(reference: https://mkjjo.github.io/python/2019/01/10/scaler.html)

Lin_Mod
2020.12.28 15:00

삭제된 댓글입니다

철수친구
2020.12.31 10:04

잘하신것같아요!

배부른 가니쉬
2021.01.02 17:31

감사합니다! :)

비회원
2020.12.31 11:12

특징이 잘 나눠진게 신기하네요. 잘 봤습니다. 혹시 군집화 하실 때 3D로 하신 특별한 이유가 있을까요? 일반적으로 이차원에서 시각화하는게 일반적일 텐데 인상적이라서요!

배부른 가니쉬
2021.01.02 17:33

고차원의 데이터셋을 축소하여 시각화하는 방법이다보니, 2차원에서는 겹쳐보이는 데이터가 많았습니다.
따라서 3차원으로도 시도해봤는데 2차원보다 군집이 뚜렷하게 나뉘어 보였기 때문에 3차원 시각화를 해보았습니다.
댓글 감사합니다! :)