분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
multivariate prediction 시도해보신 분 있나요??
대회 기간동안 고생하셨습니다!
혹시 주어진 ECLO 대신 사망자수 ,중상자수, 경상자수 ,부상자수를 예측하는 방식으로 문제를 해결하신 분이 계신가요??
여러번 시도해봤었는데 사망자수 예측도 안되고 중사자수 경상자수 등 다른 부분 예측도 validtion set에 대한 성능은 좋지만 실제로 제출해보면 성능이 좋지 않게 나오는데 혹시 multivariate prediction 쪽으로 문제를 해결하신 분들이 있으면 제가 부족했던 부분들에 대해서 배우고 싶습니다!
제가 이 방법으로 했었는데 코드공유로 한 번 올려볼까 합니다
감사합니다! 좋은 인사이트가 될거같아요!
코드공유 올렸습니다!
모델을 두 단계로 나눠서 1단계에서는 multi label classification처럼 사망자수 ,중상자수, 경상자수 ,부상자수 예측을 했구요,
이때 class weight을 주어야 학습이 잘 되더라구요.
2단계에서는 앞에 학습 된 모델 그대로에서 ECLO 학습학 fine tuning 하는 느낌으로 했구요,
처음에는 강화학습쪽에 Dueling DQN처럼 1단계학습이 없더라도 네트워크 구조 안에 사망자수 ,중상자수, 경상자수 ,부상자수 노드만 넣어도 성능이 향상되지 않을까 아이디어에서 한건데, 이게 class imbalance가 심하다 보니 큰 수치에 대해 학습이 잘 안되어서 학습을 두 단계로 나누고, 앞 단계에서 class weight을 주는 형태로 바꾸었습니다
근데 다른분들 코드를 보니 결국은 전처리 단계에서 주소 같은거 얼마나 잘 다뤄서 처리했는지가 중요해 보이네요..
시도를 해봤었는데 사망자수와 중상자수 예측이 어려워 값들이 전체적으로 작게 예측하는 경향을 보여 어려웠습니다..
분류모델로도 실험을 해보았는데도 잘 안나오더군요
약간의 성능향상은 있었는데 저도 동일하게 사망자 수, 중상자 수는 거의 사용되지 않고 3~4사이의 값으로 수렴했었습니다.
저는 사망자수에 가중치를 좀 더 부여해서 학습을 시키니까 3,4로 편향되는 건 해결됐는데, 제출 점수는 잘 안 나오더라구요.
혹시 가중치를 어떻게 부여하셨는지 알 수 있을까요??
가중치는 ECLO룰베이스에 곱해주는 가중치랑 같게 곱해줬습니다. 10,5,3,1이렇게요
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
같은 생각으로 접근하셨던 분이 계셨었네요..
저는 시도만 해봤고, 결과가 안 좋아서 바로 접었습니다 ㅠㅠ
일단 작업량이나 시간이 4배(+α)가 돼버리니 쉽지 않더군요..