분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
월간 데이콘 반도체 박막 두께 분석 경진대회
컬럼 개수가 너무 많은데 다들 어떻게 처리하나요?
이렇게 많은 컬럼을 처리하는 경우는 처음이네요... feature selection 다들 어떻게 하고 계신가요?
layer_1~4를 설명하기 위해 나머지 226개 변수(컬럼, feature)를 활용합니다.
회귀, 의사결정나무, 랜덤포레스트, gbm 등 대부분의 지도학습 방법론에는 변수 선택(variable/feature selection) 과정이 포함되어 있어서 226개 중에 필요한 변수만 선택될 거고,
필요하다면 차원축소(dimension reduction, feature extraction) 방법을 활용하여 226개 변수를 적당히 묶어 활용할 수도 있을겁니다.
혹은 아예 deep learning을 활용하면 알고리즘의 특성상 226개 변수의 복잡한 조합을 활용해서 layer1~4를 설명할 수도 있겠죠.
분석 전에 EDA과정이 복잡해졌을 뿐, 변수가 많다고 해서 먼저 feature selection을 할 필요는 없습니다.
그렇군요... 참고해서 다시 해보겠습니다 감사합니다~~!!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
삭제된 댓글입니다