월간 데이콘 반도체 박막 두께 분석 경진대회

컬럼 개수가 너무 많은데 다들 어떻게 처리하나요?

2020.01.08 11:31 4,070 조회

이렇게 많은 컬럼을 처리하는 경우는 처음이네요... feature selection 다들 어떻게 하고 계신가요?

로그인이 필요합니다
0 / 1000
wind runner
2020.01.09 00:03

삭제된 댓글입니다

Statistics
2020.01.09 01:23

layer_1~4를 설명하기 위해 나머지 226개 변수(컬럼, feature)를 활용합니다.
회귀, 의사결정나무, 랜덤포레스트, gbm 등 대부분의 지도학습 방법론에는 변수 선택(variable/feature selection) 과정이 포함되어 있어서 226개 중에 필요한 변수만 선택될 거고, 

Statistics
2020.01.09 01:23

필요하다면 차원축소(dimension reduction, feature extraction) 방법을 활용하여 226개 변수를 적당히 묶어 활용할 수도 있을겁니다.
혹은 아예 deep learning을 활용하면 알고리즘의 특성상 226개 변수의 복잡한 조합을 활용해서 layer1~4를 설명할 수도 있겠죠.

분석 전에 EDA과정이 복잡해졌을 뿐, 변수가 많다고 해서 먼저 feature selection을 할 필요는 없습니다. 

SDSTony
2020.01.09 18:57

그렇군요... 참고해서 다시 해보겠습니다 감사합니다~~!!