스마트 공장 제품 품질 상태 분류 AI 온라인 해커톤

데이터 전처리 과정이 궁금합니다

2023.02.03 22:26 1,462 조회

데이터 전처리 과정에서 결측치 값을 꼭 0으로 대체하고 시작을 해야 하나요?

혹시 몰라 평균값으로 대체해서 제출했더니 스코어가 그전보다 낮게 나와서 잘못한 건 아닌가 해서 문의드립니다

로그인이 필요합니다
0 / 1000
의상이의면도날
2023.02.04 16:02

상황에따라 다를거같아요. 
꼭 0이 아니더라도 아예 삭제하거나 정규분포, 회귀, 평균,중앙,최빈값 등으로 대체 가능합니다

Statistics
2023.02.05 18:27

활용하는 알고리즘에 따라 다를 수 있습니다. 
예를 들어 lightgbm의 경우에는 결측값을 알아서 처리합니다.
("LightGBM enables the missing value handle by default")

결측값을 꼭 채워야할 때는 고민이 많을 수 밖에 없는데요, 
실제값의 최솟값과 최댓값을 확인하고 적절한 값을 찾아야 합니다. 
Tree 기반의 알고리즘들은 분할 기준을 찾을 때 저 최솟값, 최댓값 범위를 활용할 수 있기 때문에 너무 작은 값(예를 들어 -9999)을 지정하면 문제가 생길 수도 있습니다. 
각 변수별로 최솟값 -1 정도로 지정하는 것도 가능한데, 번거로울 수 있기 때문에 큰 문제가 없다면 모든 변수에 0, -1과 같은 값을 지정해볼 수 있습니다.