분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
스마트 공장 제품 품질 상태 분류 AI 온라인 해커톤
데이터 전처리 과정이 궁금합니다
데이터 전처리 과정에서 결측치 값을 꼭 0으로 대체하고 시작을 해야 하나요?
혹시 몰라 평균값으로 대체해서 제출했더니 스코어가 그전보다 낮게 나와서 잘못한 건 아닌가 해서 문의드립니다
활용하는 알고리즘에 따라 다를 수 있습니다.
예를 들어 lightgbm의 경우에는 결측값을 알아서 처리합니다.
("LightGBM enables the missing value handle by default")
결측값을 꼭 채워야할 때는 고민이 많을 수 밖에 없는데요,
실제값의 최솟값과 최댓값을 확인하고 적절한 값을 찾아야 합니다.
Tree 기반의 알고리즘들은 분할 기준을 찾을 때 저 최솟값, 최댓값 범위를 활용할 수 있기 때문에 너무 작은 값(예를 들어 -9999)을 지정하면 문제가 생길 수도 있습니다.
각 변수별로 최솟값 -1 정도로 지정하는 것도 가능한데, 번거로울 수 있기 때문에 큰 문제가 없다면 모든 변수에 0, -1과 같은 값을 지정해볼 수 있습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
상황에따라 다를거같아요.
꼭 0이 아니더라도 아예 삭제하거나 정규분포, 회귀, 평균,중앙,최빈값 등으로 대체 가능합니다