분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
스마트 공장 제품 품질 상태 분류 AI 온라인 해커톤
데이터 전처리 과정이 궁금합니다
데이터 전처리 과정에서 결측치 값을 꼭 0으로 대체하고 시작을 해야 하나요?
혹시 몰라 평균값으로 대체해서 제출했더니 스코어가 그전보다 낮게 나와서 잘못한 건 아닌가 해서 문의드립니다
활용하는 알고리즘에 따라 다를 수 있습니다.
예를 들어 lightgbm의 경우에는 결측값을 알아서 처리합니다.
("LightGBM enables the missing value handle by default")
결측값을 꼭 채워야할 때는 고민이 많을 수 밖에 없는데요,
실제값의 최솟값과 최댓값을 확인하고 적절한 값을 찾아야 합니다.
Tree 기반의 알고리즘들은 분할 기준을 찾을 때 저 최솟값, 최댓값 범위를 활용할 수 있기 때문에 너무 작은 값(예를 들어 -9999)을 지정하면 문제가 생길 수도 있습니다.
각 변수별로 최솟값 -1 정도로 지정하는 것도 가능한데, 번거로울 수 있기 때문에 큰 문제가 없다면 모든 변수에 0, -1과 같은 값을 지정해볼 수 있습니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
상황에따라 다를거같아요.
꼭 0이 아니더라도 아예 삭제하거나 정규분포, 회귀, 평균,중앙,최빈값 등으로 대체 가능합니다