분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
그룹화해서 이상치 처리하는건 문제 없을까요?
정확한 예측을 위해서라면 데이터 전처리가 정말 중요하다는것을 깨닫고 어떻게든 효율적인 방법으로 해보려고 여러가지 시도 중인데요,
아래는 풍속 예측 대회 데이터중 종속변수 풍속에 대해 박스플롯을 그려봤구요.
아래는 계절에 따른 풍속을 박스플롯으로 그려봤습니다.
이처럼 계절에 따라 이상치였던게 사실 이상치가 아닌경우도 있고, 이상치가 아니었던게 이상치였던 경우가 생각보다 많더라구요.
그래서 그룹화 할 수 있는건 그룹화 해서 상한으로 이상치처리를 하고있는데요,
모델 점수는 더 좋게 나오곤 있습니다.
그런데 다른 분들 코드 보면 저처럼 그룹화해서 이상치처리를 하는분들은 많이 못본거 같은데요
제가 맞게 하고있는건지 궁금하기도하고, 항상 이렇게하면 신경쓸게 너무 많아지다보니 여기 올려봅니다.
지적은 환영합니다..
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved