분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
그룹화해서 이상치 처리하는건 문제 없을까요?
정확한 예측을 위해서라면 데이터 전처리가 정말 중요하다는것을 깨닫고 어떻게든 효율적인 방법으로 해보려고 여러가지 시도 중인데요,
아래는 풍속 예측 대회 데이터중 종속변수 풍속에 대해 박스플롯을 그려봤구요.
아래는 계절에 따른 풍속을 박스플롯으로 그려봤습니다.
이처럼 계절에 따라 이상치였던게 사실 이상치가 아닌경우도 있고, 이상치가 아니었던게 이상치였던 경우가 생각보다 많더라구요.
그래서 그룹화 할 수 있는건 그룹화 해서 상한으로 이상치처리를 하고있는데요,
모델 점수는 더 좋게 나오곤 있습니다.
그런데 다른 분들 코드 보면 저처럼 그룹화해서 이상치처리를 하는분들은 많이 못본거 같은데요
제가 맞게 하고있는건지 궁금하기도하고, 항상 이렇게하면 신경쓸게 너무 많아지다보니 여기 올려봅니다.
지적은 환영합니다..
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved