그룹화해서 이상치 처리하는건 문제 없을까요?

2023.07.22 21:05 738 Views

정확한 예측을 위해서라면 데이터 전처리가 정말 중요하다는것을 깨닫고 어떻게든 효율적인 방법으로 해보려고 여러가지 시도 중인데요,

아래는 풍속 예측 대회 데이터중 종속변수 풍속에 대해 박스플롯을 그려봤구요.

아래는 계절에 따른 풍속을 박스플롯으로 그려봤습니다.

이처럼 계절에 따라 이상치였던게 사실 이상치가 아닌경우도 있고, 이상치가 아니었던게 이상치였던 경우가 생각보다 많더라구요.

그래서 그룹화 할 수 있는건 그룹화 해서 상한으로 이상치처리를 하고있는데요,

모델 점수는 더 좋게 나오곤 있습니다.

그런데 다른 분들 코드 보면 저처럼 그룹화해서 이상치처리를 하는분들은 많이 못본거 같은데요

제가 맞게 하고있는건지 궁금하기도하고, 항상 이렇게하면 신경쓸게 너무 많아지다보니 여기 올려봅니다.

지적은 환영합니다..