집값 예측 AI해커톤

결측치가 아닌, 이상치에 대한 보간법 적용이 효과가 있을까요?

2022.01.27 17:09 1,246 조회

안녕하세요! 머신러닝 초보자 입니다.

저번 펭귄 몸무게 예측 basic대회에서 결측치에 대해 다른 특징을 토대로 예측하여 그 예측값으로 대체하는 작업을 진행하였습니다.

이번 집값 예측 basic문제에 대해서, 이상치가 꽤 많은 특징이 여럿 있었는데,

이 이상치를 Nan값으로 바꿔주고 이에 대해 Nan이 아닌값을 토대로 예측 모델을 생성하고 예측을 진행하여 이 값으로 대체하는 작업이

충분히 의미있을 것 같다는 아이디어가 떠올랐습니다.


과연 의미가 있고 효과적인 방법일까요?? 혹은 위험한 방법일까요??

구글에 검색해보니 이상치에 대해 보간법을 진행하는 글은 보지 못했습니다.


좋은 조언 부탁드립니다! 감사합니다.

로그인이 필요합니다
0 / 1000
yoonj
2022.01.30 21:59

해당 글을 보고 저도 궁금증이 들어서 찾아봤는 데, 코드 예제는 아니지만 이상치를 다루는 방법에 관련된 글에서 비슷한 내용을 찾을 수 있었습니다! 이상치가 데이터의 실수로 인한 값이라고 판단된다면 평균이나 중위수, 혹은 예측 모델을 통해 대치할 수 있다는 내용이었는데요. 

다만, 개인적으로 여러 컬럼에 이상치가 존재한다면 데이터 대치를 위한 모델 구축 시 고려해야할 점이 많아지지 않을까라는 생각이 들었습니다.

https://www.linkedin.com/pulse/how-handle-outliers-piyush-kumar

성지코딩
2022.02.03 13:25

감사합니다! 저도 다른 블로그 글에서 예측 모델을 사용할 수 있다라는 비슷한 글을 보고 이번 대회에서 이상치를 랜덤포레스트를 사용하여 예측한 결과를 대입해보았습니다. 대신, 이상치가 많은 특징부터 예측값을 대입시켜주었습니다. 결과적으로 미묘하지만 성능이 향상되었습니다. (평균값 대체보다 좋아졌을지는 확인하지 않았습니다.) 그런데 말씀하신 대로 여러 컬럼에 이상치가 존재할 경우 오히려 독이 될 수 있을거란 생각이 드네요. 좋은 답변 감사드립니다!