자율주행 센서의 안테나 성능 예측 AI 경진대회

알고리즘 | 정형 | 회귀 | 자율주행 | NRMSE

  • moneyIcon 상금 : 총 1,000만원
  • 2,042명 마감

 

데이터 이상치 제거 및 그 결과

2022.08.06 01:11 2,545 조회 language

이상치를 제거했더니 성능이 너무 메롱하더라고요
아마 데이터가 너무 과도하게 지워져서(39000개중 29000개 정도 지워져서 10000개 정도 남음) 그런 것 같은데
여러분들 생각에는 어떤 x 컬럼의 이상치를 제거해야 데이터는 조금만 지워지면서 성능이 좋아질 수 있을까요?
파생변수 생성해 보기 전에 이상치 부터 잡고 가려고 합니다
어떤 의견이던지 환영합니다!

PDF
로그인이 필요합니다
0 / 1000
물린다
2022.08.06 09:32

오오.. 반가운 R 코드네요. 한 수 배우고 갑니다. ^^

lastdefiance20
2022.08.07 04:42

저는 이상치 제거에 좀 회의적인 입장입니다... 데이터를 저도 좀 더 분석해봐야 알겠지만, 우리가 이상치라고 생각했던 X의 범주에서 벗어난 값들이, 사실 제품이 불량인 Y_value값(정상 범주를 벗어난 Y_value)를 판단하는데 도움을 준다면? 그것은 제거하기보다는 사용해야 하지 않을까 생각합니다. 

예를 들어 상상을 해보면 데이터의 거의 대부분이 1에 수렴하고, 4 이상인 값들이 소수 존재한다고 생각해보겠습니다. 또한 1에 수렴하는 데이터들의 y1값이 정상 범주에 속하는 1~2 사이, 4에 수렴하는 데이터들의 y1값이 이상 범주에 속하는 2이상의 값을 예측하는데 도움을 준다고 해보겠습니다. 이때 범주만을 고려해서 4 이상인 값들을 제거하거나, 2로 범주 내부의 값으로 대체했을 경우,  모델 학습시 y1값이 이상 범주에 속하는 값에 대한(제품 불량) 예측력이 낮아지게 되는 것입니다.

물론 저도 추가적인 실험을 해봐야겠지만, 이상치 제거에 조심스럽게 접근해야된다는 점은 변하지 않습니다. 따라서 성능이 낮아진 이유는 그저 X_feature의 범주만을 고려해 데이터를 제거했기 때문이라고 생각합니다. X 데이터의 범주를 위주로 하는 것 보다는, Y feature과의 관계와 이상치의 정의를 잘 정립해서 조심스럽게 제거하면 성능이 좋아지지 않을까 생각합니다.

물린다
2022.08.06 19:02

정상범주에 들어가는 데이터와 그렇지 않은 데이터를 구분해서 특징을 찾아내서 밀도기반 클러스터링도 해볼까 생각하고 살펴봤는데 명확한 특징을 못 잡아내겠더라구요.... 아직 내공이 많이 부족해서...ㅠㅠ

풋풋한_풋사과
2022.08.06 19:55

우와... 설득당해 버렸네요
그런점은 전혀 생각지도 못했습니다
역시 김치 세탁기님 말처럼 파생변수를 만들어야하나...(하지만 도메인이 너무 부족하네요 ㅠㅜ)

lastdefiance20
2022.08.06 21:29

밀도기반 클러스터링도 재밌는 아이디어네요! 저는 물린다님만큼의 통계적인 지식이 좀 부족해서 우선 모델쪽에 힘을 쏟아보고 있습니다. 이전에도 봤지만, 데이터 분석을 잘하시는것 같네요 이게 R을 배워야하나...

도메인같은 경우에도 사실 이 대회에서 도메인을 가지고 접근하는건 거의 불가능하다고 생각합니다. 저도 자율주행쪽을 공부해본 사람이지만 라이다 사용법을 배우지, 라이다 제조를 하는건 아니잖아요? 저도 도메인 없이 파생변수를 몇개 추측대로 생각해보았는데 한 10개 만든거 중에서 shap value와 validation score을 토대로 검증한 이후 살아남은 변수는 단 두개뿐입니다. (성능이 미세하게 올라가더라고요) 도메인 지식에 너무 집착하는거 보다는, 데이터 분석과 의미에 대해서 다양하게 분석해보고, 모델쪽에도 힘을 쏟으시면 좋은 결과가 나오지 않을까 생각합니다.

물린다
2022.08.07 00:28

저도 통계적 지식은 거의 없습니다. 그냥 구글링해서 몇가지 방법을 익혔을 뿐이라... 
도메인 지식도 없어서 피처들 이렇게 저렇게 조작해가면서 나름대로 파생변수 만들고 있는데 쉽지 않네요. 
아직은 장님 코끼리 만지듯 데이터를 둘러보고 있습니다. 다들 화이팅요. ^^

Lasss
2022.08.08 00:07

혹시 IQR 사용하실 때 Q3 - Q1 하신 건가요??

풋풋한_풋사과
2022.08.08 00:10

네네 그 박스플롯 밖의 값이면 전부 결측값으로 바꾸고 나중에 한번에 모든 컬럼 결측지 지우니 29000개 정도의 데이터가 지워지더라고요

평택아져씨
2022.08.08 13:33

이상치제거는 도메인 지식에 기반하 제거하셔야합니다. 그냥 IQR로 제거하면 망해요 ㅎㅎ;;

풋풋한_풋사과
2022.08.08 14:06

ㅠㅠㅠㅠ