자율주행 센서의 안테나 성능 예측 AI 경진대회

EDA : feature categorization

2022.08.05 14:18 1,985 조회

요즘 shiny에 푹 빠져서 살다보니 데이콘 대회를 위한 EDA, feature engineering, cross validation 등 을 앱처럼 만들어서 사용해보고 있습니다.

여러 시도들 중 하나의 경험을 공유해봅니다. 특정 featuere를 보면 명확하게 구분되어 보이기도 합니다. 혹 이것이 target의 값과 관련성이 있지 않을까 하는 생각에 적절한 구분 기준을 바탕으로 2개 이상의 범주로 만든 다음 target의 값을 비교해 보았습니다. 결론은 뚜렷한 차이점을 찾을 수 없었네요.

데이터가 워낙 많다보니 통계적으로 유의한 차이를 보이는 경우도 더러 있었지만 effect size를 보면 거의 무시할만한 수준의 차이라서 별 도움이 안될 것 같더라구요. 원래는 범주의 수도 2~6개 정도까지 구현하려고 했었는데 2개 범주로 나눠서 비교해보니 큰 도움이 안 될 것 같아 그냥 포기해 버렸습니다. X_01의 경우 14개의 target 어떤 것과도 뚜렷한 경향성이 안 보이더라구요. 물론 나머지 feature들도 만찬가지고요.

참고로 X_60과 X_61은 제가 만든 feature들이구요, 이것 덕분에 그래도 상위 10% 안에는 들 수 있었던 것 같습니다. 통계분석과 plot은 랜덤하게 추출된 1000개의 데이터만 표시되었습니다.

로그인이 필요합니다
0 / 1000
당쇠
2022.08.05 23:27

shiny 좋네요~ 따로 한번 글을 써주셔도 좋을 것 같아요. 
감사합니다.

물린다
2022.08.06 09:28

고맙습니다. 위 기능을 포함해서 2~3개 정도 다음주 초에 코드 공유해볼께요. ^^