분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
자율주행 센서의 안테나 성능 예측 AI 경진대회
EDA : feature categorization
요즘 shiny에 푹 빠져서 살다보니 데이콘 대회를 위한 EDA, feature engineering, cross validation 등 을 앱처럼 만들어서 사용해보고 있습니다.
여러 시도들 중 하나의 경험을 공유해봅니다. 특정 featuere를 보면 명확하게 구분되어 보이기도 합니다. 혹 이것이 target의 값과 관련성이 있지 않을까 하는 생각에 적절한 구분 기준을 바탕으로 2개 이상의 범주로 만든 다음 target의 값을 비교해 보았습니다. 결론은 뚜렷한 차이점을 찾을 수 없었네요.
데이터가 워낙 많다보니 통계적으로 유의한 차이를 보이는 경우도 더러 있었지만 effect size를 보면 거의 무시할만한 수준의 차이라서 별 도움이 안될 것 같더라구요. 원래는 범주의 수도 2~6개 정도까지 구현하려고 했었는데 2개 범주로 나눠서 비교해보니 큰 도움이 안 될 것 같아 그냥 포기해 버렸습니다. X_01의 경우 14개의 target 어떤 것과도 뚜렷한 경향성이 안 보이더라구요. 물론 나머지 feature들도 만찬가지고요.
참고로 X_60과 X_61은 제가 만든 feature들이구요, 이것 덕분에 그래도 상위 10% 안에는 들 수 있었던 것 같습니다. 통계분석과 plot은 랜덤하게 추출된 1000개의 데이터만 표시되었습니다.
고맙습니다. 위 기능을 포함해서 2~3개 정도 다음주 초에 코드 공유해볼께요. ^^
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
shiny 좋네요~ 따로 한번 글을 써주셔도 좋을 것 같아요.
감사합니다.