분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 1등 - 정새 ] AutoML, Feature Selection & Engineering
제 솔루션이 추후 다른 대회를 참여하시는 모든 분께 도움이 되었으면 좋겠습니다!
제가 접근한 방법의 핵심은 다음과 같습니다.
0. 검증을 위한 함수 정의 및 베이스라인 모델 선정
1. 특성 중요도 파악
2. 특성 선택 및 특성 공학
3. 특성 공학으로 만들어진 변수의 추가 특성 공학
4. 일반적으로 좋은 솔루션을 도출해주는 AutoML의 활용
감사합니다.
감사합니다!
많이 배워갑니다. 감사합니다
감사합니다!
축하드립니다~
감사합니다!
안녕하세요~ 좋은 자료 감사합니다. ExtraTreeRegressor로 피처엔지니어링을 진행하시면서 feature importance는 LGBM으로 측정하신 특별한 이유가 있을까요???? 그리고 ExtraTree모델 기반으로 선택하고 만들어진 변수들이 AutoML 내의 여러 모델에서도 최선의 변수조합으로 작용한다는 보장을 할 수 있는지도 궁금하네요
질문 주신 내용 답변 드립니다!
1. ExtraTreeRegressor로 피처엔지니어링을 진행하시면서 feature importance는 LGBM으로 측정하신 특별한 이유
-> 가장 정석이라 하면, ExtraTree 기반으로 특성 공학을 통한 성능 평가를 진행하고, 그 후에 LGBM 혹은 XGBoost를 활용하는 것이 맞습니다. 하지만 제가 여러 프로젝트나 경진대회를 진행하며, LGBM 특성 중요도를 활용했을 때, 일반적으로 좋은 성적을 거두었기에 이번 대회에서도 LGBM을 활용했다고 이해해주시면 될 것 같습니다! (모든 실험을 다 진행하고 관리하기엔 개인적인 시간 부족도 있었습니다!)
2. ExtraTree모델 기반으로 선택하고 만들어진 변수들이 AutoML 내의 여러 모델에서도 최선의 변수조합인지
-> 이 또한 경험적인 측면이라고 말씀드려야 할 것 같습니다. AutoML이 "무조건" 더 좋은 성능을 낼 것이다! 라고 확신 후 사용하는 것이 아니라, 일단 ExtraTree, XGB, LGBM, CATBoost 등 여러 모델 및 특성 공학을 활용해보고, 추가적인 선택지로 AutoML을 주로 활용하고 있습니다. (모델 개념으로)
그렇기 때문에 앞선 실험으로 인한 변수 조합이 AutoML에서 무조건 좋을 것이다! 라는 생각은 최대한 지양하고 있습니다.
하지만 일반적으로 교차 검증 함수 기반으로 만들어진 특성 선택 및 공학이라면 대부분의 솔루션에서 긍정적으로 작용하기 때문에 어느 정도는 보장할 수 있다고 말씀 드릴 수 있을 것 같습니다!
감사합니다.
감사합니다 많이 배워가네요. 1등 축하드립니다!!
1등 축하드립니다!
감사합니다!
많이 배워갑니다! 고생많으셨습니다 !!
감사합니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
좋은 자료 공유해 주셔서 감사합니다!! 고생하셨습니다~