풍속 예측 AI 해커톤

알고리즘 | 정형 | 회귀 | 산업| MAE

상금 : 인증서
392명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[Private 1등 - 정새 ] AutoML, Feature Selection & Engineering

정새

2023.07.31 12:46 1,509 조회 language

제 솔루션이 추후 다른 대회를 참여하시는 모든 분께 도움이 되었으면 좋겠습니다!

제가 접근한 방법의 핵심은 다음과 같습니다.
0. 검증을 위한 함수 정의 및 베이스라인 모델 선정
1. 특성 중요도 파악
2. 특성 선택 및 특성 공학
3. 특성 공학으로 만들어진 변수의 추가 특성 공학
4. 일반적으로 좋은 솔루션을 도출해주는 AutoML의 활용

감사합니다.

PDF

코드

댓글 13개

로그인이 필요합니다

comment

0 / 1000

호텔조리학과

2023.08.01 16:02

좋은 자료 공유해 주셔서 감사합니다!! 고생하셨습니다~

정새

2023.08.02 08:55

감사합니다!

calisyj

2023.08.01 16:09

많이 배워갑니다. 감사합니다

정새

2023.08.02 08:55

감사합니다!

Data_bari

2023.08.01 17:51

축하드립니다~

정새

2023.08.02 08:55

감사합니다!

KLOUDE

2023.08.01 22:16

안녕하세요~ 좋은 자료 감사합니다. ExtraTreeRegressor로 피처엔지니어링을 진행하시면서 feature importance는 LGBM으로 측정하신 특별한 이유가 있을까요???? 그리고 ExtraTree모델 기반으로 선택하고 만들어진 변수들이 AutoML 내의 여러 모델에서도 최선의 변수조합으로 작용한다는 보장을 할 수 있는지도 궁금하네요

정새

2023.08.02 09:01

질문 주신 내용 답변 드립니다!

1. ExtraTreeRegressor로 피처엔지니어링을 진행하시면서 feature importance는 LGBM으로 측정하신 특별한 이유
-> 가장 정석이라 하면, ExtraTree 기반으로 특성 공학을 통한 성능 평가를 진행하고, 그 후에 LGBM 혹은 XGBoost를 활용하는 것이 맞습니다. 하지만 제가 여러 프로젝트나 경진대회를 진행하며, LGBM 특성 중요도를 활용했을 때, 일반적으로 좋은 성적을 거두었기에 이번 대회에서도 LGBM을 활용했다고 이해해주시면 될 것 같습니다! (모든 실험을 다 진행하고 관리하기엔 개인적인 시간 부족도 있었습니다!)

2. ExtraTree모델 기반으로 선택하고 만들어진 변수들이 AutoML 내의 여러 모델에서도 최선의 변수조합인지
-> 이 또한 경험적인 측면이라고 말씀드려야 할 것 같습니다. AutoML이 "무조건" 더 좋은 성능을 낼 것이다! 라고 확신 후 사용하는 것이 아니라, 일단 ExtraTree, XGB, LGBM, CATBoost 등 여러 모델 및 특성 공학을 활용해보고, 추가적인 선택지로 AutoML을 주로 활용하고 있습니다. (모델 개념으로)
그렇기 때문에 앞선 실험으로 인한 변수 조합이 AutoML에서 무조건 좋을 것이다! 라는 생각은 최대한 지양하고 있습니다.
하지만 일반적으로 교차 검증 함수 기반으로 만들어진 특성 선택 및 공학이라면 대부분의 솔루션에서 긍정적으로 작용하기 때문에 어느 정도는 보장할 수 있다고 말씀 드릴 수 있을 것 같습니다!

감사합니다.

KLOUDE

2023.08.02 10:56

감사합니다 많이 배워가네요. 1등 축하드립니다!!