풍속 예측 AI 해커톤

알고리즘 | 정형 | 회귀 | 산업| MAE

  • moneyIcon 상금 : 인증서
  • 392명 마감

 

[Public 3rd,Private 84th] Autogluon+특성공학

2023.07.31 10:28 816 조회 language

모델은 Extratree로 시작해서 Autogluon과 특성공학을 사용하였습니다.
Stacking level을 3이나 줬기 때문에  과적합이 심하게 되었습니다.  public이 100% 평가데이터라는 특수한 상황이 아니라면 
등수 향상 방법으로 앙상블 기법중에서는 Voting이 특히나 회귀에서 좋을 것 같습니다. 어느정도 private 데이터가 public이랑 많이 유사할거라는 기대(?)로
과도한 Stacking이 등수 하락에 요인인듯 합니다.(Stacking 기법 자체가 어느 정도 과적합 리스크를 감안해야 합니다)
다들 고생하셨습니다. 

코드
로그인이 필요합니다
0 / 1000
Data_bari
2023.08.01 17:52

역시 어느정도 이상 가려면 feature engineering이 필수군요... 잘 봤습니다!

비스퀘어
2023.07.31 12:43

감사합니다! 결과는 좋지 못했지만 AutoML이 대세인 요즘 정형 데이터 대회는 feature engineering으로 성능이 좌지우지 되는것 같습니다.
첨언하자면 도메인 지식이 있으면 남들이 찾지 못한 방법이나 아이디어로 성능 개선 전략 시간 절약에 큰 도움이 될 것 같습니다.

머홍
2023.07.31 20:21

아.. 어떻게 데이터를 처리해야 더 점수를 높일 수 있을까 고민했었는데
이런 방식이 있었구나.. 데이터를 활용하는 방법을 깨우치는걸 너무 늦게 알았네요. 연습할때 참고하겠습니다. 고생하셨습니다. 

대림동총잡이
2023.08.01 01:52

Stacking level 이라는게 TabularPredictor의 num_stack_levels 을 말씀하시는건가용?  
제가알기로 이 값은 앙상블 모델의 갯수로 알고있는데.. 만약 그렇다면 앙상블 모델의 갯수와 과적합이 직접적인 관계가 있는건가요?

비스퀘어
2023.08.01 08:37

답변이 늦어서 죄송합니다.  Autogluon 공식문서를 봐도 정확하게 num_stack_levels이 이해가 되질 않아서 num_stack_levels을 
Stacking으로 predict을 하고 나온 값을 다시 predict 한다고 생각을 했습니다. 말씀해 주신대로 앙상블 모델의 갯수라고 하면
직접적인 관계는 있진 않고, 유사 알고리즘이나 비슷한 특징이 있으면 과적합 요인으로 작용할 것 같습니다.

감자튀김에와사비마요
2023.08.01 13:32

확실히 정형 데이터 대회는 도메인 지식과 feature engineering이 등수에 크게 기여하는것 같습니다. 수고많으셨습니다. 많이 배워갑니다!