분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Public 3rd,Private 84th] Autogluon+특성공학
모델은 Extratree로 시작해서 Autogluon과 특성공학을 사용하였습니다.
Stacking level을 3이나 줬기 때문에 과적합이 심하게 되었습니다. public이 100% 평가데이터라는 특수한 상황이 아니라면
등수 향상 방법으로 앙상블 기법중에서는 Voting이 특히나 회귀에서 좋을 것 같습니다. 어느정도 private 데이터가 public이랑 많이 유사할거라는 기대(?)로
과도한 Stacking이 등수 하락에 요인인듯 합니다.(Stacking 기법 자체가 어느 정도 과적합 리스크를 감안해야 합니다)
다들 고생하셨습니다.
감사합니다! 결과는 좋지 못했지만 AutoML이 대세인 요즘 정형 데이터 대회는 feature engineering으로 성능이 좌지우지 되는것 같습니다.
첨언하자면 도메인 지식이 있으면 남들이 찾지 못한 방법이나 아이디어로 성능 개선 전략 시간 절약에 큰 도움이 될 것 같습니다.
아.. 어떻게 데이터를 처리해야 더 점수를 높일 수 있을까 고민했었는데
이런 방식이 있었구나.. 데이터를 활용하는 방법을 깨우치는걸 너무 늦게 알았네요. 연습할때 참고하겠습니다. 고생하셨습니다.
Stacking level 이라는게 TabularPredictor의 num_stack_levels 을 말씀하시는건가용?
제가알기로 이 값은 앙상블 모델의 갯수로 알고있는데.. 만약 그렇다면 앙상블 모델의 갯수와 과적합이 직접적인 관계가 있는건가요?
답변이 늦어서 죄송합니다. Autogluon 공식문서를 봐도 정확하게 num_stack_levels이 이해가 되질 않아서 num_stack_levels을
Stacking으로 predict을 하고 나온 값을 다시 predict 한다고 생각을 했습니다. 말씀해 주신대로 앙상블 모델의 갯수라고 하면
직접적인 관계는 있진 않고, 유사 알고리즘이나 비슷한 특징이 있으면 과적합 요인으로 작용할 것 같습니다.
확실히 정형 데이터 대회는 도메인 지식과 feature engineering이 등수에 크게 기여하는것 같습니다. 수고많으셨습니다. 많이 배워갑니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
역시 어느정도 이상 가려면 feature engineering이 필수군요... 잘 봤습니다!