분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[최종 3위] PCA + hyperparameter tuning + stacking ensemble
공동작성자
깃허브 : https://github.com/kmsk99/dacon-235927-kops
PCA 최적화와 하이퍼파라미터 튜닝에 관한 자세한 코드는 깃허브에서 확인하실 수 있습니다
안녕하십니까 용머리입니다. 저희팀은 막판 순위가 뒤바뀌며 최종 3위로 수상하게 되었습니다.
저희팀은 도메인 지식이 거의 없어, 대부분의 시간을 하이퍼파라미터 튜닝과 모델링에 쏟아부었습니다.
최초 성능 향상은 불필요한 인자들을 제거한 후, 하이퍼파라미터 튜닝된 모델 여럿의 스태킹 앙상블을 통해 이루어냈습니다.
이후 성능향상이 이루어지지 않는 모델이나 소요시간이 오래 걸리는 모델을 제거하고, 하이퍼파라미터 튜닝에 오랜 시간을 쏟았지만 성능 향상이 거의 없었습니다.
여러 전처리 방법을 시도하다 막판 PCA 최적화를 통해 약간의 성능 향상을 이뤄내며 2차 평가 대상에 들어갈 수 있게 되었습니다.
저희팀은 경량화에도 힘을 쏟았는데 처음엔 결과물이 기가바이트 단위를 넘어가, random forest같은 거대한 모델을 제외했습니다.
모델 저장방식에도 변화를 주어 용량과 소요시간을 K분의 1로 줄였습니다.
이번 대회에서의 아쉬운 점이라면 도메인 지식 부족과 데이터 전처리에 대해 많은 시도를 해보지 못한 것을 꼽을 수 있었습니다.
앗 깃허브 열어놓질 않고 있었네요
lastdefiance20님 도메인 지식을 활용하여 파생변수 생성하신것 잘 보았습니다. 저희도 이런 파생변수를 생성해보고 싶었는데 미처 생각하질 못했었네요
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
3위 수상 축하드립니다!! PCA를 사용해서 feature를 처리한 부분이 되게 흥미로운 것 같습니다. 스태킹 앙상블도 생각보다 성능이 잘나오네요
첨부된 깃허브 링크는 아직 private repo로 공개하지 않으신 것인지 링크로 들어가지지는 않네요... 다른팀 수상자분들 솔루션이 궁금했는데 올려주셔서 코드와 PPT 잘 봤습니다!