분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 1등] TabPFN + 건물 맞춤형 Feature selection
공동작성자
안녕하세요 주머니쥐입니다 ㅎㅎ 제 부족한 코드가 한국에너지공단과 이글을 보시는 분들이게 조금이라도 도움이 되었으면 좋겠습니다.
제가 활용한 핵심 전략은 2가지로 요약할 수 있을 것 같습니다.
1. 첫번째는 2025년 nature 에 발표된 tabular data에 SOTA를 달성한 TabPFN [1] 이라는 딥러닝 모델을 활용한 것입니다. (Apache 2.0 license)
1.1 해당 연구는 tabular data에서는 아직까지도 Gradient-Boosted Decision Trees (XGBoost, LightGBM, CatBoost 등) 가 SOTA라는 점을 지적합니다.
1.2 다양한 분야에서 딥러닝 모델이 활약하고 있는데 tabular 데이터만 딥러닝이 활약하지 못하는 이유가 사전학습하기 위한 데이터가 부족하고 변수 개수와 형태가 문제라고 가정하였습니다.
1.3 위의 문제를 해결하기 위해 해당 연구에서는 구조적 인과 모델을 활용하여 1억개 이상의 합성 데이터셋을 구축하여 transformer 기반 아키텍처를 사전학습하였습니다.
1.4 해당 모델은 10,000개 샘플, 500개 feature 이하 데이터셋에서 SOTA 급의 성능을 달성하였습니다.
2. 두번째는 각 건물별 맞춤형 최적의 변수를 찾아 주었습니다.
2.1 2024년 6월 1일 부터 2024년 8월 24일까지의 train 데이터셋 중 마지막 일주일인 2024년 8월 18일에서 2024년 8월 24일 데이터를 val 으로 활용하였습니다.
2.1 각 건물 별로 변수를 하나씩 제거해 보면서(후진 제거법 [2]) 가장 sampe가 개선되는 변수를 제거하여 각 건물 별로 최적의 solution을 제공해 주었습니다.
코드는 코렙환경에서 따라할 수 있게 구성하였습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved