분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[private 4th] catboost + autogluon
colab에서 CPU로 catboost 모델을 학습한 후 T4 GPU로 런타임을 변경하여 autogluon 모델을 학습하였습니다.
catboost는 item, location별로 모델을 학습하였으며, autogluon은 item, location, corporation별로 데이터를 나누어 학습하였습니다.
따라서 두 모델의 데이터 전처리 방식에 약간의 차이가 있습니다.
정확도를 높이기 위해 두 모델의 예측 결과를 평균 내었고, EDA 결과 일요일에는 거래가 거의 일어나지 않으므로 예측 결과를 0으로 후처리 하였습니다.
public 기간에 대해 과적합 문제가 발생할 것을 어느 정도 예상하였으나 200점 가까이 차이가 나서 조금 놀랐네요...
약 한 달간 모두 수고하셨습니다. 좋은 대회를 열어주신 주최측 분들께도 감사의 말씀 전합니다.
안녕하세요 뿡뿡뿡삥님
test 기간이 2023.03.04~2023.03.31로 28일 동안의 가격을 예측하는 것입니다.
따라서 validation score 예측도 가장 최근의 28일의 기간으로 잡았습니다.
위의 세 for문을 통과하면 item, location, corporation별 가장 최근의(28일) 데이터가 validation 데이터가 됩니다.
v_data 데이터 프레임을 체크하면 데이터의 형태를 확인할 수 있습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요! 좋은 코드 공유해주셔서 감사합니다,
혹시
for c in X_train['corporation'].unique():
x = X_train[X_train['corporation'] == c].iloc[-28:]
해당 부분에서는 왜 iloc부분에 '-28'을 사용했는지 이유가 있을까요 ?? 감사합니다!