분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Private: 5위, Public: 0.14763, XGB
이번 대회를 Public 5위, 최종 5위로 마무리한 yhsu라고 합니다.
비슷한 대회가 Kaggle에서 열렸다는 것을 확인하고 해당 대회 코드들을
참고 했을 뿐인데, 이런 결과가 나와서 사실 당황스럽습니다.
대략 1달의 기간 동안 대회에 참여 하신 모든 분들 고생 많으셨습니다.
환경 : Google Colab
설명 : Kaggle의 'Spooky Author Identification' 대회 토론 창의 코드들을 참고 하여 피처 엔지니어링을 진행하였습니다.
https://github.com/AloneGu/kaggle_spooky/blob/master/base_xgb_nn_cv5_PL_27436.ipynb
tfidfvectorizer와 countervectorizer도 활용하였습니다.
Gradient Boosting Algorithm 중 정확도가 제일 높던 XGBoost로 최종 앙상블 하였습니다.
공유해주신 코드의
full_tfidf = tfidf_vec.fit_transform(train_df['text'].values.tolist() + test_df['text'].values.tolist())
부분에서 data leakage가 발생하는 것 같습니다
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
혹시 fit 할 때 test_df 포함하셨나요? 아니라면 빨리 수정하셔야 할 것 같습니다!