분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Private: 5위, Public: 0.14763, XGB
이번 대회를 Public 5위, 최종 5위로 마무리한 yhsu라고 합니다.
비슷한 대회가 Kaggle에서 열렸다는 것을 확인하고 해당 대회 코드들을
참고 했을 뿐인데, 이런 결과가 나와서 사실 당황스럽습니다.
대략 1달의 기간 동안 대회에 참여 하신 모든 분들 고생 많으셨습니다.
환경 : Google Colab
설명 : Kaggle의 'Spooky Author Identification' 대회 토론 창의 코드들을 참고 하여 피처 엔지니어링을 진행하였습니다.
https://github.com/AloneGu/kaggle_spooky/blob/master/base_xgb_nn_cv5_PL_27436.ipynb
tfidfvectorizer와 countervectorizer도 활용하였습니다.
Gradient Boosting Algorithm 중 정확도가 제일 높던 XGBoost로 최종 앙상블 하였습니다.
공유해주신 코드의
full_tfidf = tfidf_vec.fit_transform(train_df['text'].values.tolist() + test_df['text'].values.tolist())
부분에서 data leakage가 발생하는 것 같습니다
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
혹시 fit 할 때 test_df 포함하셨나요? 아니라면 빨리 수정하셔야 할 것 같습니다!