월간 데이콘 소설 작가 분류 AI 경진대회

알고리즘 | NLP | 분류 | 자연어 | LogLoss

  • moneyIcon Prize : 100만원+애플워치
  • 1,418명 마감

 

Private: 5위, Public: 0.14763, XGB

2020.12.07 08:42 5,514 Views language

이번 대회를 Public 5위, 최종 5위로 마무리한 yhsu라고 합니다. 

비슷한 대회가 Kaggle에서 열렸다는 것을 확인하고 해당 대회 코드들을 

참고 했을 뿐인데, 이런 결과가 나와서 사실 당황스럽습니다.

대략 1달의 기간 동안 대회에 참여 하신 모든 분들 고생 많으셨습니다.


환경 : Google Colab

설명 : Kaggle의 'Spooky Author Identification' 대회 토론 창의 코드들을 참고 하여 피처 엔지니어링을 진행하였습니다. 

https://github.com/AloneGu/kaggle_spooky/blob/master/base_xgb_nn_cv5_PL_27436.ipynb 

tfidfvectorizer와 countervectorizer도 활용하였습니다.

Gradient Boosting Algorithm 중 정확도가 제일 높던 XGBoost로 최종 앙상블 하였습니다.

Code
로그인이 필요합니다
0 / 1000
hahaha
2020.12.07 20:35

혹시 fit 할 때 test_df 포함하셨나요? 아니라면 빨리 수정하셔야 할 것 같습니다!

Toona
2020.12.10 10:17

공유해주신 코드의
full_tfidf = tfidf_vec.fit_transform(train_df['text'].values.tolist() + test_df['text'].values.tolist())
부분에서 data leakage가 발생하는 것 같습니다