월간 데이콘 소설 작가 분류 AI 경진대회

알고리즘 | NLP | 분류 | 자연어 | LogLoss

  • moneyIcon 상금 : 100만원+애플워치
  • 1,351명 마감

 

[Private 3rd Solution/Public:0.14489] XGBoost

2020.12.07 18:12 6,633 조회 language

한달 동안 다들 고생하셨습니다.
처음 Dacon 참가인데 좋은 성적을 얻을 수 있어서 굉장히 기쁩니다. 
이번 기회를 통해 nlp 관련하여 많은 공부를 할 수 있었습니다. 
사실 loss를 줄여 나가기 위해 여러 모델을 앙상블 하느라 코드가 조금 난잡하긴 하지만 공유 해보겠습니다..!

Kaggle, morningstar 님의 코드 공유를 참고하면서 loss를 줄여나간 것 같습니다.

1. https://www.kaggle.com/sudalairajkumar/simple-feature-engg-notebook-spooky-author (Meta 피쳐 , Naive Bayes 피쳐)

2. https://www.kaggle.com/omiser/names-bigrams-sentiment-and-other-features (Named Entity 피쳐)

3. https://dacon.io/competitions/official/235670/codeshare/1840?page=1&dtype=recent&ptype=pub (FastText 피쳐)


사용한 XGBoost Feature 는 다음과 같습니다. 

-  Meta Feature ( 문장 길이, Stop words 갯수, ... ,  Named Entitiy )
- FastText Embedding
-  Naive Bayes
-  Logistic Regression
-  SGDClassifier
- RandomForestClassifier
- MLPClassifier
- DecisionTreeClassifier


코드
로그인이 필요합니다
0 / 1000
Mather
2021.04.04 07:37

축하드립니다.