월간 데이콘 소설 작가 분류 AI 경진대회

알고리즘 | NLP | 분류 | 자연어 | LogLoss

  • moneyIcon 상금 : 100만원+애플워치
  • 1,418명 마감

 

Public 11위 : 0.16913 , Private 8, XGBOOST

2020.12.07 14:11 5,652 조회 language


이번 대회를 public 11th , private 8th 로 마무리 한 MSE 팀 입니다.
NLP 를 다루는 것은 처음이었는데, 주변에서 많은 도움을 받고, 열심히 검색해서 좋은 결과를 얻은 것 같습니다. 
초보자 이지만, ML, data analysis 에 대해서 한발자국 가까이 갈 수 있는 기회였다고 생각합니다. 
다들 한달 동안 고생 많으셨습니다. 

설명 : 
1. feature engineering 
2. Stack feature 생성 
3. XGBOOST 
참고 URL : 
  https://www.kaggle.com/c/spooky-author-identification
  https://statkclee.github.io/model/model-python-xgboost-hyper.html
  https://bi.snu.ac.kr/Publications/Conferences/Domestic/KIISE2015W_JoHY.pdf
  https://injo.tistory.com/44
  https://wikidocs.net/33661
  https://wikidocs.net/33664
  https://its-blog.tistory.com/45
(참고 URL 에서는 wikidocs 를 통해서 많은 것을 배우게 되었었습니다. )
아쉬운 점 : 
GridSearch, RandomSearch 를 사용해보고 싶었었지만, 실행시 컴퓨터 재부팅이 계속 되는 문제점이 생겨서 제대로 사용을 못했습니다. 
신경망 모델을 만들면서, 구조를 수정하여 양방향 LSTM 과 Attention 을 넣어 성능을 올리거나 직접 transformer 의 구조를 구현해보고 싶었지만, 다른 웹 개발 프로젝트 때문에 시간을 거의 쏟지 못해제일 간단한 신경망 구조를 이용하거나, 다른 Dacon, Kaggle 대회들의 코드를 참고 하였습니다. 

코드
로그인이 필요합니다
0 / 1000
선호
2020.12.08 03:46

에러는 모두 커널에 인터럽트를 준 것이며 문제 없습니다.
제출하는 코드를 정리하는 과정에 다른 코드와 섞이는 바람에 급하게 다시 작성하여 제출하느라 진행과정은 다소 생략하였습니다.