월간 데이콘 소설 작가 분류 AI 경진대회

알고리즘 | NLP | 분류 | 자연어 | LogLoss

  • moneyIcon Prize : 100만원+애플워치
  • 1,418명 마감

 

[Private 6th Solution/Public:0.15233] 소설 작가 분류 솔루션

2020.12.05 14:55 8,288 Views language

안녕하세요 마감 1주일 전까진 1등이였는데 능력자 분들이 많으셔 6위로 마무리합니다.

군인 신분으로서 싸지방에서 제한된 이용시간으로는 한계지 싶네요 (얼른 탈출해 즐코딩하고싶습니다)

환경: GCP c2-instance

설명:

텍스트 분류에 높은 정확도를 보이는 Naive bayes 모델들과 추가 모델들을 활용하였고

Sent2vec, 문장 부호 추출 등을 통한 전처리와 특징 추출

그리고 tfidfvectorizer와 countervectorizer을 활용해 벡터화시켜 모델링, 결과값을 특징으로 추출해

XGBoost로 앙상블하였습니다.

Ltsm같은 답러닝 기반 모델보다 위에서 설명한 것과 같은 GRADIENT-BOOSTED DECISION TREE 모델이 정확도가 높아 최종적으로 고르게 되었습니다 

***
런타임 워닝 true_divide  proba /= np.sum(proba, axis=1)[:, np.newaxis]

즉 0으로 나누어서 생기는 오류입니다.

probability를 계산하는데 있어 아주 드물게 0이란 결과가 나와 오류가 나는 것 같습니다

np.seterr(divide='ignore', invalid='ignore) 을 사용하여 런타임 에러를 숨기거나

numpy.nan_to_num을 사용하여 0이 아닌 0의 근사값을 사용해 나누게하면 될 것 같습니다.

Code
로그인이 필요합니다
0 / 1000
프리만
2020.12.05 17:22

와우~b

Jay 윤
2020.12.06 14:33

bb 갑사합니다

당쇠
2020.12.05 22:58

국방의 의무와 같이 병행하시느라 수고하셨어요~

Jay 윤
2020.12.06 14:34

앞으로도 재밌는 대회 기대하고있겠습니다 😄 

Yellow_duck
2020.12.06 01:16

좋은 글 감사드립니다:D

Jay 윤
2020.12.06 14:35

😊😊

토도
2020.12.06 10:56

좋은결과 축하드리며 많은 도움이 되었기에 감사드립니다..!!

Jay 윤
2020.12.06 14:35

그렇게 말씀해주셔서 감사합니다 :) 많은 도움 되셨길 바래요

둘뤼
2020.12.06 12:27

축하드립니다~

Jay 윤
2020.12.06 14:36

감사합니다 :)

하이하이123
2020.12.06 18:47

대단하십니다.. 부대 내에 서 쉽지 않았을텐데요 !! 

Jay 윤
2020.12.07 17:37

감사합니다! GCP가 되서 그나마 다행이였습니다 :)

최정명
2020.12.07 16:47

코드공유 감사합니다. 축하드립니다. !!! 

Jay 윤
2020.12.07 17:37

많은 도움 되셨길 바래요 감사합니다 😊

최정명
2020.12.07 20:55

헉 근데 한 줄씩 보다 보니까 full_tfidf와 svd_obj를 만드는 과정에서 data leakage가 있네요 !ㅠㅠ 

zhchqh
2020.12.08 19:48

아쉽네요 ㅠㅠ