분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 6th Solution/Public:0.15233] 소설 작가 분류 솔루션
안녕하세요 마감 1주일 전까진 1등이였는데 능력자 분들이 많으셔 6위로 마무리합니다.
군인 신분으로서 싸지방에서 제한된 이용시간으로는 한계지 싶네요 (얼른 탈출해 즐코딩하고싶습니다)
환경: GCP c2-instance
설명:
텍스트 분류에 높은 정확도를 보이는 Naive bayes 모델들과 추가 모델들을 활용하였고
Sent2vec, 문장 부호 추출 등을 통한 전처리와 특징 추출
그리고 tfidfvectorizer와 countervectorizer을 활용해 벡터화시켜 모델링, 결과값을 특징으로 추출해
XGBoost로 앙상블하였습니다.
Ltsm같은 답러닝 기반 모델보다 위에서 설명한 것과 같은 GRADIENT-BOOSTED DECISION TREE 모델이 정확도가 높아 최종적으로 고르게 되었습니다
***
런타임 워닝 true_divide proba /= np.sum(proba, axis=1)[:, np.newaxis]
즉 0으로 나누어서 생기는 오류입니다.
probability를 계산하는데 있어 아주 드물게 0이란 결과가 나와 오류가 나는 것 같습니다
np.seterr(divide='ignore', invalid='ignore) 을 사용하여 런타임 에러를 숨기거나
numpy.nan_to_num을 사용하여 0이 아닌 0의 근사값을 사용해 나누게하면 될 것 같습니다.
bb 갑사합니다
국방의 의무와 같이 병행하시느라 수고하셨어요~
앞으로도 재밌는 대회 기대하고있겠습니다 😄
좋은 글 감사드립니다:D
😊😊
좋은결과 축하드리며 많은 도움이 되었기에 감사드립니다..!!
그렇게 말씀해주셔서 감사합니다 :) 많은 도움 되셨길 바래요
축하드립니다~
감사합니다 :)
대단하십니다.. 부대 내에 서 쉽지 않았을텐데요 !!
감사합니다! GCP가 되서 그나마 다행이였습니다 :)
코드공유 감사합니다. 축하드립니다. !!!
많은 도움 되셨길 바래요 감사합니다 😊
헉 근데 한 줄씩 보다 보니까 full_tfidf와 svd_obj를 만드는 과정에서 data leakage가 있네요 !ㅠㅠ
아쉽네요 ㅠㅠ
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
와우~b