분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 6th] text-hammer, 단순 Augmentation, Voting Ensemble
원래는 기존에 올렸던 글처럼(https://dacon.io/competitions/official/236112/codeshare/8449?page=1&dtype=recent) 딥러닝 모델을 이용하고 싶었으나,
생각보다 score가 안나와서 머신러닝 모델로 선회했습니다.
그런데 Private 보니까 오히려 Public때 안좋았던 결과가 더 좋게 나와서, 딥러닝 모델도 제출할걸 그랬나 싶습니다.
nltk의 sent_tokenizer를 이용, facts에서 문장이 3개 이상인 판결들만 학습했습니다.
(이러고 보니까 초반에 'Not available'같은 데이터를 지울 필요가 있었나 싶긴 하네요.)
그리고 fact가 같아도 first_party, second_party 위치를 바꿨을 때 first_party winner도 바뀌어야 한다는 생각에,
해당 값들을 반전시킨 데이터와 원래 데이터를 합쳐 학습데이터를 생성했습니다.
그 다음 text-hammer 라이브러리를 이용해 first_party, second_party, facts 모두 전처리했습니다.
벡터화는 Baseline의 TfidfVectorizer에서 Stopwords설정 및 ngram_range=(1,3), min_df=3으로 설정하여 진행했습니다.
여러가지를 바꿔서 제출했는데 이렇게 하는게 Public Score가 좋게 나와서 진행했습니다.
그리고 validation은 안했습니다. 안하는게 저의 경우는 오히려 더 좋게 나와서...
마지막으로 사이킷런 모델과 xgb, lgbm, catboost를 이용해서 Voting Ensemble한 모델을 이용해서 학습 후 예측했습니다.
뭔가 점수 상으로는 굉장히 아쉽긴 한데, 재밌게 진행했던 대회였던 것 같습니다.
날도 더워지는데 다들 건강관리 잘하시고 다른 대회도 좋은 결과 얻으시기 바랍니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved