월간 데이콘 법원 판결 예측 AI 경진대회

알고리즘 | 언어 | 분류 | Accuracy

 

[Private 6th] text-hammer, 단순 Augmentation, Voting Ensemble

공동작성자
2023.07.03 11:49 1,967 Views language

원래는 기존에 올렸던 글처럼(https://dacon.io/competitions/official/236112/codeshare/8449?page=1&dtype=recent) 딥러닝 모델을 이용하고 싶었으나,
생각보다 score가 안나와서 머신러닝 모델로 선회했습니다.
그런데 Private 보니까 오히려 Public때 안좋았던 결과가 더 좋게 나와서, 딥러닝 모델도 제출할걸 그랬나 싶습니다.

nltk의 sent_tokenizer를 이용, facts에서 문장이 3개 이상인 판결들만 학습했습니다.
(이러고 보니까 초반에 'Not available'같은 데이터를 지울 필요가 있었나 싶긴 하네요.)

그리고 fact가 같아도 first_party, second_party 위치를 바꿨을 때 first_party winner도 바뀌어야 한다는 생각에,
해당 값들을 반전시킨 데이터와 원래 데이터를 합쳐 학습데이터를 생성했습니다.

그 다음 text-hammer 라이브러리를 이용해 first_party, second_party, facts 모두 전처리했습니다.

벡터화는 Baseline의 TfidfVectorizer에서 Stopwords설정 및 ngram_range=(1,3), min_df=3으로 설정하여 진행했습니다.
여러가지를 바꿔서 제출했는데 이렇게 하는게 Public Score가 좋게 나와서 진행했습니다.
그리고 validation은 안했습니다. 안하는게 저의 경우는 오히려 더 좋게 나와서...

마지막으로 사이킷런 모델과 xgb, lgbm, catboost를 이용해서 Voting Ensemble한 모델을 이용해서 학습 후 예측했습니다.

뭔가 점수 상으로는 굉장히 아쉽긴 한데, 재밌게 진행했던 대회였던 것 같습니다.
날도 더워지는데 다들 건강관리 잘하시고 다른 대회도 좋은 결과 얻으시기 바랍니다.

Code