월간 데이콘 법원 판결 예측 AI 경진대회

알고리즘 | 언어 | 분류 | Accuracy

  • moneyIcon Prize : 인증서
  • 1,105명 마감

 

[Private 2위] Spacy + DebertaV3

공동작성자

stroke
2023.07.09 23:59 2,006 Views language

 안녕하세요. 국민대민쑤입니다. NLP쪽 분야의 대회가 열려서 참가를 해보았습니다. 이번 공모전을 하면서 논문도 많이 읽고 공부도 많이 되었던 공모전이여서 뜻 깊었던 것 같습니다.

 NLP쪽 같은 경우는 ML 모델들 보다 DL 모델들이 더 좋다고 생각하고 있어서 ML모델들은 처음부터 제외했고 최근 트렌드인 Transformer 기반인 Bert, XLNet, Roberta, Deberta 등등을 시험해 봤고 가장 최근 모델이고 SOTA인 Deberta에서 DebertaV3 버전을 사용했습니다.

 [PipeLine]

증강 전 전처리
- Will 이름을 가진 사람들 Willn으로 변경(변경을 안하면 불용어처리에서 지워짐)
- United States 계열 이름들을 전부 USA로 통일
- N.L.S 등과 같은 이름들을 NLS 처럼 가운데 "." 제거
- 대문자 & 대문자인 패턴을 & 제거하고 병합
- A., S. 과 같이 한글자 대문자들 제거
- Co., Bd., Mt.  약어들을 Company, Building, Mount로 변경
- INC와 같이 필요없는 회사명들 제거

데이터 증강
Spacy 언어 모델을 이용해서 명사구를 추출하고 뽑은 명사구를 제외하고 SynonymAug모델을 활영해서 동의어 데이터 증강을 진행
증강 같은 경우는 논문에서 8번 증강 할때 가장 좋다고하여 4번씩 추가로 증강을 해주었습니다.
증강 후 전처리
- et al. 제거
- 영어 호칭 제거

 Word_tokenize를 사용하여 토큰화 시킨후 불용어 처리, Lemmer를 사용해서 Normalization, 한글자 추가 제거 해줬습니다.
그 다음 데이터 불균형을 잡기 위해 기존 데이터에 first, second, label을 바꿔서 두배 증강을 진행시켰습니다.

 모델링 같은 경우는 K-fold를 사용하여 교차검증하였고 현존 SOTA 모델인 DebertaV3를 사용하였습니다.

 이번 대회 같은 경우는 마지막에 제출에서 체크를 잘못해서.. 아쉽게 됬지만 뜻 깊은 대회 였습니다.

Code
로그인이 필요합니다
0 / 1000
국민대민쑤
2023.07.10 00:07

추가로 재현을 편하게 해보고 싶은 분들을 위해 모델들과 Csv 파일들을 올려놨습니다.
http://naver.me/51nzOfd5

겔겔
2023.07.16 23:31

정규표현식 많이 배워갑니다. 감사합니다!

국민대민쑤
2023.07.18 23:18

감사합니다!