월간 데이콘 법원 판결 예측 AI 경진대회

알고리즘 | 언어 | 분류 | Accuracy

  • moneyIcon Prize : 인증서
  • 1,105명 마감

 

[Private 1위] Model Ensembling (BERT variants + LLM)

2023.07.09 17:35 2,407 Views language

이번 대회는 저에게 있어 언어 모델 관련 대회 첫 참가였고 약 840명과 함께해서 좋은 경험이었습니다. 흥미로운 대회를 주최해 주신 DACON 분들에게도 감사합니다. 충분한 ablation study 결과를 제공하고 싶었지만, 개인적인 여건상 결과 재구현에 초점을 둔 점 양해 부탁드립니다. 문의 사항은 편하게 남겨주시면 빠른 시일 내에 답변드리도록 하겠습니다.

[요약]
- 텍스트 분류 모델과 언어 모델 결과를 종합하여 Private 0.57258 달성.
- 클래스 불균형 문제를 완화하기 위해 first party와 second party의 순서를 바꿔 모델이 사건과 당사자 간의 관계를 학습할 수 있도록 설계.
- 텍스트 분류를 위해 BERT의 다양한 후속 모델들을 결합했고, pretrained weights는 모두 고정한 뒤 residual connection 고려한 multilayer perceptron만 학습.
- 언어 모델 활용 시 LoRA와 같은 fine-tuning 기법을 사용하지 않고, 학습 데이터 안 유사한 10가지 판결 결과를 참조하여 few-shot learning 후 예측할 수 있도록 설계.
- 모델 예측 결과의 불확실성을 측정하여 uncertain predictions에 대한 가중치 반영.

Code
로그인이 필요합니다
0 / 1000
Data_bari
2023.07.09 17:55

하드웨어 스펙이 부럽… 고생하셨습니다!

shjo.april
2023.07.09 19:09

하드웨어 정말 중요하죠. 수고하셨습니다 :)

소가리
2023.07.11 18:14

잘 봤습니다!
Lora 파인튜닝을 안 하신 이유는 무엇인가요??

shjo.april
2023.07.12 12:56

학습 데이터에 대한 overfitting이 심할 것 같아 LoRA 대신 유사한 판결문을 주고 예측하는 few-shot learning 접근 방법을 활용했습니다. :)

슈퍼패스맨
2023.07.16 19:49

안녕하세요 선생님!

선생님께서 공유해주신 코드 내역을 보고 열심히 공부중입니다 ㅎㅎ 
좋은 자료 공유해 주셔서 진심으로 감사합니다!

다름이아니라, target imbalanced 문제 해결을 위해 선생님께서 사용하셨던 아래 방법이 너무 궁금해서요.

" 클래스 불균형 문제를 완화하기 위해 first party와 second party의 순서를 바꿔 모델이 사건과 당사자 간의 관계를 학습할 수 있도록 설계. "

text data 불균형 문제 해결을 위해서 사용되는 흔히 사용되는 방법들은 아래의 것들로 알고 있는데요.

1) EDA 기법,
2) Back translation
3) over/under sampling

어떠한 아이디어에서 first party와 second party를 단순 swap 하여, 문제 해결을 하시고자 했는지 너무 궁금합니다 ㅠㅠ
관련된 선행 자료를 찾아 볼 수 없어.. 실례를 무릅스고 메시지 남기게 되었습니다.

저의 무지한 관점에선, facts는 고정이기에 혹여나 과적합과 같은 문제가 발생하진 않을까 싶었습니다만...
접근 방법 자체가 전혀 생각지도 못했던 것이라 신기합니다.

어떠한 아이디어로 위와 같이 접근하시게 되신 것인가요?
혹은 참고할 만한 선행 연구자료를 얻을 수 있을까요?

좋은 자료 공유해 주셔서 다시 한 번 감사합니다.
좋은 하루 되세요!

shjo.april
2023.07.16 23:40

안녕하세요, 슈퍼패스맨님!

말씀해주신 것처럼 불균형 문제는 대표적인 방법들로 접근할 수 있지만, 사용하지 않은 이유는 아래와 같습니다.
1. EDA & Back translation: 법원 판결 내용 자체가 일반 문서 데이터보다 난이도가 높아 어색한 변환 결과를 보았기 때문에 텍스트 수정 없이 원본 정보를 유지하였습니다.
2. Over/under sampling: 초기 접근 방법은 first pary+second party+facts를 하나의 텍스트로 연결한 뒤 first party 승리 여부를 예측했었습니다. 하지만, 모델은 first party와 second party의 정보를 전혀 이용하지 않고 facts 내용 기반 승패를 예측하는 과적합 현상을 관측했었습니다.

따라서, 사건과 대상자가 직접적으로 연결될 수 있는 모델 구조로 새롭게 설계했고, 이전에 알고 있던 vision 지식들을 적절하게 활용한 경우라 선행 자료로 보기 어렵지만 cosine distance 기반 classification 구조를 직관적으로 이해하실 수 있을 것 같아 논문 (arxiv.org/abs/1904.04232) 한 편 추천드립니다.사건과 대상자만 1:1로 연결한 구조 덕분에 모델이 사건과 대상자 관계를 기반으로 예측했었고, first party와 second party의 위치를 섞는 새로운 augmentation 전략도 시도해볼 수 있었습니다.

궁금하신 부분은 편하게 남겨주시면 답변드리겠습니다.
향후 비슷한 주제들에 대하여 많은 도움이 되길 응원합니다. :)

슈퍼패스맨
2023.07.17 08:10

안녕하세요, 

귀찮으실 수 있는 질문이었는데 친절히 답변해 주셔서 정말 감사합니다.

큰 도움이 되었습니다! 이번주도 화이팅 입니다!