난독화된 한글 리뷰 복원 및 생성 AI 경진대회

알고리즘 | 월간 데이콘 | NLP | 생성형 AI | LLM | F1 Score

  • moneyIcon 상금 : 데이스쿨 프로 구독권
  • 2025.01.06 ~ 2025.02.28 09:59 + Google Calendar
  • 728명 마감

 

[PRIVATE 7위] Gemma-2-9B + 2-stage Inference

공동작성자
2025.02.28 13:05 742 조회 language

## 환경 : Runpod A100 PCIe, A6000

## 베이스라인 모델 : rtzr/ko-gemma-2-9b-it
- 멀티턴 형태로 입력을 구성하여 기존 학습 데이터에 존재하는 난독화된 리뷰와 복원된 리뷰 5개 쌍을 보여주고, 난독화된 리뷰가 주어졌을 때 복원된 리뷰를 잘 맞추도록 학습했으며, 이때 모든 부분에 대해서 loss를 계산하도록 했습니다.
- 실험 결과, 동일한 셋팅에서 시드만 바꿈에 따라 모델이 복원하는 리뷰의 특성이 달랐습니다. 따라서 2가지 모델을 활용하여 2-stage(전체 복원 + 문장 단위 복원)로 복원을 진행하였습니다.
- 모델 1 : ojoo/ko-gemma-2-9b-it-deobfuscation
- 모델 2 : whybe-choi/ko-gemma-2-9b-it-sft-dacon

## 전략
- 본 대회의 특성상, 난독화된 리뷰에 대응되는 각 부분의 글자와 띄어쓰기가 일치해야 하는 것이 중요했습니다. 다만 저희 모델의 경우에는 글자 수가 일치하지 않아 전체 리뷰가 밀리는 현상이 발생하였습니다. 그래서 다음과 같은 순서로 이러한 문제를 해결하고자 했습니다.
  1. 전체 리뷰를 모델 1을 통해 한꺼번에 복원 후, 후처리
  2. 후처리된 복원된 리뷰를 바탕으로 이를 문장 단위로 분할하고, 이에 대응되는 부분을 테스트 데이터에서 추출하여 문장이라고 가정.
  3. 문장 단위로 추출된 테스트 데이터를 모델 2를 통해 복원 
  4. 문장 단위로 복원된 내용을 다시 기존 리뷰의 형태로 통합

## +@
여러 스크립트와 노트북을 혼용하여 하나의 노트북으로 모든 과정을 담기에 한계가 존재합니다.
⚙️ Pipeline 부분 이후의 과정으로 스크립트 형태로 학습과 추론을 진행하였고, 후처리만 노트북 파일로 진행하였기 때문에 아래의 깃허브를 참고해주시기 바랍니다.
 https://github.com/whybe-choi/dacon-korean-review-deobfuscation

PDF
코드