난독화된 한글 리뷰 복원 및 생성 AI 경진대회

알고리즘 | 월간 데이콘 | NLP | 생성형 AI | LLM | F1 Score

상금 : 데이스쿨 프로 구독권
742명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

private 5th 0.96802) gemma-2b + 9b + Rule postprocessing

다냐니라

2025.03.03 19:22 1,301 조회 language

다들 수고 많으셨습니다.
LLM 관련해서 공부하고자 참여했는데 아주 재밌는 대회였습니다.
코드 공유해주신 분들을 보고 다르게 접근 할 수도 있었구나.. 생각했습니다. 많이 배웠습니다.

간략하게 전략을 소개해보자면,
1. gemma 2b / 9b 학습
2. 데이터 증강 -> ( 학습에서는 사용 x )
3. train 데이터 전처리
4. LLM + train 전처리 데이터 이용한 후처리
식으로 진행하였습니다.

이번 대회는 문장의 글자 수와 위치가 상당히 score에 영향을 많이 미쳤습니다. 즉, 띄어쓰기 기준으로 정확한 글자수를 유지해야 하는게 키였던것 같습니다.
Gemma 2b/9b는 글자, 띄어쓰기를 추가하여 0.91(gemma-9b) 점수를 달성하는 모습을 보였습니다.

문장의 길이를 맞추기위해, 띄어쓰기 기준으로 gemma가 생성한 어절의 글자수가 다르면, 주어진 문장의 어절을 대신 사용하는 것으로 문장의 띄어쓰기, 길이를 유지하였습니다. 대신 사용하게 된 어절은 train의 데이터를 이용하여 전처리를 통해 보다 해독된 어절을 사용할 수 있도록 유도했습니다.

학습, 데이터 생성, 전처리, 후처리 파일이 나눠져있어 구글 드라이브로 업로드 후 공유하겠습니다.
code) https://drive.google.com/drive/folders/1E8RmNeUmjgX6nuek4qKwwh_ndhVMLatc?usp=sharing