난독화된 한글 리뷰 복원 AI 경진대회

알고리즘 | 월간 데이콘 | NLP | 생성형 AI | LLM | F1 Score

  • moneyIcon 상금 : 데이스쿨 프로 구독권
  • 2025.01.06 ~ 2025.02.28 09:59 + Google Calendar
  • 719명 마감

 

LLM 없이 0.9363

2025.03.25 13:53 634 조회 language

LLM 없이 시도 한 이유
1.대회는 문자 단위 F1이라서, 뜻이 맞아도 단어 길이가 다르면 점수가 떨어짐. LLM은 쉽게 읽히게 도와준답시고 변형을 많이 하기도 함.
2.파인튜닝을 하기엔 나는 충분한 GPU가 없음. 코랩만으론 쉽지 않음......
3.대회 데이터가, 진짜 난독화된 리뷰라기보단, 특정 규칙을 가지고 자모를 일정 확률로 바꾼 것 같았음. 그래서 확률 기반으로 먼저 되돌릴 수 있지 않을까 생각함.

접근방식
1.그냥 자모 변형만 보면 될 줄 알았는데, 가만 보니까 한글이라서 삽입,교체,탈락이 초성,중성,종성 단위로 일어남.
2.자모(초성,중성,종성)단위로 분해하고, 그 변화 확률을 레벤슈타인 기반으로 기록(그냥 이게 제일 정보를 제대로 기록할 것 같았음)
3.만들어진 레벤슈타인 컨퓨전 행렬을 역으로 해서 test 데이터를 해독 -> 아마 0.85점 정도 받았던 걸로 기억.
4.자모 하나가 아니라, 옆 자모까지 bigram으로 더 넓게 살펴보고 반영하도록 수정 -> topk와 beam search를 조절해서 하이퍼파라미터 튜닝 -> 0.93점

만들어 놓은 난독화 확률로 학습데이터를 증강해서 또 학습에 사용해봤는데, 미세한 성능 향상이 있었으나 의미는 적었음.
만약에 외부 일반 리뷰 데이터를 가져와서 난독화 시켜서 학습데이터를 늘렸다면 성능 향상이 더 있었을 것 같음.
물론, 확률로 변형되다보니 역으로 변환할 때 명확한 한계가 있음. 아마도 충분히 읽을 수 있는 글이 되긴 하겠지만, 완벽한 글이 될 순 없음.
그리고, 진짜 난독화 리뷰라기보단, 특정 방식에서만 잘 작동하는 난독화 리뷰 해석 방식이라 범용성이 적음.

코드
이전 글
이전 글이 존재하지 않습니다.
현재 글
LLM 없이 0.9363
대회 - 난독화된 한글 리뷰 복원 AI 경진대회
좋아요 8
조회 634
댓글 0
2달 전
다음 글
[PRIVATE 8위] 데이터증강 + Unsloth + LLaMA 3.2 3b
대회 - 난독화된 한글 리뷰 복원 AI 경진대회
좋아요 17
조회 950
댓글 3
3달 전