AI vs Human 텍스트 판별 해커톤 -월간 데이콘 쇼츠

알고리즘 | 언어 | 분류 | 탐지

상금 : 인증서
252명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[Private 4위] KoGPT-2 Binary Classification

쒸프트키

2023.10.30 15:29 842 조회 language

베이스라인의 'skt/kogpt2-base-v2' 모델을 그대로 사용했고 데이터를 이진분류 문제로 바꿔서 모델을 학습시켰습니다.
'skt/kobert-base-v1' 과 비교해서 학습했는데 gpt2가 성능이 더 좋게 나와서 kogpt2를 선택했습니다.
인간과 가짜 데이터 비율이 1:3 이기 때문에 가짜 데이터는 3개의 문장 중 하나를 랜덤하게 고르도록 했습니다.
학습 후 테스트 데이터에서 인간(1)일 경우의 score가 가장 높은 2 문장의 label을 저장하게 했습니다.
별도의 텍스트 전처리는 하지 않았습니다.

모두 고생 많으셨습니다.

요약
1. 가짜 데이터와 인간 데이터를 0과 1로 구분
2. 가짜 데이터와 인간 데이터의 비율을 1대1로 맞춤
3. 학습 후 Best Score 2개의 문장 label 저장

코드