AI vs Human 텍스트 판별 해커톤 -월간 데이콘 쇼츠

아이디어 공유

2023.10.29 00:56 1,090 Views

요새 좀 바빠서 참여는 못하지만 데이터셋 보고 떠올린 아이디어 공유합니당


데이터셋과 대회 목표를 보니, 사람이 쓴 리뷰를 구분하고 추론하는 것 같습니다.


그래서 사람이 쓴 리뷰와 사람이 쓰지 않은 리뷰를 먼저 이진 분류하여,

예측 확률을 통해 2개의 레이블을 고르는 방법을 사용하면 될 것 같습니다.


1.데이터 전처리

  • 먼저 데이터를 위와 같이 binary로 변환합니다.


2.모델 학습

  • 개인적으로 찾은 모델을 사용하여 Korean Text binary classification 모델을 학습하면 됩니다.


3.추론

  • 추론 코드에서 데이터가 1(사람이 쓴 리뷰)인 확률을 도출합니다.


4.제출

  • id를 기준으로 그룹화 합니다.
  • for문을 사용해 각 그룹을 reset_index를 하고, 확률이 가장 높은 2개의 데이터의 레이블을 선택하고, 레이블에 +1을 합니다.
  • 두 개의 레이블을 이어붙입니다.


위와 같은 과정을 사용하면 아마도 높은 mAP를 달성할 수 있을겁니다.



단순히 데이터셋과 대회 목표만을 보고 떠올린 아이디어라서 틀릴 수 있습니다.

로그인이 필요합니다
0 / 1000
이세의인공지능
2023.10.29 18:15

정확히 그 preprocess를 했습니다!
그 결과 0.5점대가 나왔습니다! ㅋㅋ

EISLab_이희원
2023.10.29 18:21

아...ㅋㅋㅋ
학습 데이터셋이 너무 적어서 그렇겠네요 ㅎㅎ

이세의인공지능
2023.10.29 18:25

ㅋㅋㅋㅋ 저도 그렇게 생각합니다 ㅋㅋㅋ
back-translation을 해보려 했는데, 인간이 작성한 글을 증폭시키고 싶은데 그 특징이 소실되는 것 같아서 하다 말았습니다 ㅋㅋㅋ....

yyinnovate
2023.10.30 12:06

아이디어 공유 감사드립니다! 아이디어가 대회 진행 간 많은 도움이 되었습니다:)

EISLab_이희원
2023.10.30 12:07

오 다행입니다!