아이디어 공유

AI vs Human 텍스트 판별 해커톤 -월간 데이콘 쇼츠

아이디어 공유

EISLab_이희원

2023.10.29 00:56 3,428 Views

요새 좀 바빠서 참여는 못하지만 데이터셋 보고 떠올린 아이디어 공유합니당

데이터셋과 대회 목표를 보니, 사람이 쓴 리뷰를 구분하고 추론하는 것 같습니다.

그래서 사람이 쓴 리뷰와 사람이 쓰지 않은 리뷰를 먼저 이진 분류하여,

예측 확률을 통해 2개의 레이블을 고르는 방법을 사용하면 될 것 같습니다.

1.데이터 전처리

먼저 데이터를 위와 같이 binary로 변환합니다.

2.모델 학습

개인적으로 찾은 모델을 사용하여 Korean Text binary classification 모델을 학습하면 됩니다.

3.추론

추론 코드에서 데이터가 1(사람이 쓴 리뷰)인 확률을 도출합니다.

4.제출

id를 기준으로 그룹화 합니다.
for문을 사용해 각 그룹을 reset_index를 하고, 확률이 가장 높은 2개의 데이터의 레이블을 선택하고, 레이블에 +1을 합니다.
두 개의 레이블을 이어붙입니다.

위와 같은 과정을 사용하면 아마도 높은 mAP를 달성할 수 있을겁니다.

단순히 데이터셋과 대회 목표만을 보고 떠올린 아이디어라서 틀릴 수 있습니다.

5 Comments

comment

0 / 1000

이세의인공지능

2023.10.29 18:15

정확히 그 preprocess를 했습니다!
그 결과 0.5점대가 나왔습니다! ㅋㅋ

EISLab_이희원

2023.10.29 18:21

아...ㅋㅋㅋ
학습 데이터셋이 너무 적어서 그렇겠네요 ㅎㅎ

이세의인공지능

2023.10.29 18:25

ㅋㅋㅋㅋ 저도 그렇게 생각합니다 ㅋㅋㅋ
back-translation을 해보려 했는데, 인간이 작성한 글을 증폭시키고 싶은데 그 특징이 소실되는 것 같아서 하다 말았습니다 ㅋㅋㅋ....

yyinnovate

2023.10.30 12:06

아이디어 공유 감사드립니다! 아이디어가 대회 진행 간 많은 도움이 되었습니다:)

EISLab_이희원

2023.10.30 12:07

오 다행입니다!

📣 The comment input field has been moved to the top of the comment list!

List

아니 또 잃어버리시다니

Competition - AI vs Human 텍스트 판별 해커톤 -월간 데이콘 쇼츠

Current

아이디어 공유

Competition - AI vs Human 텍스트 판별 해커톤 -월간 데이콘 쇼츠

Likes 14

Comments 5

3년 전

수고하셨습니다

Competition - HD현대 AI Challenge