분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
AI vs Human 텍스트 판별 해커톤 -월간 데이콘 쇼츠
아이디어 공유
요새 좀 바빠서 참여는 못하지만 데이터셋 보고 떠올린 아이디어 공유합니당
데이터셋과 대회 목표를 보니, 사람이 쓴 리뷰를 구분하고 추론하는 것 같습니다.
그래서 사람이 쓴 리뷰와 사람이 쓰지 않은 리뷰를 먼저 이진 분류하여,
예측 확률을 통해 2개의 레이블을 고르는 방법을 사용하면 될 것 같습니다.
1.데이터 전처리
2.모델 학습
3.추론
4.제출
위와 같은 과정을 사용하면 아마도 높은 mAP를 달성할 수 있을겁니다.
단순히 데이터셋과 대회 목표만을 보고 떠올린 아이디어라서 틀릴 수 있습니다.
아...ㅋㅋㅋ
학습 데이터셋이 너무 적어서 그렇겠네요 ㅎㅎ
ㅋㅋㅋㅋ 저도 그렇게 생각합니다 ㅋㅋㅋ
back-translation을 해보려 했는데, 인간이 작성한 글을 증폭시키고 싶은데 그 특징이 소실되는 것 같아서 하다 말았습니다 ㅋㅋㅋ....
아이디어 공유 감사드립니다! 아이디어가 대회 진행 간 많은 도움이 되었습니다:)
오 다행입니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
정확히 그 preprocess를 했습니다!
그 결과 0.5점대가 나왔습니다! ㅋㅋ