AI vs Human 텍스트 판별 해커톤 -월간 데이콘 쇼츠

알고리즘 | 언어 | 분류 | 탐지

  • moneyIcon 상금 : 인증서
  • 252명 마감

 

[private 2nd]맞춤법 검사기 sudolabeling+Real-time update+koelectra

2023.10.30 12:20 833 조회 language

1. 맞춤법 검사기를 통해 인간이 더 자주 오류를 발생시키는 것을 확인.
2. 맞춤법 검사기를 통한 test psudolabeling
3. train+test 결합데이터를 통한 Real-time update workflow 구축
4. koelectra를 사용한 맞춤법 외 오류 예측 안정화

최근 실시간 서비스를 만드는 작업들을 하면서 train에서 얻은 특징을 바탕으로 들어오는 test값들에 라벨링하고, train에 합쳐 업데이트하는 구조들을 만들고 있습니다.
대회에선 test 데이터를 건드리기만 해도 data leakage라는 느낌이 강하지만, 실제 업무에서는 온라인 업데이팅을 하는 유지보수가 굉장히 중요하게 여겨지는 것 같습니다.

맞춤법 검사기만 사용해도 거의 모든 예측이 맞았지만,
실제 상황에서도 사용될 수 있는 업데이팅 플로우이기 때문에 
데이콘 대회에서도 실제 업무에 사용될 수 있는 실용적인 구조의 접근 방법도 시도해보고자 했습니다.

이번에도 정말 재밌었습니다. 
늘 좋은 대회 감사합니다!
모두들 건강하세요!

코드
로그인이 필요합니다
0 / 1000
Data_bari
2023.10.30 13:22

역시 훌륭하십니다