월간 데이콘 한국어 문장 관계 분류 경진대회

대회 관련 정보 몇 가지 간단 정리

2022.02.06 14:20 4,780 조회

본 포스팅은 데이콘 서포터즈 "데이크루" 1기 활동의 일환입니다.  

대회가 시작된 지 얼마 안 되기도 했고 제가 직접 적용해볼 시간이 없을 것 같아 정보들을 찾아 공유합니다. 데이콘에서 이전에 열렸던 다양한 대회를 살펴보았는데 직접적으로 관련된 대회는 하나가 있어 해당 대회에서 좋은 성능을 기록한 방법들 가져왔습니다. 이외에도 NLI(Natural Language Inference)라는 키워드로 검색하시면 비슷한 내용들 나올 것 같습니다.

 

뉴스 토픽 분류 AI 경진대회 (21.06 ~21.08)

Kerry님의 ‘최종 3th : [Private 5위 - 0.83705 / Back Translation]’

국문에서 영문으로 변경하고 영문을 다시 국문으로 변경하는 형태의 데이터 증대 방법을 적용하신 것 같은데 자연어를 멀리서 쳐다보기만 하는 입장으로 신기했습니다. 지금 진행하는 대회에도 적용할 수 있는 증대 방법 같습니다. 점수가 궁금하네요!

 

DippinDeep팀의 ‘[private 10위/ public 9위] DippinDeep팀’

Kerry님과 같은 방식의 증대 방법을 채택한 것 같은데 학습을 진행하는 부분에 있어 한 모델은 증대한 데이터를 다른 모델 하나는 기본 데이터를 사용해 모델을 학습시켰습니다. 그리고 두 모델을 5-fold 앙상블을 진행해 차이가 있는 것 같아 정리합니다.

 

두 코드 공유 모두 설명이 잘 되어 있고 적용하기 좋을 것 같습니다. 이외에도 다양한 코드 공유가 올라와 있으니 참고하시면 좋을 것 같습니다.

뉴스 토픽 분류 AI 경진대회



공개 데이터

KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language Understanding

Dataset Github : https://github.com/kakaobrain/KorNLUDatasets

논문 주소 : https://arxiv.org/abs/2004.03289

같은 방식의 데이터인 만큼 test Data와 겹치는 데이터가 없다면 충분히 활용할 수 있을 것 같습니다. 물론 사용한다고 해서 무조건적으로 성능이 올라가지는 않겠죠..?

해당 대회는 NLI 자연어 추론 파트만 보면 될 것 같습니다.

 


Paper with code

https://paperswithcode.com/task/natural-language-inference#task-home

아무래도 외국어를 기반으로 한 모델들만 있을 것 같기는 한데 논문에서 간단하게 뽑아볼 수 있는 방법들도 있지 않을까 싶어 추가했습니다.

 

로그인이 필요합니다
0 / 1000
백남진
2022.02.06 14:32

장어님의 포스팅을 기다렸습니다! 좋은 정보 고맙습니다 :)

동화책
2022.02.06 20:05

참고할만한 자료를 찾고 있었는데 정보 공유 정말 감사드립니다!