분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
대회 관련 정보 몇 가지 간단 정리
본 포스팅은 데이콘 서포터즈 "데이크루" 1기 활동의 일환입니다.
대회가 시작된 지 얼마 안 되기도 했고 제가 직접 적용해볼 시간이 없을 것 같아 정보들을 찾아 공유합니다. 데이콘에서 이전에 열렸던 다양한 대회를 살펴보았는데 직접적으로 관련된 대회는 하나가 있어 해당 대회에서 좋은 성능을 기록한 방법들 가져왔습니다. 이외에도 NLI(Natural Language Inference)라는 키워드로 검색하시면 비슷한 내용들 나올 것 같습니다.
Kerry님의 ‘최종 3th : [Private 5위 - 0.83705 / Back Translation]’
국문에서 영문으로 변경하고 영문을 다시 국문으로 변경하는 형태의 데이터 증대 방법을 적용하신 것 같은데 자연어를 멀리서 쳐다보기만 하는 입장으로 신기했습니다. 지금 진행하는 대회에도 적용할 수 있는 증대 방법 같습니다. 점수가 궁금하네요!
DippinDeep팀의 ‘[private 10위/ public 9위] DippinDeep팀’
Kerry님과 같은 방식의 증대 방법을 채택한 것 같은데 학습을 진행하는 부분에 있어 한 모델은 증대한 데이터를 다른 모델 하나는 기본 데이터를 사용해 모델을 학습시켰습니다. 그리고 두 모델을 5-fold 앙상블을 진행해 차이가 있는 것 같아 정리합니다.
두 코드 공유 모두 설명이 잘 되어 있고 적용하기 좋을 것 같습니다. 이외에도 다양한 코드 공유가 올라와 있으니 참고하시면 좋을 것 같습니다.
KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language Understanding
Dataset Github : https://github.com/kakaobrain/KorNLUDatasets
논문 주소 : https://arxiv.org/abs/2004.03289
같은 방식의 데이터인 만큼 test Data와 겹치는 데이터가 없다면 충분히 활용할 수 있을 것 같습니다. 물론 사용한다고 해서 무조건적으로 성능이 올라가지는 않겠죠..?
해당 대회는 NLI 자연어 추론 파트만 보면 될 것 같습니다.
https://paperswithcode.com/task/natural-language-inference#task-home
아무래도 외국어를 기반으로 한 모델들만 있을 것 같기는 한데 논문에서 간단하게 뽑아볼 수 있는 방법들도 있지 않을까 싶어 추가했습니다.
참고할만한 자료를 찾고 있었는데 정보 공유 정말 감사드립니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
장어님의 포스팅을 기다렸습니다! 좋은 정보 고맙습니다 :)