월간 데이콘 한국어 문장 관계 분류 경진대회

알고리즘 | NLP | 분류 | 자연어 | Accuracy

상금 100만원 + α
1,356명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

최종 순위 발표

DACONIO

2022.03.11 12:19 3,147 조회

안녕하세요, 데이콘입니다.😊

우선 한국어 문장 관계 분류 경진대회에 많은 관심을 갖고 참가해 주셔서 감사의 말씀드리며,

긴 시간 동안 대회에 참가하시느라 고생 많으셨습니다.

제출해 주신 코드로 (유저 평가 + 데이콘 내부 검증) 최종 순위를 가려 다음과 같이 안내드립니다.

~~위의 내용과 관련한 문의 사항은 금일(2022년 3월 11일) 17시까지 댓글로 말씀해 주시면 감사하겠습니다.~~

~~금일 17시까지 문의 사항이 없으면 순위를 최종 확정할 예정입니다.~~

최종 순위는 위와 같이 확정 되었습니다.

또한, 총 468명이 결과물을 제출해 주시어 1,468,000원의 후원금이 모였으며,

수상 팀원의 이름으로 소방관 유가족 생계 지원 캠패인에 후원 합니다.

수상 팀에는 다음 주 별도 연락을 드릴 예정이며,

끝까지 대회에 관심을 갖고 열심히 참가해 주신 여러분들께 다시 한번 감사의 말씀드립니다.

댓글 6개

로그인이 필요합니다

comment

0 / 1000

정성문

2022.03.11 14:03

가온 팀은 왜 코드검증이 안됐는지 알 수 있을까요?

DACONIO

2022.03.11 14:39

안녕하세요, 정성문님.

"코드 검증 X"는 데이콘 내부에서 코드를 검증했지만 통과하지 못했다는 뜻이며, 코드 검증이 안되었다는 뜻은 아닙니다.
가온 팀의 Private Score는 공유해주신 코드 중 Soft Voting의 결과값으로 재현되는 것으로 판단됩니다.
따라서 점수가 정상적으로 재현되지 않은 것은 아니나, 아래와 같은 부분은 공정성을 해치는 것으로 최종 순위 결정에서 제외되었습니다.

- 동일한 premise에 세 가지의 hypothesis가 매칭되지 않는 경우, 가장 큰 확률을 갖는 label 부여

위와 같은 방법은 기계학습의 결과가 아닙니다.
이러한 모델은 "동일한 premise에는 무조건 세가지의 다른 hypothesis가 매칭되어야 한다"라는 사실을 알고 있어야만 적용 가능한 룰 베이스 모델입니다. 물론 train dataset 역시 동일한 premise에 세가지 다른 hypothesis가 매칭되어 있는 것은 사실이나 test dataset의 구성은 전혀 모른다는 가정하에 정답을 추론하는 것이 적절합니다. a라는 첫번째 premise에 a'라는 hypothesis가 모델로부터 추론 되었는데 a라는 두번째 premise에 a'라는 hypothesis가 다시 추론되었다고 해서 정답을 다음으로 높은 확률을 갖는 값으로 바꾸는 것은 hand labeling에 가깝습니다.

즉, 공정한 평가를 받기 위해서 모든 참가자는 test dataset에 대한 구성을 전혀 모른다는 가정 하에 두 가지 문장을 입력 값으로 받아 정답을 추론해야 합니다.
감사합니다.

정성문

2022.03.11 14:39

네 감사합니다. 다음 대회부터는 참고하도록 하겠습니다!

DACONIO

2022.03.11 14:55

저희 데이콘 역시 공정한 대회를 만들기 위해 앞으로 더 노력하겠습니다! 너른 마음으로 이해해주셔서 감사합니다.