월간 데이콘 한국어 문장 관계 분류 경진대회

알고리즘 | NLP | 분류 | 자연어 | Accuracy

  • moneyIcon Prize : 100만원 + α
  • 1,342명 마감

 

[데이콘 답변 희망] KLUE Official Dev Data 사용가능 여부

2022.02.08 16:31 3,448 Views

안녕하세요 담당자님 항상 수고많으십니다 ㅎㅎ

다름이 아니라 Bixby 님의 도움이 되는 문의글을 보고, 저 또한 의문점이 생겨 문의드리게 되었습니다.


우선, 위 글 덕분에 KLUE Official DataSet을 사용하여 사전학습된 모델을 활용하여도 된다는 말씀은 이해했습니다.


그렇다면 누구나 다운 접근이 가능한 KLUE Official DataSet (Train & Dev)을 이번 대회 학습에 사용하는 것은 가능한지를 여쭙고 싶습니다.


위 링크로부터 데이터를 다운받게 되면 train & dev 2개의 데이터셋이 존재하는데,

  • Dacon Train Set vs KLUE Official Train Set => 완전 일치
  • Dacon Test Set vs KLUE Official Dev Set => 3000개 中 6개만 일치

임을 확인할 수 있었습니다.


그렇다면 KLUE Official Dev Set 중 Dacon의 Test Set과 일치되는 일부 데이터만 확실하게 잘 제거하게 된다면

해당 데이터(위의 경우, 6 rows를 제거한 2994 rows의 KLUE Official Dev Set)는 Dacon Test Set과 겹치는 데이터가 없으니

이번 대회에 사용이 가능한 외부데이터로 인정되는 것일까요?


추가적으로 말씀드리자면,

여기서 더 세부적으로 Column 별 기준으로 중복 여부를 살펴봤을 때,

1) Premise와 Hypothesis 두 컬럼을 기준으로 하면

  • Dacon Test Set vs KLUE Official Dev Set => 3000개 中 6개만 일치

2) 하지만 Premise 하나의 컬럼만을 기준으로 하면

  • Dacon Test Set vs KLUE Official Dev Set => 3000개 中 전부 일치


※ 그렇기에 Premise 컬럼만 기준으로 했을 때 Dacon Test Set과 모두 일치한다는 점에서

개인적으로는 충분히 Data Leakage 현상이라고 봐야 된다고 생각하며,

해당 데이터(KLUE Dev Set)는 이번 대회 모델 학습에 사용이 금지되어야 한다고 생각합니다.


다만 확실하게 여쭤보고 답변을 받고 싶다는 생각이 들게 된 이유는

이번 대회가 Dacon 측에서 Test Set에 대해 Custom을 거쳐주신 특이 케이스임을 고려하였기 때문입니다.

1) 해당 문의글에 데이콘 측이 달아주신 댓글에서 다음과 말씀해주신 점.

  • 데이콘 측에서 test data "Hypothesis"의 labeling을 직접 진행해주셨고
  • hand_labeling(답안 수기작성)이 의심되는 경우에만 해당 코드를 요청하여 검증을 진행합니다.


2) 그리고 이번 대회의 명시된 규정 상으로는 해당 데이터가 금지된다는 부분을 찾아볼 수 없어서 이렇게 문의를 드리게 되었습니다.


<3줄 요약>

KLUE Official Dev Set 중 Dacon의 Test Set과 일치되는 일부 데이터를 제거한 경우까지 함께 고려해주시어

KLUE Dev DataSet의 사용가능 여부에 대하여 답변 부탁드리겠습니다.

긴 글 읽어주셔서 감사드립니다


로그인이 필요합니다
0 / 1000
DACONIO
2022.02.08 18:48

안녕하세요, Maximalizm 님.

결론부터 말씀드리면 Premise 문장이 동일한 데이터를 포함하여, 모든 KLUE Official Dev Data Set을 학습에 사용하셔도 무방하십니다.

1. 본 대회의 요지는 Premise 문장을 바탕으로 *Hypothesis 문장이 Entailment인지, Contradiction인지 또는 Neutral인지를 추론하는 것입니다.
이번 대회에서는 "Premise 문장이 공개되어 있다고 하더라도 새로운 Hypothesis 문장이 주어졌을 때 과연 정답을 얼마나 맞출 수 있는지"가 중요하다고 판단했습니다.

2. Bixby 님의 문의에도 글을 남겼지만 이번 대회에서는 Pre-Trained Model 사용에 최대한 제한을 두지 않으려고 하며, 외부 데이터의 사용 역시 법적, 저작권 문제가 없는 선에서 참가분께서 직접 수집할 수 있는 데이터라면 사용에 최대한 제한을 두지 않으려고 합니다.


즉, 답안 수기 작성만 아니라면 사용가능한 사전 학습 모델, 사용가능한 외부 데이터는 모두 학습에 이용하실 수 있습니다.

감사합니다 :)

Maximalizm
2022.02.08 19:14

아 그렇군요 여쭤보길 정말 잘했네요 ㅎㅎ 늦은 시간임에도 불구하고 친절한 답변 너무 감사드립니다 :)

은둔초보
2022.02.25 17:32

궁금해서 몇 날 며칠 잠을 못 이루고 있었는데 해소가 됐네요 ㅎㅎ 감사합니다^_^