월간 데이콘 뉴스 토픽 분류 AI 경진대회

알고리즘 | NLP | 분류 | 자연어 | Accuracy

500,000 D-point
1,905명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

klue plm 활용시 test leakage가 과연 있는지? 에 대한 문의

작성자 비공개

2021.07.20 03:47 2,248 조회

안녕하세요? 좋은 대회 열어주셔서 감사합니다.

본 대회의 데이터셋은 그 유명한 KLUE 데이터셋입니다. (https://arxiv.org/pdf/2105.09680.pdf)

우리는 논문에서 1. 어떻게 데이터를 수집했고 2. 각기 TASK 설계가 어떻게 이루어졌는지 3. PLM 학습 데이터 및 벤치마킹 성능을 확인할 수 있습니다.

아래 작성자분께서는 논문의 어디를 읽고 YNAT의 데이터로 PLM이 사전학습을 했다고 강력하게 주장하시는지 모르겠습니다. (만일 plm이 ynat data로 pre-training을 했다면, klue 리더보드에 치팅해서 학습한 모델을 자랑스럽게 걸어놨을까요...?)

제가 이렇게 글을 쓰는 이유는, 저는 klue의 plm이 ynat 데이터로 학습하지 않았다고 주장하는 것이 아니라 (제가 학습시킨 당사자가 아니기 때문에 100% 확신하고 얘기하는 것은 모순입니다.) 본 데이콘 대회 주최자분께서 혹 팩트를 가려서 학습했는지 하지 않았는지, 이에 따른 판결을 내려주시길 요청드립니다.

아래는 제가 논문을 읽고 PLM dataset의 NEWSCRAWL과 ynat의 News Headlines (연합뉴스데이터) 사이에 교집합이 있다고 확신할 수 없는 근거에 대해 정리한 내용입니다.

논문 2절에 의하면, KLUE가 수집한 data source 목록은 아래와 같습니다.

News Headlines, Judgments, National Assembly Minutes, Patents, Wikipedia, Wikibooks, Wikisource, Wikinews, Wikitree, Librewiki, Zetawiki, Policy News, NIKL Standard Korean Dictionary, Open Korean Dictoinary, ParaKQC, Airbnb Reviews, NSMC, Naver Enter. News Reviews, Acrofan News, The Korea Economics Daily News

논문 2.1절 The Final Source Corpora에서 위에 bold체로 마킹된 데이터셋을 최종적으로 선정했다고 언급하고 있습니다.

이 중, News Headlines가 연합뉴스(YNA)에서 수집한 데이터 셋입니다. 이는 ynat의 data description에 나와있는 바와 동일합니다. (https://klue-benchmark.com/tasks/66/data/description) 논문에서도 단일 문장 분류 태스크를 위해 2016년도부터 2020년도까지의 데이터를 수집했다고 언급하고 있습니다.

논문 2.4절과 3.1절을 보시면 우리가 풀고자하는 YNAT task dataset에 대한 상세한 내용이 담겨있습니다. 간략히 소개드리면, 네이버 뉴스로부터 2016년도부터 2020년도의 뉴스 헤드라인 데이터를 수집했고 (연합뉴스) 이를 7가지 category의 균형을 위해 알맞게 수집했다는 내용이 담겨있습니다. CLUE의 TNEWS와 AG News와 다르게 저작권 위반에 대한 자료는 배제했다고 하네요.

여기서 알 수 있는 내용은, YNAT은 16년도부터 20년도까지의 저작권 자료를 위반하지 않는 연합뉴스 헤드라인으로 7가지 label의 균형을 맞춰서 정제된 데이터셋임을 확인할 수 있습니다.

이제 PLM에서 활용한 데이터셋을 확인해볼까요?

본 논문의 4절에서 확인할 수 있는 내용으로, 총 5가지의 데이터를 활용했다고 언급하고 있습니다.

MODU, CC-100-Kor, NAMUWIKI, NEWSCRAWL, PETITION

위 중, 뉴스에 관련된 데이터는 NEWSCRAWL로 보입니다. 논문에선 이에 대한 설명으로 아래와 같이 기록되어 있습니다.

NEWSCRAWL은 12,800,000의 뉴스 aggregator platform에서 수집된 2011부터 2020년도까지의 뉴스 기사 (제목이란 언급없음.)로 구성되어 있습니다.

여기에 YNAT의 데이터가 혹시 포함되었나...? 라는 의심을 하는 것은 자연히 들 수 있는 의문이지만,

""" 여기엔 YNAT의 데이터도 학습됐을거야! 이건 반칙이야! """ 라고 주장하기엔 근거가 너무 부족한 것 같습니다.

제가 논문을 읽어보기론, 아래 글쓴이가 작성하신 "PLM을 학습하면서 이미 YNAT을 학습했다"란 주장에 대한 근거가 저는 논문에서 확인하지 못했는데 제가 놓친 부분이 있을지요? 주장에 대한 명확한 근거가 있으면 좋겠습니다.

결론: 제가 궁금한 부분은 하나입니다. Klue의 plm을 이용할 경우, YNAT 데이터를 plm 학습에 활용했는지에 대한 정확한 fact + 그것이 과연 fine-tune 성능에 영향을 미칠지 (단순히 klue-bert를 사용했다고 무작정 1위를 달성할 수 있을지?)

에 대한 답을 주최측에서 주시면 정말 감사하겠습니다 :D

오늘도 불철주야 힘내시는 주최자분들, 열심히 대회 참여하시는 분들 모두 화이팅입니다 !!