다들 대회 어떻게 진행하고 계시나요?? + 오류 질문

월간 데이콘 한국어 문장 관계 분류 경진대회

2022.02.13 23:04 6,080 조회

안녕하세요!

자연어가 처음이다 보니 이것저것 해보고 있는데 오류가 여기 저기서 발생하고 난리가 났네요..

리더보드를 확인해보니 0.9를 넘기신 분도 계시고 근처에 계시는 분들도 많네요.

저는 카카오브레인쪽 KorNLU 데이터 NLI 파트만 가져와서 타입만 맞춰주고 train으로 넣어서 학습 진행하려고 했는데 아래처럼 오류가 나네요. 스택오버플로우나 구글에 쳐도 버전 문제라는 곳도 있던데 원래 데이터로 돌리면 돌아가는 코드에서 데이터만 늘려줬을 뿐인데 왜 오류가 나는지 모르겠네요 ㅎ..

혹시나 카카오브레인 데이터 추가해서 사용하신 분 있으시면 성능 향상이 되었는 지 궁금하기도 하네요. 데이터 분석할 때 알았었지만 KLUE 데이터는 영화나 숙박 리뷰도 있고 뉴스 기사처럼 어느 정도 분야가 정해져있더라고요. 그래서 다른 양의 많은 데이터를 추가했을 때 과연 이 대회에 성능 향상이 있을 지 궁금합니다.

대회가 2주 남긴 했지만 아직 KLUE 데이터 셋 정보 안 확인 하신 분들 있으면 아래 사진 참고해주세요. 데이콘에서 출처로 남긴 KLUE 데이터 공식 설명이더라고요.

출처: https://klue-benchmark.com/tasks/68/data/description

대충 보면 뉴스 기사, 백과사전이나 영화, 여행에 대한 구어체 리뷰 등으로 이루어진 것 같습니다. 구어체가 더 어렵고 구어체의 비중을 조금 더 두고 추출한 것 같습니다. 또, 하나의 premise 문장에 적어도 하나의 서술어가 포함되어 있다고 합니다. premise 문장 길이는 공백을 포함해 20에서 90자 사이로 했다고 합니다.

데이터만 봤을 때는 비율도 어느정도 일정하고 public score도 60% 사용하니 리더보드 변동이 엄청 심할 것 같지는 않은데 결과가 궁금하네요.

대회 2주 남은 시점에 모두 화이팅입니다!