월간 데이콘 한국어 문장 관계 분류 경진대회

알고리즘 | NLP | 분류 | 자연어 | Accuracy

  • moneyIcon Prize : 100만원 + α
  • 1,341명 마감

 

다들 대회 어떻게 진행하고 계시나요?? + 오류 질문

2022.02.13 23:04 3,670 Views

안녕하세요!

자연어가 처음이다 보니 이것저것 해보고 있는데 오류가 여기 저기서 발생하고 난리가 났네요..

리더보드를 확인해보니 0.9를 넘기신 분도 계시고 근처에 계시는 분들도 많네요.

저는 카카오브레인쪽 KorNLU 데이터 NLI 파트만 가져와서 타입만 맞춰주고 train으로 넣어서 학습 진행하려고 했는데 아래처럼 오류가 나네요. 스택오버플로우나 구글에 쳐도 버전 문제라는 곳도 있던데 원래 데이터로 돌리면 돌아가는 코드에서 데이터만 늘려줬을 뿐인데 왜 오류가 나는지 모르겠네요 ㅎ..

혹시나 카카오브레인 데이터 추가해서 사용하신 분 있으시면 성능 향상이 되었는 지 궁금하기도 하네요. 데이터 분석할 때 알았었지만 KLUE 데이터는 영화나 숙박 리뷰도 있고 뉴스 기사처럼 어느 정도 분야가 정해져있더라고요. 그래서 다른 양의 많은 데이터를 추가했을 때 과연 이 대회에 성능 향상이 있을 지 궁금합니다.

대회가 2주 남긴 했지만 아직 KLUE 데이터 셋 정보 안 확인 하신 분들 있으면 아래 사진 참고해주세요. 데이콘에서 출처로 남긴 KLUE 데이터 공식 설명이더라고요.

출처: https://klue-benchmark.com/tasks/68/data/description

대충 보면 뉴스 기사, 백과사전이나 영화, 여행에 대한 구어체 리뷰 등으로 이루어진 것 같습니다. 구어체가 더 어렵고 구어체의 비중을 조금 더 두고 추출한 것 같습니다. 또, 하나의 premise 문장에 적어도 하나의 서술어가 포함되어 있다고 합니다. premise 문장 길이는 공백을 포함해 20에서 90자 사이로 했다고 합니다.

데이터만 봤을 때는 비율도 어느정도 일정하고 public score도 60% 사용하니 리더보드 변동이 엄청 심할 것 같지는 않은데 결과가 궁금하네요.

대회 2주 남은 시점에 모두 화이팅입니다!


로그인이 필요합니다
0 / 1000
alldayPosick
2022.02.14 10:00

저도 위 데이터 사용했는데 우선 결측값이 존재해서 날려주고 토치로 모델돌리는데 레이블이 float형식이라 int64로 집어넣어주니까 돌아가더라구요! 아마 결측값이랑 label input문제인거같아요

장어
2022.02.19 15:11

아하 답변 감사합니다. 시간 없어서 저 글 올리고 데이콘에 들어오지 못 해 확인을 못 했네요! 확인해보겠습니다.