데이터에 문제가 있는 것 같습니다.

AI야 , 진짜 뉴스를 찾아줘! AI 경진대회

데이터에 문제가 있는 것 같습니다.

2020.12.30 16:39 4,087 Views

아무리 학습 방법을 바꿔도 성능이 올라가지 않아 데이터를 자세하게 살펴보다 문제를 발견하였습니다.

"데이터에서 찾은 AI 속보"라는 중복적인 content에 대해 label이 일정하지 않습니다.

train set에서 해당 content에 대해 67개는 가짜, 26개는 진짜로 label이 되어있는데, 해당 문구를 검색해본 결과 주식 관련 광고 문구였습니다.

test set에도 해당 문구가 200개 이상 포함되어 있는데, 현재 리더보드에서 정확도의 차이가 미미하기 때문에 이 문구가 일관적으로 label이 되어있지 않다면 운(?)에 따라 정확도와 등수에 변동이 있지 않을까 싶습니다.

로그인이 필요합니다

comment

0 / 1000

DACONIO

2020.12.30 16:55

안녕하세요
데이콘입니다.

동일한 content에 관하여 다른 LABEL이 있는 경우는 기사에 대한 문장의 흐름을 고려하여 주최측에서 라벨링한 것입니다.
test set에 대한 부분은 말씀드릴 수 없는 점 양해 부탁드립니다.

감사합니다.

zoomina

2020.12.30 19:16

답변 감사합니다. 저희 팀에서 검색을 통해 찾은 내용은 광고의 헤드라인이었고, content에 대한 서로 다른 라벨링의 순서가 뒤섞이지 않고 초반에는 진짜로 후반에는 가짜로 라벨링되어있어 의도적인 차이라고 생각하지 못했습니다.

현재 글

데이터에 문제가 있는 것 같습니다.

Competition - AI야 , 진짜 뉴스를 찾아줘! AI 경진대회

Likes 5

Comments 2

3년 전