분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
AI야 , 진짜 뉴스를 찾아줘! AI 경진대회
데이터에 문제가 있는 것 같습니다.
아무리 학습 방법을 바꿔도 성능이 올라가지 않아 데이터를 자세하게 살펴보다 문제를 발견하였습니다.
"데이터에서 찾은 AI 속보"라는 중복적인 content에 대해 label이 일정하지 않습니다.
train set에서 해당 content에 대해 67개는 가짜, 26개는 진짜로 label이 되어있는데, 해당 문구를 검색해본 결과 주식 관련 광고 문구였습니다.
test set에도 해당 문구가 200개 이상 포함되어 있는데, 현재 리더보드에서 정확도의 차이가 미미하기 때문에 이 문구가 일관적으로 label이 되어있지 않다면 운(?)에 따라 정확도와 등수에 변동이 있지 않을까 싶습니다.
답변 감사합니다. 저희 팀에서 검색을 통해 찾은 내용은 광고의 헤드라인이었고, content에 대한 서로 다른 라벨링의 순서가 뒤섞이지 않고 초반에는 진짜로 후반에는 가짜로 라벨링되어있어 의도적인 차이라고 생각하지 못했습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요
데이콘입니다.
동일한 content에 관하여 다른 LABEL이 있는 경우는 기사에 대한 문장의 흐름을 고려하여 주최측에서 라벨링한 것입니다.
test set에 대한 부분은 말씀드릴 수 없는 점 양해 부탁드립니다.
감사합니다.