[1주년 기념] 데이스쿨 최대 40% 할인 🎁
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
2022 관광데이터 AI 경진대회
Test 데이터 (평가용)Label 관련 질문
안녕하세요 Train 데이터에 노이즈가 꽤있어 다수의 분들이 비슷한 질문을 드린렸는데요 아무래도 답변이 명확하지 않은 것 같아 재 질문 드립니다.
"학습 데이터, 테스트 데이터는 모두 동일한 원천 데이터로부터 샘플링된 데이터입니다." 라고 안내해주셨는데요.
그렇다면 평가에 활용되는 원천 테스트 데이터의 Label역시도 잘못 분류된 케이스가 다수 존재할 것으로 보입니다.
따라서
명확히 알려주시면 감사하겠습니다.
전자일 경우라면 대회를 통해 만들어진 모델들을 대회 이후 분류에 사용하는데 문제가 없겠지만 만약 후자일 경우엔 (잘못 분류하도록 학습되기 때문에) 이번 대회말고는 효용성이 없어 대회 취지에도 부합하지 않는 것 같다는 생각이 듭니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 JIN_님,
대부분 데이터들의 Labeling 작업의 특성상, 노이즈가 없는 데이터를 구축하는 것은 현실적으로 매우 어렵고 비용이 많이 발생하는 작업입니다.
해당 대회의 데이터 또한, 위와 같이 오분류 샘플이 존재할 수 있으나 현재 실제 서비스에 적용되고 있는 데이터이며 테스트 데이터의 경우에는 한번 더 사전에 검토가 이루어졌습니다. 그러나 테스트 데이터 역시 오분류 샘플이 아예 존재하지 않다고 말씀드리기는 어렵습니다. 다만 다수의 샘플이 오분류되어 평가와 향후 모델의 효용성에 대해 문제가 될 만큼은 아니며, 충분히 허용 가능한 범위 내로 판단됩니다.
또한 현재 실제 서비스에 활용되고 있는 데이터인 만큼, 이번 대회를 통하여 만들어진 모델들이 충분히 효용성이 있을 것으로 보입니다.
감사합니다.