데이스쿨 할인 리턴-즈!
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
test data 라벨링 방식에 관하여 질문.
train data와 test data가 같이 라벨링되고 이후에 분할된건가요?
아니면 각각 다른 시기에 라벨링 되었는지 궁금합니다.
이유는 train data에 정상적인 라벨링이 아닌것으로 보이는 이미지들이 있는데
test data를 추론할때 마찬가지로 오염된 정답을 추론해야 하는건지 알고싶습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 singlecode님,
대부분 데이터들의 Labeling 작업의 특성상, 노이즈가 없는 데이터를 구축하는 것은 현실적으로 매우 어렵고 비용이 많이 발생하는 작업입니다.
해당 대회의 데이터의 경우 분야의 전문가인 한솔데코에서 구축한 데이터이며, 이 과정에서 발생한 노이즈 샘플이 존재할 수 있습니다.
또한 Labeling 시점에 따라 Labeling 기준이 변하지는 않으며, 테스트 데이터의 경우에는 한번 더 사전에 검토가 이루어졌습니다.
그러나 테스트 데이터 역시 노이즈 샘플이 아예 존재하지 않다고 말씀드리기는 어렵습니다. 다만 다수의 샘플이 오분류되어 평가 신빙성에 대해 문제가 될 만큼은 아니며, 충분히 허용 가능한 범위 내로 판단됩니다.
감사합니다.