도배 하자 유형 분류 AI 경진대회

test data 라벨링 방식에 관하여 질문.

2023.05.15 19:50 1,478 조회

train data와 test data가 같이 라벨링되고 이후에 분할된건가요?

아니면 각각 다른 시기에 라벨링 되었는지 궁금합니다.

이유는 train data에 정상적인 라벨링이 아닌것으로 보이는 이미지들이 있는데

test data를 추론할때 마찬가지로 오염된 정답을 추론해야 하는건지 알고싶습니다.

로그인이 필요합니다
0 / 1000
DACON.GM
2023.05.16 10:09

안녕하세요 singlecode님,
대부분 데이터들의 Labeling 작업의 특성상, 노이즈가 없는 데이터를 구축하는 것은 현실적으로 매우 어렵고 비용이 많이 발생하는 작업입니다.
해당 대회의 데이터의 경우 분야의 전문가인 한솔데코에서 구축한 데이터이며, 이 과정에서 발생한 노이즈 샘플이 존재할 수 있습니다.
또한 Labeling 시점에 따라 Labeling 기준이 변하지는 않으며, 테스트 데이터의 경우에는 한번 더 사전에 검토가 이루어졌습니다.
그러나 테스트 데이터 역시 노이즈 샘플이 아예 존재하지 않다고 말씀드리기는 어렵습니다. 다만 다수의 샘플이 오분류되어 평가 신빙성에 대해 문제가 될 만큼은 아니며, 충분히 허용 가능한 범위 내로 판단됩니다.
감사합니다.