2022 관광데이터 AI 경진대회

Test 데이터 (평가용)Label 관련 질문

2022.10.23 06:16 1,534 Views

안녕하세요 Train 데이터에 노이즈가 꽤있어 다수의 분들이 비슷한 질문을 드린렸는데요 아무래도 답변이 명확하지 않은 것 같아 재 질문 드립니다.


"학습 데이터, 테스트 데이터는 모두 동일한 원천 데이터로부터 샘플링된 데이터입니다." 라고 안내해주셨는데요.

그렇다면 평가에 활용되는 원천 테스트 데이터의 Label역시도 잘못 분류된 케이스가 다수 존재할 것으로 보입니다.


따라서

  1. 샘플링된 테스트 데이터의 잘못Labeling된 부분이 고쳐진(수정) 데이타로 평가가 진행되는지,  
  2. 아니면 원천데이터에서 샘플링된 그대로 아무 수정 없이 잘못분류된 Label을 그대로 포함해 평가하는지

명확히 알려주시면 감사하겠습니다.


전자일 경우라면 대회를 통해 만들어진 모델들을 대회 이후 분류에 사용하는데 문제가 없겠지만 만약 후자일 경우엔 (잘못 분류하도록 학습되기 때문에) 이번 대회말고는 효용성이 없어 대회 취지에도 부합하지 않는 것 같다는 생각이 듭니다.    

로그인이 필요합니다
0 / 1000
DACON.GM
2022.10.24 09:42

안녕하세요 JIN_님,
대부분 데이터들의 Labeling 작업의 특성상, 노이즈가 없는 데이터를 구축하는 것은 현실적으로 매우 어렵고 비용이 많이 발생하는 작업입니다.
해당 대회의 데이터 또한, 위와 같이 오분류 샘플이 존재할 수 있으나 현재 실제 서비스에 적용되고 있는 데이터이며 테스트 데이터의 경우에는 한번 더 사전에 검토가 이루어졌습니다. 그러나 테스트 데이터 역시 오분류 샘플이 아예 존재하지 않다고 말씀드리기는 어렵습니다. 다만 다수의 샘플이 오분류되어 평가와 향후 모델의 효용성에 대해 문제가 될 만큼은 아니며, 충분히 허용 가능한 범위 내로 판단됩니다.
또한 현재 실제 서비스에 활용되고 있는 데이터인 만큼, 이번 대회를 통하여 만들어진 모델들이 충분히 효용성이 있을 것으로 보입니다.
감사합니다.