2022 관광데이터 AI 경진대회

라벨이 잘못 분류된 샘플이 꽤 보이는 것 같습니다.

2022.10.12 12:56 1,771 조회

오분류된 것으로 예상되는 몇가지 샘플의 overview 입니다.

멕시코 음식, 미국식 스모크 바베큐, 양식전문점, 피자 빠네 파스타  이탈리안 레스토랑 등의 설명에도 불구하고 한식 전문점으로 분류되거나,

한식전문점이라고 명시된 매장이 서양식으로,

평생 일식요리만 고집해오신 분들을 한식으로..분류가 되어있습니다. 이 외에도 오분류된 것 같은 샘플이 꽤 보이는데,

1) 주최측에서 이를 인지하고 있고, 참가자가 알아서 오분류된 샘플을 감안하여 학습을 진행하면 될지

2) test 데이터셋은 오분류가 확실히 없는지

에 대한 답변이 듣고 싶습니다.

로그인이 필요합니다
0 / 1000
DACON.GM
2022.10.12 13:35

안녕하세요 민초맛대흉근님,
대회 데이터의 원천 데이터는 주최측으로부터 전달 받은 데이터이며 실제 일부 서비스에 활용중인 데이터들입니다.
그러나 이러한 데이터들은 주최측에서 직접 구축한 데이터이기 때문에 일부 샘플이 오분류 되어 있을 수 있으나,
대회 데이터의 분류 정보는 현재 실제 활용중인 데이터의 분류 정보를 기준으로 설정되어있습니다. 
따라서, 학습 데이터에서 노이즈라고 판단이 된다면 각자의 방법에 따라 진행해주시면 됩니다.
또한 대회 학습 데이터, 테스트 데이터는 모두 동일한 원천 데이터로부터 샘플링된 데이터입니다.
감사합니다.

10duck
2022.10.12 14:02

혹시 대회 진행 중 "기계학습 및 통계적 분석을 활용하지 않고, 참가자 판단에만 기초한 샘플 일부를 제거 또는 재분류할 수 없습니다" 또는 이에 상응하는 방안이 발표될 가능성이 있을까요? 
종종 타 플랫폼에서도 발생하는 일이어서 관광공사랑 협의된 사항을 말씀해주실 수 있으신지 궁금하여 답글드립니다.

DACON.GM
2022.10.12 15:14

Train Dataset 내에서는 참가자 판단하에 노이즈 샘플을 제거하여 학습하거나, 노이즈 샘플의 Label을 재분류하여 학습에 활용하는 선에서는 허용합니다.
단, 학습 샘플로부터 '기계학습 및 통계적 분석 또는 논리적으로 납득 가능한 코드'를 활용하지 않고, 참가자 판단에만 기초하여 샘플을 제거하는 것이 아닌 직접 수기로 수정하여 데이터를 증강하는 행위 등은 외부 데이터에 준하는 데이터 생성으로 볼 수 있으며, 코드 검증 시 본 대회의 '외부 데이터 사용 불가' 규칙 관련하여 불이익을 받을 수 있습니다.
감사합니다.