분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
2022 관광데이터 AI 경진대회
Label 수정 관련 질문입니다
라벨 관련 글에서 아래와 같이 답변해주셨는데 정확히 이해가 되지 않아 질문드립니다!
"Train Dataset 내에서는 참가자 판단하에 노이즈 샘플을 제거하여 학습하거나, 노이즈 샘플의 Label을 재분류하여 학습에 활용하는 선에서는 허용합니다.
단, 학습 샘플로부터 '기계학습 및 통계적 분석 또는 논리적으로 납득 가능한 코드'를 활용하지 않고, 참가자 판단에만 기초하여 샘플을 제거하는 것이 아닌 직접 수기로 수정하여 데이터를 증강하는 행위 등은 외부 데이터에 준하는 데이터 생성으로 볼 수 있으며, 코드 검증 시 본 대회의 '외부 데이터 사용 불가' 규칙 관련하여 불이익을 받을 수 있습니다."
Label이 잘못 분류된 것 같은 train data의 Label을 수기로 수정하거나, 수기로 삭제하는 행위가 규칙 위반이 맞는지 여쭤보고 싶습니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 인문학도님,
먼저 말씀해주신 'Label이 잘못 분류된 것 같은 train data의 Label을 수기로 수정하거나, 수기로 삭제하는 행위'는 가능합니다.
단, test data의 추론 결과는 수기로 작성되었다면 실격 사유에 해당합니다.
추가로 "단, 학습 샘플로부터 '기계학습 및 통계적 분석 또는 논리적으로 납득 가능한 코드'를 활용하지 않고, 참가자 판단에만 기초하여 샘플을 제거하는 것이 아닌 직접 수기로 수정하여 데이터를 증강하는 행위 등은 외부 데이터에 준하는 데이터 생성으로 볼 수 있으며, 코드 검증 시 본 대회의 '외부 데이터 사용 불가' 규칙 관련하여 불이익을 받을 수 있습니다." 는 Train 데이터셋의 cat (label)을 수정하는 것이 아닌 예를 들어 overview에 해당되는 텍스트를 직접 수기로 수정하여 (비슷한 뜻의 문장으로 직접 작성) 데이터 증강을 하는 행위는 외부 데이터 사용에 준하는 행위로 규칙 위반에 해당된다는 것 입니다.
데이터 증강은 모두 '기계학습 및 통계적 분석 또는 논리적으로 납득 가능한 코드'에 기반이 되어야 합니다.
감사합니다.