Label 수정 관련 질문입니다

2022 관광데이터 AI 경진대회

Label 수정 관련 질문입니다

2022.10.18 14:50 3,329 조회

라벨 관련 글에서 아래와 같이 답변해주셨는데 정확히 이해가 되지 않아 질문드립니다!

"Train Dataset 내에서는 참가자 판단하에 노이즈 샘플을 제거하여 학습하거나, 노이즈 샘플의 Label을 재분류하여 학습에 활용하는 선에서는 허용합니다.

단, 학습 샘플로부터 '기계학습 및 통계적 분석 또는 논리적으로 납득 가능한 코드'를 활용하지 않고, 참가자 판단에만 기초하여 샘플을 제거하는 것이 아닌 직접 수기로 수정하여 데이터를 증강하는 행위 등은 외부 데이터에 준하는 데이터 생성으로 볼 수 있으며, 코드 검증 시 본 대회의 '외부 데이터 사용 불가' 규칙 관련하여 불이익을 받을 수 있습니다."

Label이 잘못 분류된 것 같은 train data의 Label을 수기로 수정하거나, 수기로 삭제하는 행위가 규칙 위반이 맞는지 여쭤보고 싶습니다!

댓글 1개

로그인이 필요합니다

comment

0 / 1000

DACON.GM

2022.10.18 19:08

안녕하세요 인문학도님,
먼저 말씀해주신 'Label이 잘못 분류된 것 같은 train data의 Label을 수기로 수정하거나, 수기로 삭제하는 행위'는 가능합니다.
단, test data의 추론 결과는 수기로 작성되었다면 실격 사유에 해당합니다.

추가로 "단, 학습 샘플로부터 '기계학습 및 통계적 분석 또는 논리적으로 납득 가능한 코드'를 활용하지 않고, 참가자 판단에만 기초하여 샘플을 제거하는 것이 아닌 직접 수기로 수정하여 데이터를 증강하는 행위 등은 외부 데이터에 준하는 데이터 생성으로 볼 수 있으며, 코드 검증 시 본 대회의 '외부 데이터 사용 불가' 규칙 관련하여 불이익을 받을 수 있습니다." 는 Train 데이터셋의 cat (label)을 수정하는 것이 아닌 예를 들어 overview에 해당되는 텍스트를 직접 수기로 수정하여 (비슷한 뜻의 문장으로 직접 작성) 데이터 증강을 하는 행위는 외부 데이터 사용에 준하는 행위로 규칙 위반에 해당된다는 것 입니다.
데이터 증강은 모두 '기계학습 및 통계적 분석 또는 논리적으로 납득 가능한 코드'에 기반이 되어야 합니다.
감사합니다.

📣 댓글 작성 창의 위치가 댓글 리스트 상단으로 이동했습니다!

목록으로

Data Leakage 관련 질문

대회 - 제주도 도로 교통량 예측 AI 경진대회

4년 전

현재 글

Label 수정 관련 질문입니다

대회 - 2022 관광데이터 AI 경진대회

4년 전

약형 효율적 시장 가설: 기술적 분석에 대한 시사점

대회 - 월간 데이콘 KOSPI 기반 분석 시각화 경진대회

4년 전