분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
농업 환경 변화에 따른 작물 병해 진단 AI 경진대회
test 데이터 관련 Pseudo Labeling 및 TTA 기법 문의
안녕하세요.
본 대회의 규정을 읽어보니 'test 데이터를 모델 학습 시 활용하거나, 허가되지 않은 외부 데이터 및 사전 학습 모델 사용 시 규정 위반 처리될 수 있습니다.' 라고 되어 있는데 그렇다면 Pseudo Labeling이나 TTA 기법들은 data leakage에 해당되나요?
답변 기다리겠습니다. 감사합니다.
2. 외부 데이터 및 사전 학습 모델, 부정행위
법적 제약이 없으며 공개된 사전 학습 모델 및 외부 데이터 사용 허용
테스트 데이터는 추론 과정에서만 사용 가능하며, 아래와 같은 경우는 부정행위(Data Leakage)로 판단합니다.
Label Encoding 시 학습 데이터와 테스트 데이터를 concat 하여 한꺼번에 인코딩 하는 경우
Scaler 사용 시 테스트 데이터의 통계 (평균, 최빈값 등)를 사용하는 경우
테스트 데이터에 대한 Imputation 시 테스트 데이터의 통계 (평균, 최빈값 등)를 사용하는 경우
를 참고하였을 때, Pseudo Labeling을 테스트 데이터를 이용할 경우에는 leakage.
TTA 는 테스트 데이터의 통계를 사용한 augmentation이 아니라면 leakage 가 아닐 것으로 판단됩니다.
데이콘 측의 규칙 공지사항 답글들을 확인해보니 공식적으로 Pseudo Labeling 기법은 Data Leakage라고 명시해주셨더라구요. 그리고 제 생각에도 TTA 기법은 model training 시에 모델 파라미터에 영향을 주지 않고 inference 시에만 사용하기 때문에 문제되지 않을 것 같습니다.
뭉뭉님, Redix6님 모두 좋은 답변 감사드립니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
공식적인 답변은 아니지만, 제가 생각하기에
Pseudo labeling은 leakage ( test데이터로 weight를 update하므로), TTA는 leakage에 해당하지 않을 것 같군요 (test데이터로 weight를 update하지 않으므로).