농업 환경 변화에 따른 작물 병해 진단 AI 경진대회

test 데이터 관련 Pseudo Labeling 및 TTA 기법 문의

2022.01.19 20:18 2,244 Views

안녕하세요.

본 대회의 규정을 읽어보니 'test 데이터를 모델 학습 시 활용하거나, 허가되지 않은 외부 데이터 및 사전 학습 모델 사용 시 규정 위반 처리될 수 있습니다.' 라고 되어 있는데 그렇다면 Pseudo Labeling이나 TTA 기법들은 data leakage에 해당되나요?

답변 기다리겠습니다. 감사합니다.

로그인이 필요합니다
0 / 1000
뭉뭉
2022.01.19 21:05

공식적인 답변은 아니지만, 제가 생각하기에
Pseudo labeling은 leakage ( test데이터로 weight를 update하므로), TTA는 leakage에 해당하지 않을 것 같군요 (test데이터로 weight를 update하지 않으므로).

Redix6
2022.01.20 00:11

2. 외부 데이터 및 사전 학습 모델, 부정행위
법적 제약이 없으며 공개된 사전 학습 모델 및 외부 데이터 사용 허용
테스트 데이터는 추론 과정에서만 사용 가능하며, 아래와 같은 경우는 부정행위(Data Leakage)로 판단합니다.
Label Encoding 시 학습 데이터와 테스트 데이터를 concat 하여 한꺼번에 인코딩 하는 경우
Scaler 사용 시 테스트 데이터의 통계 (평균, 최빈값 등)를 사용하는 경우
테스트 데이터에 대한 Imputation 시 테스트 데이터의 통계 (평균, 최빈값 등)를 사용하는 경우

를 참고하였을 때, Pseudo Labeling을 테스트 데이터를 이용할 경우에는 leakage. 
TTA 는 테스트 데이터의 통계를 사용한 augmentation이 아니라면 leakage 가 아닐 것으로 판단됩니다. 

LimHJ
2022.01.20 22:53

데이콘 측의 규칙 공지사항 답글들을 확인해보니 공식적으로 Pseudo Labeling 기법은 Data Leakage라고 명시해주셨더라구요. 그리고 제 생각에도 TTA 기법은 model training 시에 모델 파라미터에 영향을 주지 않고 inference 시에만 사용하기 때문에 문제되지 않을 것 같습니다. 
뭉뭉님, Redix6님 모두 좋은 답변 감사드립니다!