AI 양재 허브 인공지능 오픈소스 경진대회

[DACON 답변요청] 외부 데이터 및 사전 학습 모델 관련 질문 드립니다.

2022.08.30 18:14 2,052 조회

규칙에는 직접 촬영한 데이터가 사용 가능하다고 되어 있습니다.

주어진 평가 데이터셋(이경우 test data 이겠죠..) 정보 활용은 Data Leakage 로 실격처리 한다고 되어 있습니다.


여기서 질문을 드립니다.

  1. 테스트 데이터에 있는 화면과 동일한 장소로 가서 직접 고해상도로 촬영한 데이터는 사용 가능한 것인가요? 사용 가능하다면. 논란의 소지가 있을 수 있지 않을가요?
  2. 만약 해당 장소로 가서 촬영한 데이터는 안된다고 한다면 다른 장소에서도 거의 동일한 촬영이 가능할 수 있습니다. (ex: test dataset 의 버스정거장 정보 사진은 다른 정거장에서도 촬영할 수 있죠...)


data leakage 를 교묘하게 회피하는 대회가 아니라 공정성을 유지하기 위해

외부데이터 규칙은 오픈소스 데이터 + 공개된 사전학습 모델 정도만 인정해야 하는 것이 아닌지 문의 드립니다.


그리고 테스트 데이터셋이 18장이던데 너무 적은건가 싶어서요. 혹시 진행 도중에 테스트 데이터가 새롭게 추가되나요?

테스트 데이터셋 이미지 18개 중에 거의 같은 장소가 3장이 있었습니다.



확인 부탁드립니다.

감사합니다.


로그인이 필요합니다
0 / 1000
DACON.GM
2022.09.09 10:24

안녕하세요 c4big2님,
외부데이터(직접 촬영한 이미지 포함), 사전학습모델 모두 사용가능합니다.
단, Test Dataset은 기본적으로 '절대 볼 수 없다'라는 가정하에 진행해야합니다.
말씀해주신 방법 (의도적으로 Test Dataset을 보고 이와 동일한 이미지를 얻기 위한 시도)은 Data Leakage에 해당됩니다.
Data Leakage 규칙에 유의부탁드립니다.
감사합니다.

c4big2
2022.08.31 20:12

네 알겠습니다. 

fakecan
2022.09.01 17:47

질문은 명확한데 답변은 굉장히 애매모호하게 돌아온 것 같습니다. '노골적'으로 판단한다는 부분이 어려운데요. 말씀하신 Data Leakage를 판단하는 객관성의 기준을 잡을 수 있나요?
제가 이해를 잘못한 것 같아서 다시 여쭤봅니다.

DACON.GM
2022.09.01 18:09

한마디로 Test 데이터의 정보를 사용한다면 Data Leakage에 해당됩니다.
단순히 Test 데이터셋을 직접 학습하는 것 뿐만 아니라 Test 데이터셋을 EDA하고 그 결과로부터 인사이트를 도출하는 것도 해당됩니다.
촬영 이미지를 사용하는 것은 허용하되 본문 내용과 같이 'Test 데이터셋을 먼저 보고 이와 비슷한 이미지를 만들기 위한 시도' 역시 Test 데이터셋을 이미 알고 있다는 전제하에 가능하므로 Data Leakage입니다.
Data Leakage에 해당할 수 있는 예시들은 정말 많기 때문에, 코드 검증 시 이러한 부분을 위주로 검증합니다. 또한 검증 단계에서 코드 제출자는 검증을 위한 물음에 모두 논리적으로 설명할 수 있어야 합니다.
감사합니다.

졸립다
2022.09.15 15:07

Training set에서도 버스정류장 사진이 존재하는데 training set과 유사한 이미지를 수집했다고 하면 그건 data leakage가 아닌가요??
Training set과 유사한 데이터를 얻기 위해 서울 시내에 나가서 데이터를 수집하는건 허용된다는건가요?

저도 작성자님 아래 의견처럼 동일한 의견입니다.

"data leakage 를 교묘하게 회피하는 대회가 아니라 공정성을 유지하기 위해
외부데이터 규칙은 오픈소스 데이터 + 공개된 사전학습 모델 정도만 인정해야 하는 것이 아닌지 문의 드립니다."

DACON.GM
2022.09.15 15:23

해당 대회는 low resolution을 얻을 수 있는 방법을 공개하지 않으며, 데이터셋과 완전히 동일한 low resolution을 얻을 수 없기 때문에 촬영 이미지 또한 허용합니다. 또한 위에서 답변드린 내용과 같이 Test dataset의 이미지를 보고 의도적으로 동일한 이미지를 얻기 위한 시도가 아니라면 촬영 이미지 또한 충분히 사용 가능합니다. 따라서 의도성을 판단하기 위해 코드 검증 단계에서 외부 데이터에 대한 검증 또한 요청드릴 수 있으며 제출자는 검증을 위한 물음에 모두 논리적으로 충분히 설명을 할 수 있어야 합니다.

졸립다
2022.09.15 15:28

그렇다면 위의 질문에 대해서 

1. Training set에서도 버스정류장 사진이 존재하는데 training set과 유사한 이미지를 수집했다고 하면 그건 data leakage가 아닌가요??
>> data leakage가 아니다
Test set을 참고한 것이 아니라 train set 데이터를 더 모으기 위한 외부데이터 수집이었다
2. Training set과 유사한 데이터를 얻기 위해 서울 시내에 나가서 데이터를 수집하는건 허용된다는건가요?
>> 허용가능하다
 low resolution을 얻을 수 있는 방법을 공개하지 않으며, 데이터셋과 완전히 동일한 low resolution을 얻을 수 없기 때문에 촬영 이미지 또한 허용가능 

위와 같이 판단해도 된다는건가요 GM님?

DACON.GM
2022.09.15 15:31

네 맞습니다.

졸립다
2022.09.15 15:33

빠른 답변 감사합니다!! :)

졸립다
2022.09.15 15:28

삭제된 댓글입니다