2025 Samsung Collegiate Programming Challenge : AI 챌린지

채용 | SCPC | 알고리즘 | 비전 | LLM | 생성 AI | 멀티모달 | 정확도

  • moneyIcon 상금 : 6,000만원
  • 1,445명 마감
마감

 

Visual Genome 데이터셋 관련 문의 드립니다!

2025.07.17 10:40 456 조회

안녕하세요


Visual Genome(VG) 데이터셋 같은 경우 CC BY 4.0로 배포되었지만, VG 데이터셋의 이미지는 COCO + Flickr YFCC100M에서 구축되었습니다.


이때, 문제는 YFCC100M 데이터셋 같은 경우 일부 데이터가 BY‑NC‑ND(비영리 + 변경금지) 로 배포되어, 데이터의 좌우변환, 리사이즈 등을 엄격히 제한하고 있습니다.


많은 사용자께서 이미 대부분의 모델에는 이미 내장되어있는 데이터 처리 파일을 사용하실텐데, 때문에 좌우변환, 리사이즈 등과 같은 전처리시에 해당 대회에서 규정하는 데이터 규정위반에 해당될 수 있습니다.


그렇다면 VG 기반으로 만들어진 GQA와 같은 데이터셋도 사용하면 규정 위반에 해당되는 듯 합니다.


계속 데이터 관련 문의드려 죄송합니다 ㅠㅠ 한 번의 실수로도 실격될 수 있는 엄격함에 미루어 보아 확실하게 하고자 여쭙습니다 ㅠㅠ


  1. VG 데이터셋 같은 경우 그냥 사용해도 되는걸까요?
  2. 만약 이 사실을 모르고 학습된 모델을 제출했으면 실격인가요?
  3. 1이 가능하게 되려면, 해당 변경금지 데이터를 직접 분류하게 되는데, 이건 데이터 수작업 분류 규칙에 위배되지 않는건가요??


답변 기다리겠습니다 감사합니다

로그인이 필요합니다
0 / 1000
LEXXSH
2025.07.17 11:43

안녕하세요. 운영진님이 답변주시는게 확실하지만, 제가 이해한바로 VG 데이터셋을 사용해도 무방할것 같습니다.
학습 과정안에서 진행하는 리사이즈, 좌우반전 등 데이터 증강 자체는 모델 학습범위(TDM) 안에 들어가므로 일반적으로 ND(Non-Derivative) 조항을 위반하지 않은것으로 알고 있습니다.

이 라이선스 자체가 문제가 되는 지점은 가공된 이미지를 외부에 배포나 공유할때 문제되는것이 아닐까 싶습니다.

DACON.GM
2025.07.17 14:37

해당 과정이 모두 코드로 진행될 수 있고, 모델 학습에만 활용된다면 문제 없다고 판단됩니다.