분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Visual Genome 데이터셋 관련 문의 드립니다!
안녕하세요
Visual Genome(VG) 데이터셋 같은 경우 CC BY 4.0로 배포되었지만, VG 데이터셋의 이미지는 COCO + Flickr YFCC100M에서 구축되었습니다.
이때, 문제는 YFCC100M 데이터셋 같은 경우 일부 데이터가 BY‑NC‑ND(비영리 + 변경금지) 로 배포되어, 데이터의 좌우변환, 리사이즈 등을 엄격히 제한하고 있습니다.
많은 사용자께서 이미 대부분의 모델에는 이미 내장되어있는 데이터 처리 파일을 사용하실텐데, 때문에 좌우변환, 리사이즈 등과 같은 전처리시에 해당 대회에서 규정하는 데이터 규정위반에 해당될 수 있습니다.
그렇다면 VG 기반으로 만들어진 GQA와 같은 데이터셋도 사용하면 규정 위반에 해당되는 듯 합니다.
계속 데이터 관련 문의드려 죄송합니다 ㅠㅠ 한 번의 실수로도 실격될 수 있는 엄격함에 미루어 보아 확실하게 하고자 여쭙습니다 ㅠㅠ
답변 기다리겠습니다 감사합니다
해당 과정이 모두 코드로 진행될 수 있고, 모델 학습에만 활용된다면 문제 없다고 판단됩니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요. 운영진님이 답변주시는게 확실하지만, 제가 이해한바로 VG 데이터셋을 사용해도 무방할것 같습니다.
학습 과정안에서 진행하는 리사이즈, 좌우반전 등 데이터 증강 자체는 모델 학습범위(TDM) 안에 들어가므로 일반적으로 ND(Non-Derivative) 조항을 위반하지 않은것으로 알고 있습니다.
이 라이선스 자체가 문제가 되는 지점은 가공된 이미지를 외부에 배포나 공유할때 문제되는것이 아닐까 싶습니다.