2025 Samsung Collegiate Programming Challenge : AI 챌린지

Laion 데이터 사용 질문

2025.07.11 17:21 369 Views

아래 질문에서 이미지들이 CC3M 사용이 안된다고 하셨는데 추가로 질문이 있습니다.


  1. 인터넷 데이터인 LAION 데이터 셋도 사용이 불가능한건가요?
  2. CC3M 이미지를 이용해 캡션을 만들고 생성모델을 통해 생성한 이미지를 사용한 것은 될까요?

감사합니다.


Login Required
0 / 1000
DACON.GM
2025.07.11 17:45

1. 네. LAION 데이터셋도 마찬가지로 URL과 페어한 캡션으로 구성되어있고, LAION 라이센스는 URL과 페어한 캡션에만 부여가되어있습니다. 즉, 이미지에 대한 라이센스는 명확하지 않아 사용이 어렵습니다.
따라서 사용하는 외부 DB(데이터셋)이 이미지 파일까지 포함되어있고, 명확하게 라이센스가 부여되어있는 데이터셋을 활용하시길 바랍니다.
아울러, LAION이나 CC3M의 캡션 데이터는 라이센스가 명확히 부여되어있으므로 사용 가능합니다.

2. 외부 DB로 CC3M 이미지를 사용할 수 없습니다.

LEXXSH
2025.07.11 19:25

https://huggingface.co/datasets/liuhaotian/LLaVA-Pretrain 데이터셋의 경우 사용가능할까요?

DarkKinght
2025.07.11 19:39

댓글 말구 본 글로 써주시면 좋을 것 같아요:) 
질문이 많아서 그러는시지 간혹 답글에는 답장 못하실때가 있으시더라구요