2025 금융 AI Challenge : 금융 AI 모델 경쟁

rag 자체 크롤링 기준

2025.08.20 09:52 358 조회

자체 크롤링의 기준이 궁금합니다.

  1. rag에 넣을 데이터를 찾기 위해 크롤링해도 되는건가요?
  2. rag에 넣을 데이터를 찾는 과정까지 코드에 포함되어야 하나요? 아니면 그냥 구글 검색창에 법령관한 라이센스가 있는 공식문서를 검색하고, 그거를 pdf로 다운받아서 써도 되나요? (후자의 경우는 코드에 포함되지 않습니다.)
로그인이 필요합니다
0 / 1000
DACON.GM
2025.08.20 10:19

외부 데이터 사용 규칙과 api 사용 규칙을 확인하시길 바랍니다.
(2025년 8월 1일 전(~2025.07.31)에 공식적으로 공개되었으며, 최소한 비상업적 이용이 허용된 라이선스(CC BY-NC, CC0, CC-BY-SA, CC-BY-NC-SA 등)로 배포된 외부 데이터만 사용할 수 있습니다. 해당 조건을 충족하지 않는 외부 데이터는 사용이 불가능합니다.)

위 사용 규칙에 부합하나, 해당 데이터 사용을 위해 크롤링이 필요한 경우에는 데이터 증빙 자료와 크롤링 코드(전처리 코드)까지 모두 제출할 수 있어야합니다.

성심당의후예
2025.08.20 10:38

rag에 쓸 데이터를 모으는 과정까지 코드로 구현해야 하나요?

DACON.GM
2025.08.20 17:56

외부데이터가 RAG에 활용되기 위해서 전처리/가공이 필요한 경우에는
외부데이터 출처와 실제 파일, 그리고 전처리/가공 코드도 모두 제출하고 재현될 수 있어야합니다.