분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
도배 하자 질의 응답 처리 : 한솔데코 시즌2 AI 경진대회
[DACON 답변 요청]추론시 검색결과를 context로 활용하는 알고리즘 가능할까요?
학습한 모델도 있지만, 추론 시 입력 질문의 키워드가 학습데이터에 존재하지 않을 경우 실시간으로 구글 검색하여 context 를 만들고 llm 의 인풋으로 넣어주는 알고리즘도 규칙에 위배되지 않는지 궁금합니다. 좋은 아이디어가 될것같아 질문드립니다.
아 네 그렇군요. 첫줄에서 말씀하신 검색 결과 후에 언어 모델을 거치는 단계가 없는 경우는 규칙에 위배되지만.
검색된 데이터가 법적으로 허용되는 경우, 데이터 전처리로 여길 수 있고, 그 뒷 단계에 반드시 언어모델을 사용한다면 가능하다는 거군요. 알겠습니다.
그런데 구글에서 검색한 데이터를 어떤 프로그램에 사용할 수 있는지 여부를 어떻게 판단하는지 법률적 지식이 없어서 조금 어렵군요. 한번 고민해보겠습니다. 검색된 데이터를 어떤 알고리즘에 활용하는게 법적인 문제가 있을 수 있는 건지 제가 무지하네요. 인터넷에 다시 게시하는 것이 아닌 한, 저작권 문제에 걸리는 건 아니라고 생각했습니다. 대부분의 구글 검색 결과, 웹 페이지에는 그렇게 프로그램에 활용되는 경우를 명시하지 않지 않나요? 사용하면 안된다고 명시했을 경우만 거르면 되는건지... 고민해보겠습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
먼저 명확히 해야 할 점은, 추론 자체를 언어 모델을 사용하지 않고, 구글 검색 API를 활용하여 진행하는 것은 경진대회 규칙에 벗어난 방법입니다.
그러나 문의에 담긴 내용, 즉 "추론 시 입력 질문에 포함된 키워드가 학습 데이터에 존재하지 않을 경우 실시간으로 구글 검색을 통해 컨텍스트를 생성하고 이를 LLM의 입력으로 사용하는 알고리즘"에 관해서는 상황이 다릅니다. 이 방식은 구글 검색 API를 통한 외부 데이터의 전처리 과정으로 간주될 수 있습니다.
이러한 접근 방식이 규칙에 부합하기 위해서는 몇 가지 중요한 조건이 충족되어야 합니다.
실시간으로 구글 검색을 통해 얻은 데이터가 법적인 제약 없이 자유롭게 사용될 수 있어야 하며, 이 데이터의 변경 및 재배포가 가능해야 한다는 점입니다. 이는 외부 데이터 사용에 대한 규정을 준수해야 하기 때문입니다.
요약하자면, 문의 주신 방법은 구글 검색 API를 통한 외부 데이터 전처리의 일환으로 볼 수 있으며, 실시간으로 획득한 외부 데이터의 사용이 법적으로 허용되고, 해당 데이터를 자유롭게 변경 및 재배포할 수 있는 경우에 한해 규칙에 부합하게 됩니다.
감사합니다.