도배 하자 질의 응답 처리 : 한솔데코 시즌2 AI 경진대회

[DACON 답변 요청]추론시 검색결과를 context로 활용하는 알고리즘 가능할까요?

2024.02.14 15:44 1,265 Views

학습한 모델도 있지만, 추론 시 입력 질문의 키워드가 학습데이터에 존재하지 않을 경우 실시간으로 구글 검색하여 context 를 만들고 llm 의 인풋으로 넣어주는 알고리즘도 규칙에 위배되지 않는지 궁금합니다. 좋은 아이디어가 될것같아 질문드립니다.

로그인이 필요합니다
0 / 1000
DACON.GM
2024.02.14 16:41

먼저 명확히 해야 할 점은, 추론 자체를 언어 모델을 사용하지 않고, 구글 검색 API를 활용하여 진행하는 것은 경진대회 규칙에 벗어난 방법입니다. 
그러나 문의에 담긴 내용, 즉 "추론 시 입력 질문에 포함된 키워드가 학습 데이터에 존재하지 않을 경우 실시간으로 구글 검색을 통해 컨텍스트를 생성하고 이를 LLM의 입력으로 사용하는 알고리즘"에 관해서는 상황이 다릅니다. 이 방식은 구글 검색 API를 통한 외부 데이터의 전처리 과정으로 간주될 수 있습니다.

이러한 접근 방식이 규칙에 부합하기 위해서는 몇 가지 중요한 조건이 충족되어야 합니다.
실시간으로 구글 검색을 통해 얻은 데이터가 법적인 제약 없이 자유롭게 사용될 수 있어야 하며, 이 데이터의 변경 및 재배포가 가능해야 한다는 점입니다. 이는 외부 데이터 사용에 대한 규정을 준수해야 하기 때문입니다.

요약하자면, 문의 주신 방법은 구글 검색 API를 통한 외부 데이터 전처리의 일환으로 볼 수 있으며, 실시간으로 획득한 외부 데이터의 사용이 법적으로 허용되고, 해당 데이터를 자유롭게 변경 및 재배포할 수 있는 경우에 한해 규칙에 부합하게 됩니다.

감사합니다.

우성한
2024.02.15 00:55

아 네 그렇군요. 첫줄에서 말씀하신 검색 결과 후에 언어 모델을 거치는 단계가 없는 경우는 규칙에 위배되지만.
검색된 데이터가 법적으로 허용되는 경우, 데이터 전처리로 여길 수 있고, 그 뒷 단계에 반드시 언어모델을 사용한다면 가능하다는 거군요. 알겠습니다. 
그런데 구글에서 검색한 데이터를 어떤 프로그램에 사용할 수 있는지 여부를 어떻게 판단하는지 법률적 지식이 없어서 조금 어렵군요. 한번 고민해보겠습니다. 검색된 데이터를 어떤 알고리즘에 활용하는게 법적인 문제가 있을 수 있는 건지 제가 무지하네요. 인터넷에 다시 게시하는 것이 아닌 한, 저작권 문제에 걸리는 건 아니라고 생각했습니다. 대부분의 구글 검색 결과, 웹 페이지에는 그렇게 프로그램에 활용되는 경우를 명시하지 않지 않나요? 사용하면 안된다고 명시했을 경우만 거르면 되는건지... 고민해보겠습니다. 

이전 글
태양없는 태양팀 - 인터뷰
Competition - 2024 고등학생 AI경진대회 제1회 제주 ❮본선❯
Likes 8
Views 263
Comments 0
9달 전
현재 글
[DACON 답변 요청]추론시 검색결과를 context로 활용하는 알고리즘 가능할까요?
Competition - 도배 하자 질의 응답 처리 : 한솔데코 시즌2 AI 경진대회
Likes 7
Views 1,265
Comments 2
9달 전
다음 글
LLM Inference Baseline on CPU or GPU
Competition - 도배 하자 질의 응답 처리 : 한솔데코 시즌2 AI 경진대회
Likes 11
Views 1,826
Comments 1
9달 전