test source에 pdf 주어지는것 관련의견 - 모두에게 답변가능한 챗봇 vs 관심있는사람을 위한 챗봇

재정정보 생성 AI 활용 검색 알고리즘 경진대회

fvplfvociac

2024.08.20 16:23 2,298 Views

대회가 끝나고 관련 글을 쓸 생각이었는데, 이미 글(test csv파일에 Source 가 주어지는게 맞는건가요...? - DACON)이 나왔으니 한 번 글을 달면 제 의견은 대략 다음과 같습니다.

1 "방대한 양의 재정 데이터가 일반 국민과 전문가 모두에게 쉽게 접근 가능하도록 만드는 것이 목적입니다." => 좁은 의미에서 해석한 경우

이 경우라면 chatgpt처럼 "방대한 양의 재정데이터"를 "모두" 벡터화하고 pred 하는 경우 일 것 같습니다.
이렇게 되면, 아마 train source만 가지고 train 후에 pred를 하라고 했을 듯 합니다.

2 "방대한 양의 재정 데이터가 일반 국민과 전문가 모두에게 쉽게 접근 가능하도록 만드는 것이 목적입니다." => 넓은 의미에서 해석한 경우

현재처럼 방대한 양의 데이터의 일부를 사용자가 선별적으로 가져와서(혹은, 누군가, 또는 챗봇이 추천하여서 pdf 소스를 얻어와서) 묻는 경우라고 할 수 있겠습니다
이게 어떤 경우냐면, 예를 들어 "에너지바우처 사업"을 궁금해하는 국민, 또는 사업자가 있으면, 그 국민이 이 pdf를 업로드한 후, 이에 대한 질문을 대답하는 시나리오입니다.
근데 생각해보면, 이런겁니다. 살면서 에너지바우처 사업을 들어본 사람이 많이 있을까요? 없을겁니다. 어떤 특정 계기가 되어서 에너지 바우처 사업을 안 사람이, 관련 pdf(산업통상자원부_에너지바우처.pdf)를 어떻게든 알게되었는데 숫자는 많이나오고, 법은 많이 나와있고, 근데 하여튼 이해는 해야합니다. 그럴 때 빠른 이해를 돕기 위해서 챗봇이 매개를 하는거죠. 에너지바우처 사업 내용은 뭔지 누가 수혜를 받는 건지, 이런 내용들이요.
이 해석에서는, train의 의미(또는 모델링의 의미는), pdf를 가져왔을 때 잘 대답을 하는 모델링을 해보라는 문제가 됩니다.

3. 그렇다면 1번 의미에서 실제로 서빙 해야하는지, 아니면 2번 의미에서 서빙해야하는지? 이 두 개가 문젠데, 저는 2번이 낫다고 생각합니다. 근거는 다음과 같습니다.

1) 첫번째는, 재정정보는 그 내용이 계속 바뀐다는 점입니다. 재정정보는 자연과학의 절대적이고 고정적인 지식이 아닌, 계속 바뀌는 정보입니다.

만약에 1번의미로 진행하면, 매년, 또는 매 시기마다 현재 openai가 하듯이 데이터들을 처음부터 학습시켜야합니다. 그리고 정부정책도 매 시기마다 바뀌기도해요.
예를들어 지금 상속세 개편이 핫한데, 지금 기준으로 학습하면 현재 개편안이 맞다고 생각하고 학습하고 답을 주겠죠 그런데 바로 연말만 가도 또 내용이 바뀔거에요.
이렇게 되면 대회 방향성은 현재처럼 오픈소스 llm 모델을 가져다와서 쓰는게 아니라, 차라리 재정정보 전용모델을 구축하는 작업이 더 목적적합합니다.(즉 새로운 정보를 얼마나 빨리 학습시킬 수 있는 모델링)

2) 두 번째는, "재정정보 챗봇을 이용하는 사람들은 재정정보에 어느정도 관심이 있는 사람들이다"를 전제로 하지 않을까란 점입니다.

현재 질문들을 보면 사실 문자 그대로 "일반 국민"(초등학생)들이 하는 질문이 아닙니다. 세금이 뭐에요? 예산이 뭔가요? 지방재정이 뭔가요? 이런게 아니라, 상당히 사업이나 정책에 관심히 있어하는 사람들이 질문하는 것처럼 전제로 되어있어요. "에너지 바우처 사업" 존재를 알아야 에너지 바우처 사업에 대해 물어 볼 수 있는 것처럼요.
그렇다면, 그들이 어느정도 관심이 있다면, 그정도 pdf를 구할 노력정돈 하지 않을까? 라는 가정을 하나 깔아볼 수 있고, 이러한 가정하에선 현재 대회가 적절할 수 있습니다.

4. 물론, pdf없이 그냥 질문만 던지면 바로 답을 알려주는 챗봇(1번의미)vs 관심있는 사람이 pdf를 가져다주면 답을 할 수 있는 챗봇 이 두가지에서 뭐가 더 좋은 것이냐?(2번의미)

1번의미는,
물론 당연히 더 효과적입니다. 초등학생부터 교수까지, 그리고 모든 재정정보를 통달하면서 pdf 안구해도 바로 답을주는 챗봇이 사실 존재만 하면 최고죠
하지만 덜 효율적입니다.. 초등학생이 재정정보를 관심 있어야 할지도 모르고, 또 계속 바뀌는 정보를 업데이트도 해야하고, 비용이 더 많이 들어갑니다.
2번의미는,
반대로 덜 효과적입니다. 초등학생은 일단 이용을 하기 어려운게 맞고, 어쨌건 pdf를 가져다줘야한다는 한계가 있으니까요.
하지만 더 효율적입니다. 초등학생이 아닌 정말로 관심 있어하는 사람을 위한 모델이면서, 다 학습할 필요도 없고, 또한 새로운 정보를 직접 가져다줘서 더 정확한 정보를 기대할 수 있으니까요.

5. 회계에서는 이런 개념이 있는데요, 한번 생각해보시면 되겠습니다.

주요 개념들은 다음과 같습니다.
"각 주요 이용자들의 정보 수요 및 욕구는 다르고 상충되기도 한다. 재무회계는 다양한 이해관계자를 대상으로하므로 모든 이해관계자가 공통으로 필요로하는 공통분모를 골라내어 표준화된 방법으로 최대한의 정보를 제공한다."
"재무정보의 보고에는 원가가 소요되고, 정보 보고의 효익이 그 원가를 정당화한다는 것이 중요하다"
"그러나 일반목적재무보고서는 현재 및 잠재적 투자자, 대여자 및 기타 채권자가 필요로 하는 모든 정보를 제공하지는 않으며 제공할 수도 없다. 그 정보이용자들은, 예를 들어, 일반 경제적 상황 및 기대, 정치적 사건과 정치 풍토, 산업 및 기업 전망과 같은 다른 원천에서 입수한 관련 정보를 고려할 필요가 있다."
"재무보고서는 사업활동과 경제활동에 대해 합리적인 지식이 있고, 부지런히 정보를 검토하고 분석하는 정보이용자를 위해 작성된다. 때로는 박식하고 부지런한 정보이용자도 복잡한 경제적 현상에 대한 정보를 이해하기 위해 자문가의 도움을 받는 것이 필요할 수 있다."
위 개념에서 주는 의의는,
1) 재무정보는 모두를 완벽히 이해시킬 수 없고, 모두에게 가장 필요한 정보를 개별적으로 제공하긴 어려워서 공통분모를 최대한 제공해야하고
2) 재무정보를 작성하고 제공하는 경우 그 비용보다 효익이 더 커야하며
3) 그리고 재무정보 이용자 또한 어느정도 지식, 그리고 관심이 있는 것을 전제로한다

제 개인적인 의견입니다.

6 Comments

comment

0 / 1000

다냐니라

2024.08.20 16:54

이런 특수한 경우에는 보편적인 구성하는게 안 좋겠네요. 감사합니다. 잘 읽었습니다!

fvplfvociac

2024.08.20 17:35

참고로, 여기서 "재무정보"와 "재정정보"는 정확히 같은 건 아닙니다. 5번의 내용은 "재무보고를 위한 개념체계"라는 회계(학)에서 얘기하는 재무정보이고, 대회에서 사용되는 재정정보는 정확히 정의하긴 어렵지만 재무정보랑 완전히 같은건 아닙니다. 재정정보가 훨씬 더 큰개념이지만, 서로 차집합이 있습니다. 재무정보는 정부 + 기업을 위해 쓰일 수 있고, 재정정보는 기본적으론 정부의 정보이지만, 재정정보의 일부로 정부의 재무정보도 포함될 수 있습니다. 재무보고는 정부도 할 수 있거든요(정부회계로서)

따라서

A. 재무정보 & 정부(또는 공공기관, 공기업 등)의 정보 => 재무정보이면서 재정정보
B. 비재무정보 & 정부(또는 공공기관, 공기업 등)의 정보 => 비재무정보이면서 재정정보

C. 재무정보 & 기업의 정보 => 재무정보이면서 비재정정보

whybe

2024.08.21 16:14

문서에서 다루는 내용 자체가 대회처럼 명확하게 구분된다면, 지금은 소스 형태로 데이터에 포함되어 있지만 향후 라우팅 등의 방식으로 사용자의 질문에 맞는 백터 db를 맵핑하여 참고하는 방식을 사용하지 않을까 싶습니다!

fvplfvociac

2024.08.21 17:15

참고로 지금 대회의 방식은 정확히는 Document based Question Answering의 방식이긴합니다

whybe

2024.08.21 18:04

제가 말씀드린 것도 본질적으로는 document-based QA입니다! 다만 챗봇을 이용하는 사람이 pdf를 3-2처럼 직접 업로드하는 방식이 아니라 챗봇을 운영하는 측에서 사전에 여러 pdf에 대한 vector db를 구축해두고, 이용자의 질문에 따라 이를 라우팅하여 질문에 따라 서로 다른 vector db를 사용하는 방식으로 운영되지 않을까 하는 말씀이었습니다:) 대회에서는 데이터 안에 소스를 명시해둠으로써 라우팅을 할 필요없이 이를 활용하면 됐지만, 향후 서비스 측면에서는 질문의 소스를 파악하기가 어렵기 때문에 라우팅을 도입하여 이를 보완하는 방식으로 활용될 거 같다는 제 사견입니다ㅎㅎㅎ

fvplfvociac

2024.08.21 19:14

맞습니다 이와 관련해서는 대회 끝나고 제가 의견 달겠습니다..! 실제 서빙관점에서는 그 vector db를 사전에 구축해놓을건지, 사전에 구축해놓는다면 질문에서 어떻게 최대한 근거 소스를 찾아낼 건지(어떻게 mapping 또는 matching할건지) 그것도 중요한 문제라 생각합니다 그런데 이걸 지금 더 깊게 얘기하면 다른 분들 스코어와도 연관이 있을 수도 있어서(없을 수도 있구요), 대회 끝나고 달겠습니다

📣 The comment input field has been moved to the top of the comment list!

List

Pseudo Labeling 가능한가요?

Competition - FSI AIxData Challenge 2024 : 생성 AI

Current

test source에 pdf 주어지는것 관련의견 - 모두에게 답변가능한 챗봇 vs 관심있는사람을 위한 챗봇

Competition - 재정정보 생성 AI 활용 검색 알고리즘 경진대회

Likes 12