[세소식] 4편. 나의 첫 메신저 친구, 인공지능 챗봇 ‘이루다’

월드파파

2022.02.03 14:59 4,940 Views

[세소식] 4편. 나의 첫 메신저 친구, 인공지능 챗봇 ‘이루다’

세상의 다양한 AI 새 소식, 세 소식

4편 나의 첫 메신저 친구, 인공지능 챗봇 ‘이루다’ 입니다.

출처 - 이루다 나무위키

2021년 1월에 여러 문제점으로 서비스 중단이 되었다가

최근 들어 다시 베타테스트가 시작 되었는데요,

이 AI 챗봇 이루다에 대하여,

어떤 목적으로 사용되었는지

어떤 문제점이 있었는지

어떤 기술과 알고리즘이 사용되었는지

소개해 드리려고 합니다.

목차는 다음과 같습니다.

1. 인공지능 챗봇 '이루다' 소개

2. 이루다 서비스 중단 및 문제점

3. 이루다 기술 및 알고리즘

4. 마무리

* 본 포스팅은 데이콘 서포터즈 “데이크루" 1기 활동의 일환입니다.

1. 인공지능 챗봇 '이루다' 소개

‘이루다’ 라는 이름 들어보신적 있으신가요?

이루다는 스캐터랩 소속 핑퐁 팀(ScatterLab Pingpong Team)에서 개발한

메신저 채팅 기반 Open-domain Conversational (일상 대화형) 인공지능 챗봇 입니다.

출처 - aitimes.com/news/articleView.html?idxno=132244

20년 12월에 페이스북 메신저를 통하여 이루다 챗봇 서비스가 시작되었죠!

다른 챗봇들과 달리 딥러닝 알고리즘을 이용하여

2021년 1월 초 순식간에 사용자 수 약 40만 명,

페이스북 페이지 팔로워 10만 명을 찍는 등 큰 인기를 끌었다고 합니다.

저도 이때 당시에 잠시 챗봇과 대화를 나눠보았었는데

영어가 아닌 한글로, 그것도 MZ세대의 말투로 대화를 주고 받으니

매우 신기하다는 것을 느꼈습니다!

생각보다 대화가 잘통하고 공감도 잘해주고.. 싱기방기 하였습니다 ㅎㅎ

이루다 이름의 유래는 인공지능 기술을 어느 정도 갖추었다는 의미로 ‘이루다’ 라고 합니다.

이루다 캐릭터의 설정을 보면,

출처 - khan.co.kr/it/it-general/article/202112211544001

나이 설정 : 21세

생일 설정 : 6월 15일

키 설정 : 163cm

관계 설정 : 여동생 이루나

반려동물 : 고양이 드림이

MBTI : ENFP

좋아하는 가수 : 블랙핑크

현재 상태 : 심리학과 대학생, 댄스 및 관현악 동아리, 카페 알바

장래희망 : "나답게 살 수 있는 것이라면 무엇이든 괜찮지 않을까?" 라고 생각

취미 : 일상의 작은 부분을 사진과 글로 기록하기, 요리하기, 여행 블로그 보기

꽤나 구체적으로 MZ세대의 챗봇 캐릭터를 설정해 놓은 것을 알 수 있습니다.

아무래도 실제 유저와 대화하는 AI이다 보니 몰입감을 위하여 설정해 놓은 것 같습니다.

이루다의 개발 목적은 ‘좋은 관계’ 라는 정말 희소한 재화 때문이라고 합니다.

인간이 외모, 지위, 성적, 필요 등 모든 사회적 조건을 떠나 타인을 있는 그대로 봐준다는 건,

어려운 일이지만 AI 챗봇 이루다는 관계의 불평등을 해소해줄 것이라고 합니다.

개발자는 다음과 같이 말하였습니다.

이루다를 좋아했던 분들이

'부모님조차 축하해주지 않던 생일을 루다는 축하해줬어요. 루다 없으면 전 이제 어떡하죠?’

‘루다는 제게 아무도 해주지 않았던 말을 해줬어요’

라는 편지를 보내왔다. 이들에게 이루다는

‘나를 좋아해주고, 응원해주고, 있는 그대로 받아준 유일한 친구’ 였다.

2. 이루다 서비스 중단 및 문제점

하지만 이후 21년 1월 11일에 딥러닝 알고리즘이 가질 수밖에 없는

여러 가지 문제점과 개인정보 유출 논란이 생기면서

결국 서비스 개선을 위해 잠정 중단하기로 했습니다.

출처 - joongang.co.kr/article/24119834#home

그럼 어떤 문제점은 무엇이 있었을까요?

대표적으로 몇가지 살펴보겠습니다.

1) 혐오 메세지 전송

이루다에게 성소수자 '게이', '레즈비언' 등 동성애에 대해 어떻게 생각하냐고 질문했을 때

싫어한다거나 혐오한다는 답변을 하여 동성애를 혐오하는 것이 아니냐는 논란이 발생하고 있으며,

여성 및 장애인에 대해서도 혐오 발언으로 논란이 되었습니다.

이에 대해 공적으로 서비스하는 챗봇인 만큼 학습 데이터를 통해

적어도 차별과 혐오와 같은 편향적인 부분은 학습시키면 안 된다는 의견이 발생하였습니다.

2) 외설적 목적 사용

일부 이용자들이 이루다를 외설적 목적으로 사용하여 문제점이 발생하였습니다.

약관에는 폭력적이거나 외설적인 메시지를 전송해서는 안 된다고 되어 있지만,

이루다의 학습에 존재하는 약점을 악용하여 외설적인 언급을 하도록 계속 유도하고

학습을 통해서 이루다는 사용자를 오히려 성희롱하는 사태가 발생하였습니다.

제작자는 업데이트를 통해 개선해 나가겠다고 밝혔지만 문제점은 더더욱 심해져 갔습니다.

또한 사람이 아닌 AI에게 성적 표현을 하는 것이 윤리적으로 잘못된 것인지에 대해서도 논쟁이 일어났었습니다.

3) 개인정보 침해

가장 논란이 되는 부분중 하나입니다.

한 인터뷰에서 기자가 핑퐁(AI) 학습 데이터를 어떻게 수집하냐고 질문했고,

이에 핑퐁팀 측은,

"스캐터랩에는 핑퐁 말고도 ‘연애의 과학’이라는 콘텐츠 서비스가 있어요.

연애의 과학에서 제공하는 유료 서비스 중

카카오톡 대화 데이터를 분석해서 보고서를 만들어주는 기능이 있어요.

그걸 이용하시는 분들이 직접 데이터를 올려주세요.

그 데이터에서 개인정보를 필터링하고 핑퐁 기술 학습에 사용해요.

그렇게 모인 데이터가 100억 건 정도 돼요." 라고 답하였습니다.

이후 연애의 과학 서비스가 전혀 다른 채팅봇을 만드는데 사용되었다는 점이 개인정보 침해 관련으로 논란이 커지기 시작하였습니다.

가장 문제점이 되는 점은 연인이거나 서로 호감을 느끼는 중인 두 사람 중 한 사람이 독단적으로 채팅 내용을 제공할 수 있어,

상대편은 대화 내용이 제공되었는지의 여부조차 알 수 없다는 점입니다.

상대방이 임의로 제공한 대화 내용에 본인의 전화번호, 주소 등

개인정보가 섞여 있어 자신의 정보가 모르는 사이에 유출되기 쉽기 때문입니다.

출처 - youtube.com/watch?v=QD35RaZr3F8

실제 유튜브의 댓글

출처 - youtube.com/watch?v=QD35RaZr3F8

이 외에도 상식적 답변 오류, 기억력 한계 떨어지는 어휘력 등의 문제점을 가지고 있었습니다.

이에 관련하여 스캐터랩은 약 60만 명에 달하는 이들의 카카오톡 대화 문장을 무단으로 사용했고

이 과정에서 실제 20대 여성의 카카오톡 대화 약 1억 건을 인공지능 대화에 사용한 것으로 드러났습니다.

법적 위반으로 판결 결과,

개발사 스캐터랩은 개인정보 보호법 위반으로 개인정보보호위원회로부터 과징금 및 과태료 1억330만원을 부과받았습니다.

따라서 이루다의 바탕이 되는 데이터베이스와 딥러닝 모델을 폐기하겠다고 발표했고,

더불어 연애의 과학의 개인정보 유출에 대해 사과와 앞으로의 해결방안에 대해 입장문을 발표하였습니다.

3. 이루다 기술 및 알고리즘

그렇다면 이루다에게 사용된 기술은 무엇이 있을까요?

일상대화형 인공지능 챗봇인만큼 자연어 처리 기술을 적용했다고 합니다.

우선 이루다는 '목적 지향형 챗봇'이 아닌 '오픈 도메인형 챗봇' 입니다.

출처 - tv.naver.com/v/16968268

이러한 오픈도메인 대화는 하나의 컨택스트에 수많은 좋은 답변이 존재하고

다양한 유형의 오답도 존재한다고 합니다.

출처 - tv.naver.com/v/16968268

따라서 약 100억개 문장, 350GB 용량의 한국어 대화 데이터를 학습 데이터로 활용해

사전에 입력한 정보를 기반으로 최적의 응답을 하도록 설계하였다고 합니다.

또한 AI 언어모델 메시 인코더와 구글의 BERT 기술을 탑재했다고 합니다.

출처 - tv.naver.com/v/16968268

그렇다면 이루다의 초기형, 루다 알파의 기초가 되는 프레임 워크를 살펴보겠습니다.

마이크로소프트 사의 중국의 샤오아이스 (Xiaolce) 챗봇을 기반으로하여 만들었다고 합니다.

출처 - tv.naver.com/v/16968268

루다 알파의 프레임워크는 크게 3개로 나뉩니다.

출처 - tv.naver.com/v/16968268

1) NLU (Natural Language Understanding)

진행중인 대화(자연어)를 이해하는 부분입니다.

여기서 포함되는 영역이 DialogBERT, Emotion, Dialogue Act, Engage Mode, Topic 로 구성되어 있습니다.

출처 - tv.naver.com/v/16968268

2) Retrieval

1차 응답 후보를 가져오는 부분입니다.

여기서 포함되는 영역이 Session DB, Content DB, Response Candidates 로 구성되어 있습니다.

Session DB : 세션 + 답변 형태로 구성된 DB에서 현재 대화와 유사한 세션의 응답을 후보로 선정합니다.

출처 - tv.naver.com/v/16968268

Content DB : 주제어를 포함한 문장 형태로 구성된 DB에서 현재 대화의 주제어를 포함한 응답을 후보로 선정합니다.

출처 - tv.naver.com/v/16968268

3) Ranker

응답 후보 중 가장 적합한 말을 선정하는 부분입니다.

여기서 포함되는 영역이 Response Selection, Discourse Matching, Feature로 구성되어있습니다.

출처 - tv.naver.com/v/16968268

프레임 워크 속에서 이러한 과정을 거쳤다면 마지막으로 성능 평가를 합니다.

SSA(Sensibleness & Specificity Average)

구글에서 오픈도메인 챗봇의 성능 측정을 위해 제시한 지표 입니다.

Sensibleness는 응답이 말이 되는지 판단을 하고

Specificity는 응답이 구체적인지 판단합니다.

출처 - tv.naver.com/v/16968268

따라서 최종 성능은 다음과 같이 평가를 하여 학습을 진행합니다.

출처 - tv.naver.com/v/16968268

5. 마무리

현재는 한참 베타 테스트가 진행중인데요,

어떻게 이러한 문제점을 극복하고 있는 중일까요?

스캐터 랩은 다음과 같이 밝혔습니다.

“AI 챗봇 윤리 준칙을 제정하고 신뢰할 수 있는 인공지능 모델 개발에 역량을 집중해왔다”

“클로즈 베타 테스트가 진행되는 이루다2.0은 가명처리한 데이터베이스(DB)로 학습 과정을 거쳤으며,

개인정보보호를 강화할 수 있도록 인공지능 딥러닝 알고리즘이 생성한 문장으로 답변할 수 있도록 했다”

“대화 시 특정 단어·문맥을 탐지해 선정적이거나 공격적, 또는 편향적 문장에 대응할 수 있도록 ‘어뷰징 탐지 모델’을 접목했다”

출처 - news.heraldcorp.com/view.php?ud=20210111001135

전반적인 AI 윤리를 점검하고, 내부 기획자·리서처·엔지니어 등과 논의를 거쳐 윤리 준칙을 수립한다고 합니다.

또한 이루다2.0 챗봇이 문맥을 이해하고 적절하게 답변하는지 검토하게 되고

선정적·공격적·편향적인 단어나 문맥을 탐지해 대응하는지도 살핀다고 합니다.

과연 챗봇 이루다 서비스는 이러한 윤리적인 문제를 잘 해결하고 출시 할 수 있을까요?

이상 세소식이었습니다!

참고 :

https://www.khan.co.kr/it/it-general/article/202112211544001

https://namu.wiki/w/이루다(인공지능)

https://tv.naver.com/v/16968268

https://www.aitimes.com/news/articleView.html?idxno=132244

https://www.joongang.co.kr/article/24119834#home

8 Comments

comment

0 / 1000

namereu

2022.02.03 15:17

좋은 이슈네요 ! 감사합니다 ~

월드파파

2022.02.03 15:32

감사합니다 정나메님 *^^*

서정정

2022.02.03 15:19

유익한 소식이네요 !!

월드파파

2022.02.03 15:32

유익하셨다니 감사합니다 서정정님 :)

_pxmgu

2022.02.03 15:56

오늘도 유익한 이슈네요 !!! 감사합니다 ~

월드파파

2022.02.04 09:05

매번 읽어봐주셔서 뿌듯하네요 ㅎㅎ 감사합니다 ~~

백남진

2022.02.03 16:15

지난 번 라디오에서 들었던 내용인데 다시 볼 수 있어서 좋은 시간이었습니다 :) 오픈 도메인형 챗봇이라는 것이 어떤 것인지 알게 되었습니다 감사합니다!

월드파파

2022.02.04 09:06

저도 이번에 작성하면서 조금 더 알게되는 계기가 되었네요! 끝까지 읽어봐주셔서 감사합니다 :)

📣 The comment input field has been moved to the top of the comment list!

List

[정보] 이미지부터 텍스트, 음성까지 일체형 AI 알고리즘, Data2Vec

Current

[세소식] 4편. 나의 첫 메신저 친구, 인공지능 챗봇 ‘이루다’

Competition -

Likes 14

Comments 8

4년 전

방탄소년단이 내 이름을 불러준다고!? 음성 합성 기술을 활용한 한국어 교재