방탄소년단이 내 이름을 불러준다고!? 음성 합성 기술을 활용한 한국어 교재

2022.02.03 19:26 2,716 Views

본 포스팅은 데이콘 서포터즈 “데이크루" 1기 활동의 일환입니다.


아이돌을 모르는 사람이라도, 한국인이라면 ‘방탄소년단’은 다들 들어보신 적 있을 것입니다.

방탄소년단의 인기가 한국을 넘어 전세계로 확장됨에 따라 한국에 대한 인기와 관심도 날로 늘어가고 있습니다.

전 세계의 수많은 방탄소년단 팬들은 그들의 가수의 모국에 관심을 가지고 방탄소년단과 소통하기 위해 한국어를 배우려 하죠..!

이에 따라 하이브 엔터테인먼트(구 빅히트)는 2020년 8월 한국어 학습 교재 '방탄소년단과 함께 한글을 배워요(Learn! KOREAN with BTS)'를 출시했습니다.

이는 전 세계 BTS 팬들이 한글을 쉽게 배울 수 있게 하기 위해서였는데요. 약 8개월간 30개 나라에서 30만권이 판매됐습니다.

이렇게 첫 한국어 교재의 성공에 힘을 얻은 하이브가 두 번째 교재를 출시했습니다.

이름은 '타이니탄과 함께 한글을 배워요(Learn! KOREAN with TinyTAN)'인데요,

방탄소년단의 만화 캐릭터인 타이니탄(tiny + BANGTAN)을 활용한 한국어 입문용 교재 패키지입니다.

https://www.sedaily.com/NewsVIew/22MHHZFHNY


이 두번째 교재의 주목한 말한 점은 인공지능 기술이 접목되었다는 것입니다.


구체적으로, 인공지능(AI) 음성 개발 스타트업 '네오사피엔스'가 하이브의 교육콘텐츠 전담팀 ‘하이브 에듀’와 함께

방탄소년단(BTS)의 음성으로 한국어를 공부하는 컨텐츠를 만들어냈습니다.

네오사피엔스는 사람의 음성을 복제하여 자유자재로 구현해내는 음성 복제, 복제한 음성에 감정 표현을 녹여내는 음성 합성 및 교차 언어 구현

AI 음성 합성 기술로 알려져 있는 기업으로, 현재 100여 개가 넘는 목소리 캐릭터를 제공하는 AI 성우 서비스 ‘타입캐스트(Typecast)’를 운영 중입니다.


네오사피엔스의 음성합성기술(https://neosapience.com/our-tech)


교재 구성품에는 모티펜(Motipen)이라는 소리펜이 포함되어 있는데  모티펜은 광학 센서로 글씨나 이미지를 인식해 소리를 출력하는 도구로,

교재 내 글씨나 이미지에 펜을 가져다 대면 한국어, 영어, 일본어 등으로 읽어주는 기능을 합니다.

가장 눈여겨볼 점은 이 소리펜에서 'BTS 멤버들의 목소리가 나온다는 것'입니다.

첫 교재에서도 BTS 목소리가 나왔지만 이는 멤버들을 상대로 일일이 녹음을 하여 소리를 담은 것이 었습니다.

반면 두번째 교재에서는 BTS의 디지털 콘텐츠에서 나온 멤버 목소리로 인공지능을 약 7개월간 학습시킨 뒤 이를 소리펜에 담았습니다.

교재에 들어있는 카드의 QR 코드를 스캔한 뒤 자신의 이름을 입력하면 이후부터는 소리펜인 모티펜이 이름을 불러줍니다.

학습자 이름과 멤버별로 사전 지정된 응원 문구를 조합해 텍스트를 음성으로 변환하는 기술(TTS·Text to Speech)을 활용하여,

사용자가 좋아하는 멤버를 지정하면 사용자의 이름과 함께 멤버별로 응원 메시지를 들려줍니다.


이는 인공지능 기술을 이용하여 가능하게 된 일입니다.

음성 합성 기술은 영어로 TTS, Text to Speech라고 불려지는데 직역 그대로 '텍스트를 사람의 음성으로 자연스럽게 읽어주는 기술'입니다.

버스 정류장에서 나오는 안내 음성, 키오스크의 주문 안내 음성 등, 실제로 사람이 녹음한 것이 아닌 음성 합성 기술으로 구현해낸 목소리입니다.

이렇게 우리 주변의 다양한 부분에서 합성된 음성이 도입되고 있습니다.


현재는 딥러닝을 통해 음성 합성을 구현할 수 있는데, 음성 합성에서의 딥러닝 모델은 입력과 출력 구조로 되어 있습니다.

구체적으로, 음성 신호에서 텍스트 전처리를 통해 언어적 특징벡터를 추출한 후 이 값을 ‘입력’으로 합니다.

그리고 음성 신호의 보코더(Vocoder) 파라미터를 ‘출력’으로 학습합니다.


딥러닝을 통한 음성 학습의 과정입니다.

 

https://blog.ncsoft.com/게임과-ai-5-음성-


딥러닝을 통해 고품질의 음성 합성이 가능해졌는데,

이는 입력과 출력 사이의 비선형(Non-Linear)적인 관계를 수많은 뉴런 모델들이 자동으로 발견하고 학습하기 때문입니다.

딥러닝 이전의 기존 음성 합성 방식에서는 발성 기관 구조 및 원리의 이해와 문자에서 발음 표기로 변환하는 언어적 지식,

음성 스펙트럼의 세부적인 특성 등, 다양한 음성학, 음운론, 음성 신호처리 관련 지식이 필요했습니다.

하지만 딥러닝 기술 기반에서는 입력과 출력 데이터만 있으면 됩니다.

인공지능의 모델이 자동으로 중간 과정을 찾아서 모델링하고 모델값을 저장해 음성을 바로 합성해주는 것이죠.


이러한 오디오 개인화 서비스를 통한 합성 음원은 충분한 학습을 통해 방탄소년단 멤버의 실제 음성에 가깝게 구현되었습니다.   

사용자들에게 직접 이름을 불러주며 응원 메세지를 들려줌으로써 사용자들이 한국어 공부에 더 흥미를 갖고 지속할 수 있게 된 것이죠.

저는 영어 공부하는 걸 굉장히 싫어하는데 제가 좋아하는 아티스트가 제 이름을 불러주면 .. 공부 의지가 생길 것 같아요.


인공지능이 날이 갈수록 발전하고, 이제는 목소리조차 복제하고 구현해낼 수 있습니다!

이런 서비스가 교육이라는 분야에서 활성화되니 정말 긍정적인 영향을 미치는 것 같네요.







https://www.sedaily.com/NewsVIew/22MHHZFHNY
https://www.hankyung.com/it/article/202104273321i
https://www.epnc.co.kr/news/articleView.html?idxno=93221
https://blog.ncsoft.com/%EA%B2%8C%EC%9E%84%EA%B3%BC-ai-5-%EC%9D%8C%EC%84%B1-%ED%95%A9%EC%84%B1-%EA%B8%B0%EC%88%A0/