시리(Siri)에 적용된 음성 인식 기술은 무엇일까요?

2022.02.06 17:52 3,544 Views

안녕하세요, 데이크루 1기로 활동 중인 '므인'입니다.

아이폰 유저라면 모두가 알고 있는 내 손안에 개인비서 시리(Siri)에 적용된 음성 인식 서비스에 대해 소개하고자 합니다.


"시리야~"라고 부르면 인식하여 응답하는 이 서비스는 2011년 애플에서 출시한 음성 기반 개인비서 서비스입니다.

이를 시작으로 해외 뿐만 아니라 많은 국내 기업에서 음성 기반 서비스를 출시하며 많은 사람들의 관심 속에 성장하였습니다.


많은 제품들 속에서 음성 인식 기술을 만나보실 수 있는데요, 이 기술에 대해 간단하게 정리해보겠습니다.



음성 인식 기술

컴퓨터가 마이크와 같은 소리 센서를 통해 얻은 음향학적 신호(acoustic speech signal)단어나 문장으로 변환시키는 기술을 말합니다.


이 기술에는 크게 3가지 과정이 있습니다.

  1. STT (speech-to-text) 기술
  2. NLP 기술
  3. TTS (text-to-speech) 기술



STT (speech-to-text) 기술

사용자의 음성을 텍스트로 변환하는 기술입니다.

주변 소음에서 원하는 소리를 파악하고 발음과 단어를 인식하여 컴퓨터가 이해할 수 있도록 텍스트로 변환해야 합니다.



NLP 기술

Natural Language Processing 즉, 자연어 처리 기술을 말하며 인공지능의 기술 중 하나입니다.

자연어는 사람이 의사 소통을 위해 사용하는 언어이며, 자연어 처리는 컴퓨터가 자연어를 이해하고 처리하는 기술입니다.


자연어를 처리하는 과정 중 핵심적인 4가지 과정이 있습니다.

  1. 형태소 분석(Morphological Analysis)
  2. 구문 분석(Syntactic Analysis)
  3. 의미 분석(Semantic Analysis)
  4. 화용 분석(Pragmatic Analysis)



형태소 분석(Morphological Analysis)

음성인식의 결과로 입력된 문자열을 정규문법, 사전정보, 결합 정도 등을 이용하여 최소 의미 단위인 형태소로 분리하고, 원형 복원, 품사 인식 등의 과정을 수행합니다.



구문 분석(Syntactic Analysis)

형태소가 결합된 문장이나 구절을 만드는 규칙인 동사(Syntax)를 구조적으로 분석합니다.


이 단계에서는 두가지 과정을 수행합니다.

  • 입력 문장에 대한 문법 구조를 분석하여 구문 트리를 생성합니다.
  • 문장이 문법적으로 옳은가를 판단합니다.



의미 분석(Semantic Analysis)

동사분석 결과를 해석하여 문장이 가진 의미를 분석합니다.

또한, 동형이의어, 동음이의어, 다의어의 의미를 정확히 파악하여 문장 전체의 의미를 파악합니다.


이 단계에서 두가지 과정을 수행합니다.

  • 문장이 의미적으로 옳은가를 판단합니다.
  • 문장 내 단어의 중의성 해소, 생략된 표현이나 대명사 등이 무엇을 의미하는지 파악합니다.



화용 분석(Pragmatic Analysis)

언어의 사용에 관련된 지식을 통해 문장을 해석하여 화자의 의도를 파악합니다.

즉, 문맥을 통해 문장의 의미를 파악하는 과정입니다.



TTS (text-to-speech) 기술

앞선 과정을 통해 도출된 인식 결과를 텍스트에서 오디오로 변환하여 사람의 말소리처럼 응답하게 만드는 과정입니다.



이렇게 음성 인식 기술에 대해 간단하게 정리해보았습니다.

앞으로 더 다양한 정보와 소식을 전달하도록 하겠습니다~!!~!

감사합니다. :D


+ 본 포스팅은 데이콘 서포터즈 “데이크루" 1기 활동의 일환입니다.



[참고]

https://marketingscribbler.tistory.com/4

https://brunch.co.kr/@mobiinside/2101

http://www.kpvoice.com/page/sub2_1_4