Text to Speech

 

소개

Text to Speech (TTS, 음성 합성) 서비스는 텍스트를 오디오 데이터로 바꿔주는 서비스입니다.

즉, TTS 서비스는 입력된 텍스트를 문장, 단어, 음소 순으로 나누고 나눠진 문자들을 음성 신호로 변환, 조합하여 오디오 데이터를 만듭니다.

 

TTS 엔진의 동작 과정

TTS 엔진의 동작 순서

 

LG AI Platform에서 제공하는 TTS 서비스는 다음과 같은 특징을 가지고 있습니다.

TTS 엔진의 특징
특징 설명
뛰어난 문자 분석

사용자가 입력한 문자열의 발음, 음절, 어절, 앞뒤 문장 정보, 품사 등을 고려하여 문자를 분석합니다.

음성 합성

오디오 신호를 인공 신경망 기술 기반으로 학습하고 복원하여 Vocoder를 통해 음성 데이터를 생성합니다. 
LSTM (Long Short-Term Memory)와 RNN (Recurrent Neural Network) 기반으로 음성을 합성합니다.

빠른 응답 시간

사용자가 문자열을 입력하는 즉시 오디오 데이터가 생성되어 응답 시간이 빠릅니다.

자연스러운 음성

최신 딥러닝 기술을 적용하여 실제 사람 목소리처럼 자연스러운 음성을 제공합니다.

다국어 지원

한국어, 영어

음원 성별 선택

사용자의 취향에 맞게 음원의 성별을 선택할 수 있습니다.

음원 속도 조절

음원의 속도를 5단계로 조절할 수 있습니다.

음원 높낮이 조절

사용자의 취향에 맞게 음원의 높낮이를 조절할 수 있습니다.

볼륨 제어

볼륨을 10단계로 조절할 수 있습니다.

음향 효과

사용자의 취향에 맞게 음원에 Robotization, Echo 효과를 줄 수 있습니다.

 

구조

TTS 서비스의 모든 기능은 서버에서 동작합니다. TTS 서비스는 텍스트와 JSON 데이터를 입력값으로 받고 오디오 데이터를 생성하여 출력합니다.

 

TTS 엔진 아키텍쳐

 

활용하기

TTS 서비스는 음성 기반의 서비스가 필요한 다양한 분야에서 활용할 수 있습니다. 이 외에도 시각 장애인을 위한 음성 해설, 오디오 북, 음성 오디오를 재생하는 모든 애플리케이션에서 사용할 수 있습니다.

 

  • 운전 중 Voice Agent 서비스

: 운전 중인 사용자에게 문자 내용을 읽어주는 서비스를 제공할 수 있습니다.

운전자를 위해 문자를 읽어주는 Q보이스

  • 가전제품에서의 음성 피드백

: 냉장고에 TTS 서비스를 탑재하여 요리 레시피를 읽어주는 서비스를 제공할 수 있습니다.

요리 레시피를 읽어주는 냉장고

  • 내비게이션 음성 서비스

: 내비게이션에 입력한 목적지와 방향을 읽어주는 차량용 내비게이션 서비스에 적용할 수 있습니다.

운전자에게 목적지와 방향을 읽어주는 네비게이션