Text to Speech

소개

Text to Speech (TTS, 음성 합성) 서비스는 텍스트를 오디오 데이터로 바꿔주는 서비스입니다.

즉, TTS 서비스는 입력된 텍스트를 문장, 단어, 음소 순으로 나누고 나눠진 문자들을 음성 신호로 변환, 조합하여 오디오 데이터를 만듭니다.

TTS 엔진의 동작 과정

TTS 엔진의 동작 순서

LG AI Platform에서 제공하는 TTS 서비스는 다음과 같은 특징을 가지고 있습니다.

TTS 엔진의 특징
특징	설명
뛰어난 문자 분석	사용자가 입력한 문자열의 발음, 음절, 어절, 앞뒤 문장 정보, 품사 등을 고려하여 문자를 분석합니다.
음성 합성	오디오 신호를 인공 신경망 기술 기반으로 학습하고 복원하여 Vocoder를 통해 음성 데이터를 생성합니다. LSTM (Long Short-Term Memory)와 RNN (Recurrent Neural Network) 기반으로 음성을 합성합니다.
빠른 응답 시간	사용자가 문자열을 입력하는 즉시 오디오 데이터가 생성되어 응답 시간이 빠릅니다.
자연스러운 음성	최신 딥러닝 기술을 적용하여 실제 사람 목소리처럼 자연스러운 음성을 제공합니다.
다국어 지원	한국어, 영어
음원 성별 선택	사용자의 취향에 맞게 음원의 성별을 선택할 수 있습니다.
음원 속도 조절	음원의 속도를 5단계로 조절할 수 있습니다.
음원 높낮이 조절	사용자의 취향에 맞게 음원의 높낮이를 조절할 수 있습니다.
볼륨 제어	볼륨을 10단계로 조절할 수 있습니다.
음향 효과	사용자의 취향에 맞게 음원에 Robotization, Echo 효과를 줄 수 있습니다.