Text to Speech
소개
Text to Speech (TTS, 음성 합성) 서비스는 텍스트를 오디오 데이터로 바꿔주는 서비스입니다.
즉, TTS 서비스는 입력된 텍스트를 문장, 단어, 음소 순으로 나누고 나눠진 문자들을 음성 신호로 변환, 조합하여 오디오 데이터를 만듭니다.
LG AI Platform에서 제공하는 TTS 서비스는 다음과 같은 특징을 가지고 있습니다.
특징 | 설명 |
---|---|
뛰어난 문자 분석 |
사용자가 입력한 문자열의 발음, 음절, 어절, 앞뒤 문장 정보, 품사 등을 고려하여 문자를 분석합니다. |
음성 합성 |
오디오 신호를 인공 신경망 기술 기반으로 학습하고 복원하여 Vocoder를 통해 음성 데이터를 생성합니다. |
빠른 응답 시간 |
사용자가 문자열을 입력하는 즉시 오디오 데이터가 생성되어 응답 시간이 빠릅니다. |
자연스러운 음성 |
최신 딥러닝 기술을 적용하여 실제 사람 목소리처럼 자연스러운 음성을 제공합니다. |
다국어 지원 |
한국어, 영어 |
음원 성별 선택 |
사용자의 취향에 맞게 음원의 성별을 선택할 수 있습니다. |
음원 속도 조절 |
음원의 속도를 5단계로 조절할 수 있습니다. |
음원 높낮이 조절 |
사용자의 취향에 맞게 음원의 높낮이를 조절할 수 있습니다. |
볼륨 제어 |
볼륨을 10단계로 조절할 수 있습니다. |
음향 효과 |
사용자의 취향에 맞게 음원에 Robotization, Echo 효과를 줄 수 있습니다. |
구조
TTS 서비스의 모든 기능은 서버에서 동작합니다. TTS 서비스는 텍스트와 JSON 데이터를 입력값으로 받고 오디오 데이터를 생성하여 출력합니다.
활용하기
TTS 서비스는 음성 기반의 서비스가 필요한 다양한 분야에서 활용할 수 있습니다. 이 외에도 시각 장애인을 위한 음성 해설, 오디오 북, 음성 오디오를 재생하는 모든 애플리케이션에서 사용할 수 있습니다.
- 운전 중 Voice Agent 서비스
: 운전 중인 사용자에게 문자 내용을 읽어주는 서비스를 제공할 수 있습니다.
- 가전제품에서의 음성 피드백
: 냉장고에 TTS 서비스를 탑재하여 요리 레시피를 읽어주는 서비스를 제공할 수 있습니다.
- 내비게이션 음성 서비스
: 내비게이션에 입력한 목적지와 방향을 읽어주는 차량용 내비게이션 서비스에 적용할 수 있습니다.