Emotion Text to Speech

 

소개

Emotion Text to Speech (ETTS, 감성 음성 합성)는 텍스트와 감성 값을 오디오 데이터로 바꿔주는 서비스입니다.

 

ETTS 엔진

 

LG AI Platform에서 제공하는 ETTS 서비스는 다음과 같은 특징을 가지고 있습니다.

ETTS 엔진 특징
특징 설명
뛰어난 문자 분석

사용자가 입력한 문자열의 발음, 음절, 어절, 앞뒤 문장 정보, 품사 등을 고려하여 문자를 분석합니다.

음성 합성

인공 신경망 기술 기반으로 말과 글을 학습하고 주어진 글에 따라 의미를 추론하여 음성을 생성합니다. (Sequence to Sequence 모델 기반)

즉각적인 응답 시간

사용자가 문자열을 입력하는 즉시 오디오 데이터가 생성되어 응답 시간이 빠릅니다.

자연스러운 음성

최신 딥러닝 기술을 적용하여 실제 사람 목소리처럼 자연스러운 음성을 제공합니다..

다국어 지원

한국어, 영어

음원 감정 선택

사용자의 취향에 맞게 음원의 감성을 선택할 수 있습니다.

음원 성별 선택

사용자의 취향에 맞게 음원의 성별을 선택할 수 있습니다.

음원 속도 조절

음원의 속도를 5단계로 조절할 수 있습니다.

음원 높낮이 조절

사용자의 취향에 맞게 음원의 높낮이를 조절할 수 있습니다.

볼륨 제어

볼륨을 10단계로 조절할 수 있습니다.

 

구조

ETTS 서비스는 사용자가 입력한 텍스트와 감성 정보를 ETTS 서버에 전달하고 ETTS 서버가 생성한 오디오 데이터를 스토리지에 저장합니다.

ETTS 서버는 ETTS 서비스가 전달한 데이터를 처리하여 오디오 데이터를 생성하고 이를 ETTS 서비스에 전달합니다.

 

ETTS 엔진 아키텍처

 

활용하기

ETTS 서비스는 음성 기반의 서비스가 필요한 다양한 분야에서 활용할 수 있습니다. 이 외에도 시각 장애인을 위한 음성 해설, 오디오 북, 음성 오디오를 재생하는 모든 애플리케이션에서 사용할 수 있습니다.

 

  • 인공지능 로봇의 목소리

로봇이 감성이 느껴지는 음성으로 사용자와 대화할 수 있습니다.

로봇과 대화하는 사용자

  • ARS 안내 음성

고객의 기분에 따라 감성을 담은 음성으로 ARS 안내 서비스를 제공합니다.

감성을 담은 음성으로 정보를 제공하는 ARS 안내 서비스

  • 내비게이션의 음성 발화

사용자가 설정한 감성과 목소리로 내비게이션이 목적지와 방향을 알려줍니다.

사용자가 설정한 감성과 목소리가 출력되는 내비게이션