Emotion Text to Speech
소개
Emotion Text to Speech (ETTS, 감성 음성 합성)는 텍스트와 감성 값을 오디오 데이터로 바꿔주는 서비스입니다.
LG AI Platform에서 제공하는 ETTS 서비스는 다음과 같은 특징을 가지고 있습니다.
특징 | 설명 |
---|---|
뛰어난 문자 분석 |
사용자가 입력한 문자열의 발음, 음절, 어절, 앞뒤 문장 정보, 품사 등을 고려하여 문자를 분석합니다. |
음성 합성 |
인공 신경망 기술 기반으로 말과 글을 학습하고 주어진 글에 따라 의미를 추론하여 음성을 생성합니다. (Sequence to Sequence 모델 기반) |
즉각적인 응답 시간 |
사용자가 문자열을 입력하는 즉시 오디오 데이터가 생성되어 응답 시간이 빠릅니다. |
자연스러운 음성 |
최신 딥러닝 기술을 적용하여 실제 사람 목소리처럼 자연스러운 음성을 제공합니다.. |
다국어 지원 |
한국어, 영어 |
음원 감정 선택 |
사용자의 취향에 맞게 음원의 감성을 선택할 수 있습니다. |
음원 성별 선택 |
사용자의 취향에 맞게 음원의 성별을 선택할 수 있습니다. |
음원 속도 조절 |
음원의 속도를 5단계로 조절할 수 있습니다. |
음원 높낮이 조절 |
사용자의 취향에 맞게 음원의 높낮이를 조절할 수 있습니다. |
볼륨 제어 |
볼륨을 10단계로 조절할 수 있습니다. |
구조
ETTS 서비스는 사용자가 입력한 텍스트와 감성 정보를 ETTS 서버에 전달하고 ETTS 서버가 생성한 오디오 데이터를 스토리지에 저장합니다.
ETTS 서버는 ETTS 서비스가 전달한 데이터를 처리하여 오디오 데이터를 생성하고 이를 ETTS 서비스에 전달합니다.
활용하기
ETTS 서비스는 음성 기반의 서비스가 필요한 다양한 분야에서 활용할 수 있습니다. 이 외에도 시각 장애인을 위한 음성 해설, 오디오 북, 음성 오디오를 재생하는 모든 애플리케이션에서 사용할 수 있습니다.
- 인공지능 로봇의 목소리
로봇이 감성이 느껴지는 음성으로 사용자와 대화할 수 있습니다.
- ARS 안내 음성
고객의 기분에 따라 감성을 담은 음성으로 ARS 안내 서비스를 제공합니다.
- 내비게이션의 음성 발화
사용자가 설정한 감성과 목소리로 내비게이션이 목적지와 방향을 알려줍니다.