Speech to Text

 

소개

Speech to Text (STT, 음성 인식) 서비스는 사용자의 음성 데이터를 입력받아 해당 음성을 텍스트로 변환하는 기능을 제공합니다.

즉, 사람이 귀로 들은 내용을 글자로 표현하는 받아쓰기와 같은 역할을 수행합니다. 

 

stt intro

 

LG AI Platform에서 제공하는 STT 서비스는 다음과 같은 특징을 가지고 있습니다.

ASR 엔진의 특징
특징 설명
다국어 지원

한국어, 영어

다양한 결과 전달 방식

음성 데이터 분석 결과를 계속 수신하는 방식과 최종 결과를 한 번만 수신하는 방식 중 하나를 선택할 수 있습니다.

안전한 서버 연결

보안에 강화된 TLS(Transport Layer Security) 기반의 HTTP/2 방식으로 서버와 연결합니다.

 

구조

STT 서비스의 모든 기능은 서버에서 동작합니다. STT 서비스는 PCM 데이터와 JSON 데이터를 입력 값으로 받고, 텍스트 데이터로 변환하여 출력합니다.

 

stt architecture

 

활용하기

STT 서비스는 일상생활 속에서 다양하게 활용할 수 있습니다.

 

  • 운전 중 음성으로 기기 조작

기기를 직접 조작하기 힘든 상황에서 음성으로 메시지를 입력하여 문자 메시지를 보내거나 내비게이션에 목적지 입력을 할 수 있습니다.

운전 중에 음성으로 메시지를 보내거나 내비게이션의 목적지를 설정하는 이미지

  • 콜센터 통화내용 저장

고객과의 통화 내용이 중요한 콜 센터에서 음성 인식 기능을 활용하여 통화 내용을 텍스트로 저장하여 보관할 수 있습니다.

통화 내용을 텍스트 파일로 저장하는 이미지

  • 회의록 작성

음성 인식 기술이 더욱 발전하면 중요한 회의를 할 때, 음성 인식 기능을 활용하여 회의록을 작성할 수 있기를 기대해봅니다.

회의 내용이 텍스트로 작성되는 이미지