Voice ID

 

소개

Voice ID (VID, 화자 인식) 서비스는 사용자 음성의 고유한 특성을 분석하여 신원을 파악하는 기술입니다.

Voice ID 서비스 에서 화자를 식별하기 위한 과정은 다음과 같습니다.

  1. 사전학습

    1. 대용량 화자 목소리 정보를 기반으로 딥러닝 모델을 학습합니다.

  2. 화자 등록

    1. 음성 데이터 수집

      • 사용자로부터 음성 데이터를 입력받아 화자 인식에 사용할 음성 데이터 샘플을 수집합니다. 

    2. 특성 추출

      • 수집된 음성 데이터에서 고유한 특성을 추출합니다. 이 과정에서는 사용자의 음성 특성, 발음, 목소리의 높낮이, 강세 등의 정보를 분석합니다.

    3. 모델 학습

      • 추출된 특성을 기반으로 머신러닝 알고리즘을 사용해 개인별 화자 인식 모델을 학습시킵니다.

  3. 화자 식별

    1. 사용자가 발화하면 사전에 등록된 정보를 기반으로 화자를 식별합니다.

 

LG AI Platform에서 제공하는 Voice ID 서비스는 다음과 같은 특징을 가지고 있습니다.

ASR 엔진의 특징
특징 설명
높은 정확도

Voice ID 서비스의 화자 식별 정확도는 매우 높습니다.

정확도를 높이기 위해서 6번의 목소리 데이터를 수집합니다. 또한, 다양한 환경에서 수집된 데이터는 더욱 정확도가 높습니다.

 

구조

Voice ID 서비스는 음성 데이터를 입력 값으로 받고 데이터를 추출하여 그 결과를 애플리케이션에 전달합니다.

 

img_structure_voice_id.png

 

활용하기

Voice ID는 화자 인식 기능이 필요한 다양한 서비스에서 활용하여 사용자와의 상호작용을 더욱 다양하고, 효율적으로 할 수 있습니다.

 

스마트 홈 시스템

발화한 사용자를 인식하여 해당 사용자에 적합한 개인화 서비스를 제공할 수 있습니다.

img_uses_voice_id_01_kor.png

img_uses_voice_id_02_kor.png

 

회의록 작성

발화자를 식별하여 회의록을 작성하는 서비스를 제공할 수 있습니다.

img_uses_voice_id_03.png