Edge Trigger Word Detection

 

소개

Edge Trigger Word Detection (ETWD, 하이브리드 기동어 검출) 엔진은 사용자가 입력한 음성데이터에 미리 지정한 기동어 존재 여부를 판별하는 기능을 제공합니다.

예를 들어, 사용자가 사전에 "하이엘지"라는 단어를 지정하였다면, 사용자 발화 중에 "하이엘지" 단어에 대한 발성이 포함되어 있는 지를 검사하여 결과(있다, 없다)를 알려줍니다. 최근 Amazon의 Alexa, 구글의 "OK, google", Apple의 "Siri"와 같이 음성 인식을 시작하기 전 단계에 많이 사용하고 있습니다. 

 

ETWD 엔진은 임베디드 기반 인식 엔진으로 TWD (Trigger Word Detection)와 NTWD (Neural Trigger Word Detection) 중에 선택하여 사용할 수 있으며, 자세한 내용은 다음과 같습니다.

  • TWD 엔진
    제품에 탑재하기 위해 타겟 제품에서 재녹음된 데이터로 지도 학습하여 최종적으로 Over-fitting 방식으로 최적화됩니다.

 

  • NTWD 엔진
    타겟 기동어와 무관한 DNN기반 음소 단위 모델을 학습하고 타겟 기동어를 전이 학습하는 구조이기 때문에 상대적으로 학습 시간이 감소되며 제품/채널/환경 편차에 강한 특징을 갖고 있습니다. NTWD 엔진은 신경망 기반 알고리즘을 사용하므로 TWD 엔진보다 연산량이 많이 필요하므로, 타겟에서 동작 여부 확인이 필요합니다.

 

HTWD 엔진의 키워드 검출 과정 이미지

 

LG AI Platform에서 제공하는 ETWD 엔진은 다음과 같은 특징을 가지고 있습니다.

HTWD 엔진의 특징
특징 설명
다양한 기동어 제공

하이엘지, 헤이클로이, 에어스타

다국어 지원

한국어, 영어

 

엔진 구조

ETWD 엔진은 아래와 같은 구조를 가지고 있습니다.  

 

etwd architecture

 

활용하기

ETWD 엔진은 음성 인식 기능이 탑재된 모든 디바이스에 적용할 수 있습니다. 해당 기능을 사용하면 디바이스를 터치하지 않고 음성 인식을 시작할 수 있습니다.

 

  • 음성 비서 시스템이 탑재된 디바이스 제어

음성 비서 시스템이 탑재된 모바일 기기, 인공지능 스피커에서 음성으로 기기를 제어할 수 있습니다.

음성 비서 디바이스 이미지

  • 음성 인식이 가능한 가전제품 제어

음성 인식이 가능한 가전제품에 적용하여 음성으로 가전제품을 제어할 수 있습니다.

음성 인식이 가능한 가전 이미지

  • 로봇 제어

기동어를 통해 로봇을 동작시키고 제어할 수 있습니다.

 

로봇 디바이스 이미지