[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개

개인화 서비스를 위한
음성기반 화자인식 기술 소개
SK 텔레콤 음성인식기술 Cell 반성민

Contents
◼ 개인화 서비스
◼ 화자인식 기술 소개
◼ 기술 적용의 어려움
◼ 화자인식 성능 개선
◼ SKT 화자인식 시스템
◼ 적용 및 향후 계획

개인화 서비스
◼알리바바와 40인의 도적
열려라 참깨 !
OK, sir!
열려라 참깨 ! 열려라 참깨 !
Rejected!OK, 신밧드!
Only wakeup Wakeup + 화자식별 Wakeup + 화자인증

개인화 서비스
◼Amazon echo (2017. 1)
◼NUGU 스피커 / STB
아리아, 오늘 일정 알려줘!
네, 오늘 일정은 OOO 입니다.
네, 좋아하시는 OOO를
재생하겠습니다.
네, 휴대폰을 찾겠습니다.
아리아, 신나는 노래 들려줘!
아리아, 내 폰 찾아줘!
알렉사, 쿠키 주문해줘!
네, 주문하신 제품을
구매하겠습니다.

개인화 서비스
◼Amazon echo (2017. 1)
◼NUGU 스피커 / STB
알렉사, 쿠키 주문해줘!
아리아, 오늘 일정 알려줘!
네, OOO님의 오늘 일정은 OOO
입니다.
네, OOO님이 좋아하시는 OOO를
재생하겠습니다.
네, OOO님의 휴대폰을 찾겠습니다.
권한이 없습니다.
아리아, 신나는 노래 들려줘!
아리아, 내 폰 찾아줘!

개인화 서비스
◼생체 인증 기술 필요
◼Voice user interface
◼ 마이크 입력 장치만 필요
◼ 과정이 자연스러움
◼ 원거리에서 인증 가능
◼ 정보량이 많음
 화자, 성별, 연령, 언어, 감정

개인화 서비스
◼개인정보 보호법
◼ 개인정보의 수집, 유출, 오용, 남용으로부터 사생활의 비밀 등을 보호
◼ 개인정보를 안전하게 저장 및 전송하는 것에 관한 사항을 규정
◼ 개인정보 : 고유식별정보, 비밀번호, 바이오정보 등
◼ 바이오정보
 지문, 얼굴, 홍채, 정맥, 음성, 필적 등 개인을 식별할 수 있는
신체적 또는 행동적 특징에 관한 정보
 개인을 인증 또는 식별하기 위하여 기술적으로 처리되는 개인정보
 사진이나 음성정보 등은 특정 개인을 식별 또는 인증하기 위하여
기술적으로 처리되는 경우에 한해서만 바이오정보에 해당

화자인식 기술 소개
◼화자 식별/인증
◼ 식별 (identification)
 다수의 후보 화자 중 택일
◼ 인증 (verification)
 단일 화자에 대한 신뢰도 측정
◼ 2 stages
 등록(enrollment)
 인식(recognition)
Multi-class
classification
Binary
classification
화자 등록
특징 추출 /
모델링
특징 추출 Scoring
화자 모델 1
화자 인식
결과
화자 인식
화자 모델 N

◼Text-dependent, text-independent 화자인식
◼ Text-dependent 화자인식 : 약속된 발화로 화자인식
◼ Text-independent 화자인식 : 발화에 상관없이 화자 인식
◼ 대부분의 AI 스피커는 text-dependent 화자인식 수행
 wakeup word 사용
◼ 장, 단점
◼ 사용자 편의성, 인식 발화의 길이 고려 → text dependent 화자인식
Text-dependent Text-independent
등록 발화 약속된 발화(phonetic variability 없음) 아무 발화 (phonetic variability존재)
구현 쉬운 편 복잡함
등록 발화 수 적은 편 많은 편
인식 발화 길이 약속 발화 길이 길어야 함

◼GMM-UBM based approach
◼ 등록 화자별 확률 모델 : GMM
◼ 다양한 화자 특성을 반영한 확률 모델 : UBM
Feature
extraction
<등록>
<학습>
<인식>
result
UBMSpeaker 1Speaker 2Speaker 3Speaker M
MAP
Speaker
model
Feature
extraction
train
scoring
Feature
extraction
GMM : Gaussian mixture model
UBM : universal background model
MAP : Maximum a posterior probability

◼i-vector based approach
◼ 화자, 세션 특성 모두 반영
◼ 세션 variability 보상을 위해서 LDA, PLDA 등의 후처리 필요, 구현이 복잡한 편
Feature
extraction
<등록>
<학습>
<인식>
result
UBM
TVM
Speaker 1Speaker 2Speaker 3Speaker M
i-vector
extraction
i-vector
Feature
extraction
train
scoring
train
Feature
extraction
i-vector
extraction
i-vector
UBM : universal background model
TVM : total variability matrix

◼Embedding vector based approach
◼ 화자 특성만을 잘 표현하도록 학습, 환경 mismatch에 강인한 편
◼ long contextual information 고려, 구현이 비교적 쉬운 편, d-vector, x-vector
Feature
extraction
<등록>
<학습>
<인식>
result
DNNSpeaker 1Speaker 2Speaker 3Speaker M
Embedding vector
extraction
Embedding
vector
Feature
extraction
train
scoring
Feature
extraction
Embedding vector
extraction
Embedding
vector
Output layer
Hidden layer
Hidden layer
input layer
Embedding vector
화자 label
입력 feature

◼End-to-end approach
◼ 여러 component를 하나의 NN으로 통합
◼ 학습 화자 수가 많을 때 효과적
j-th speaker
centroid
k-th speaker
centroid
j-th speaker
embedding vector
generalized E2E loss
Triplet loss
Georg Heigold, Ignacio Moreno, Samy Bengio, and Noam Shazeer, “End-to-end text-dependent speaker verification,” in Acoustics, Speech and
Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016, pp. 5115–5119.
Tuple-based E2E loss

◼성능 평가
◼ 화자식별
 오류율
◼ 화자인증
 FAR(false acceptance rate)
 미등록 화자를 인증
 FRR(false rejection rate)
 등록 화자를 거절
 최적 threshold
 FA, FR tradeoff 고려
Ref. J.H.L. Hansen and T. Hasan, “Speaker recognition by machines and humans: A tutorial review,” IEEE Signal Proc.
Mag., vol. 32, no. 6, pp. 74–99, 2015.

기술 적용의 어려움
◼많은 종류의 음향 왜곡 요인 존재 (session variability)
◼ 외부 환경적 요인 : 잡음, 잔향, residual echo
◼ 화자 내부의 요인 : 감정, 건강, Rombard effect
에코제거
잡음
에코
잔향
잡음제거 잔향제거 음성검출 특징추출 화자인식

기술 적용의 어려움
◼외부 환경적 요인 : Residual echo, 잡음
◼ 여러 PoC(Point of Contact)에서의 다양한 음향 특성
NUGU
(‘16.9)
NUGU mini
(‘17.8)Home
B tv x NUGU
(‘18.1)
T map x NUGU
(‘17.9)
JOON x NUGU
(‘17.10)
Cookies mini x NUGU
(‘18.4)
NUGU candle
(‘18.7)
Car
Mobile
NUGU Nemo
(‘19.4)
B tv x NUGU(AI2)
(‘19.8)

화자인식 성능 개선
◼DNN embedding vector 추출
◼학습 데이터 확보
◼ 데이터 녹음 : 화자 수 확대
◼ Data augmentation : 잡음, RIR, 여러 POC
◼특징 정규화
◼ 발화 단위로 채널별 에너지 정규화
◼정확한 음성 구간 추출 : 정확한 forced alignment 개발
◼발화 속도 정규화
◼ Speaking rate normalization 수행 → target keyword 길이 고정
RIR : room impulse response

SKT 화자인식 시스템
◼화자인식 시스템 특징
◼ Text-dependent 화자인식 : wakeup word(‘아리아’, ‘팅커벨‘)
◼ 휴대폰으로 등록한 모델을 다른 여러 POC에서 공유
◼ 화자식별 → 화자인증
◼기술적 특징
◼ DNN의 embedding vector extraction
◼ 발화 단위로 채널별 에너지 정규화
◼ 정확한 forced alignment 적용
◼ Speaking rate normalization

◼화자인식 엔진 : 등록, 학습, 인식 과정
Embedding
vector
wakeup alignment
Feature
norm.
SNR?
Speaker 1
Speaker 2
Speaker 3
Speaker M alignment
Feature
norm.
wakeup alignment
Feature
norm.
DNNtrain
Embedding
vector
scoring
low SNR
result
vector
extraction
vector
extraction
등록
인식
학습

◼전체 flow
Device
인식서버
분배
Group ID,
음성 데이터 음성인식엔진
NUGU App
(wakeup, speex)
Align확인
SNR측정
화자모델
생성
[화자등록 서버] x M
Group ID별
화자모델 package
[모델 관리서버] x L
화자인식엔진
Group ID,
음성 데이터
Group ID 화자모델
package
계정관리
서버
[컨트롤 서버]
[인식 서버] x N
음성
데이터
ID별 화자모델
등록
성공
등록 성공 여부
화자 ID,
음성 데이터
음성데이터
등록성공 시
화자모델
인식결과,
화자 ID
인식결과,
화자 ID
[화자등록 Process]
[화자인식 Process]

◼화자식별, 인증 성능
◼ Task : 6명 화자가 5회 발화 후 등록, 업체 수집(100명)
◼ 환경 : 휴대폰(등록, 근거리), 스피커(인식, 1m ~ 3m 원거리)
 스피커 : NUGU, NUGU mini, NUGU candle
 Clean, echo(-5 dB SER)
◼ 성능 평가 metric : 화자 식별(오류율, %), 화자 인증(EER, %)
task keyword
스피커
Clean Echo
식별(오류율)
아리아 0.67% 6.03%
팅커벨 0.54% 4.81%
인증(EER)
아리아 2.05% 6.97%
팅커벨 1.59% 6.15%

◼등록 화자 수에 따른 성능 평가 결과(‘아리아’ keyword)
◼ 화자식별 오류율(%)
 등록 화자 수가 증가 → 오류율 증가

◼STB에서의 Live 성능 평가
◼ Task : 6명 화자가 5회 발화 후 등록, 구성원 대상(15명)
◼ 환경 : clean, echo(가요, -10 dB SER)
◼ 성능 평가 metric : 화자 인증(EER, %)
◼ 시간의 흐름에 따른 성능 평가 결과
환경 당일 1일 경과 2일 경과
Clean 6.46% 7.06% 6.24%
Echo 7.99% 9.10% 8.02%

향후 계획
◼서비스 적용 및 확장
◼ NUGU 개인화 서비스 상용 적용
◼ 고객센터
◼기술 확장
◼ Text-independent 화자인식 개발
◼ 화자 분할 개발
◼ 연령 및 성별 분류
◼성능 고도화
◼ 상용 적용 이후 추가 학습에 의한 성능 향상
◼ 사용자 로그로부터 자동 clustering 후 등록 발화 확대

[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개

Recommended

Recommended

More Related Content

What's hot

What's hot (14)

Similar to [NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개

Similar to [NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개 (14)

More from NUGU developers

More from NUGU developers (20)

[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개