4. 개인화 서비스
◼Amazon echo (2017. 1)
◼NUGU 스피커 / STB
아리아, 오늘 일정 알려줘!
네, 오늘 일정은 OOO 입니다.
네, 좋아하시는 OOO를
재생하겠습니다.
네, 휴대폰을 찾겠습니다.
아리아, 신나는 노래 들려줘!
아리아, 내 폰 찾아줘!
알렉사, 쿠키 주문해줘!
네, 주문하신 제품을
구매하겠습니다.
5. 개인화 서비스
◼Amazon echo (2017. 1)
◼NUGU 스피커 / STB
알렉사, 쿠키 주문해줘!
아리아, 오늘 일정 알려줘!
네, OOO님의 오늘 일정은 OOO
입니다.
네, OOO님이 좋아하시는 OOO를
재생하겠습니다.
네, OOO님의 휴대폰을 찾겠습니다.
권한이 없습니다.
아리아, 신나는 노래 들려줘!
아리아, 내 폰 찾아줘!
6. 개인화 서비스
◼생체 인증 기술 필요
◼Voice user interface
◼ 마이크 입력 장치만 필요
◼ 과정이 자연스러움
◼ 원거리에서 인증 가능
◼ 정보량이 많음
화자, 성별, 연령, 언어, 감정
7. 개인화 서비스
◼개인정보 보호법
◼ 개인정보의 수집, 유출, 오용, 남용으로부터 사생활의 비밀 등을 보호
◼ 개인정보를 안전하게 저장 및 전송하는 것에 관한 사항을 규정
◼ 개인정보 : 고유식별정보, 비밀번호, 바이오정보 등
◼ 바이오정보
지문, 얼굴, 홍채, 정맥, 음성, 필적 등 개인을 식별할 수 있는
신체적 또는 행동적 특징에 관한 정보
개인을 인증 또는 식별하기 위하여 기술적으로 처리되는 개인정보
사진이나 음성정보 등은 특정 개인을 식별 또는 인증하기 위하여
기술적으로 처리되는 경우에 한해서만 바이오정보에 해당
8. 화자인식 기술 소개
◼화자 식별/인증
◼ 식별 (identification)
다수의 후보 화자 중 택일
◼ 인증 (verification)
단일 화자에 대한 신뢰도 측정
◼ 2 stages
등록(enrollment)
인식(recognition)
Multi-class
classification
Binary
classification
화자 등록
특징 추출 /
모델링
특징 추출 Scoring
화자 모델 1
화자 인식
결과
화자 인식
화자 모델 N
9. 화자인식 기술 소개
◼Text-dependent, text-independent 화자인식
◼ Text-dependent 화자인식 : 약속된 발화로 화자인식
◼ Text-independent 화자인식 : 발화에 상관없이 화자 인식
◼ 대부분의 AI 스피커는 text-dependent 화자인식 수행
wakeup word 사용
◼ 장, 단점
◼ 사용자 편의성, 인식 발화의 길이 고려 → text dependent 화자인식
Text-dependent Text-independent
등록 발화 약속된 발화(phonetic variability 없음) 아무 발화 (phonetic variability존재)
구현 쉬운 편 복잡함
등록 발화 수 적은 편 많은 편
인식 발화 길이 약속 발화 길이 길어야 함
10. 화자인식 기술 소개
◼GMM-UBM based approach
◼ 등록 화자별 확률 모델 : GMM
◼ 다양한 화자 특성을 반영한 확률 모델 : UBM
Feature
extraction
<등록>
<학습>
<인식>
result
UBMSpeaker 1Speaker 2Speaker 3Speaker M
MAP
Speaker
model
Feature
extraction
train
scoring
Feature
extraction
GMM : Gaussian mixture model
UBM : universal background model
MAP : Maximum a posterior probability
11. 화자인식 기술 소개
◼i-vector based approach
◼ 화자, 세션 특성 모두 반영
◼ 세션 variability 보상을 위해서 LDA, PLDA 등의 후처리 필요, 구현이 복잡한 편
Feature
extraction
<등록>
<학습>
<인식>
result
UBM
TVM
Speaker 1Speaker 2Speaker 3Speaker M
i-vector
extraction
i-vector
Feature
extraction
train
scoring
train
Feature
extraction
i-vector
extraction
i-vector
UBM : universal background model
TVM : total variability matrix
12. 화자인식 기술 소개
◼Embedding vector based approach
◼ 화자 특성만을 잘 표현하도록 학습, 환경 mismatch에 강인한 편
◼ long contextual information 고려, 구현이 비교적 쉬운 편, d-vector, x-vector
Feature
extraction
<등록>
<학습>
<인식>
result
DNNSpeaker 1Speaker 2Speaker 3Speaker M
Embedding vector
extraction
Embedding
vector
Feature
extraction
train
scoring
Feature
extraction
Embedding vector
extraction
Embedding
vector
Output layer
Hidden layer
Hidden layer
input layer
Embedding vector
화자 label
입력 feature
13. 화자인식 기술 소개
◼End-to-end approach
◼ 여러 component를 하나의 NN으로 통합
◼ 학습 화자 수가 많을 때 효과적
j-th speaker
centroid
k-th speaker
centroid
j-th speaker
embedding vector
generalized E2E loss
Triplet loss
Georg Heigold, Ignacio Moreno, Samy Bengio, and Noam Shazeer, “End-to-end text-dependent speaker verification,” in Acoustics, Speech and
Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016, pp. 5115–5119.
Tuple-based E2E loss
14. 화자인식 기술 소개
◼성능 평가
◼ 화자식별
오류율
◼ 화자인증
FAR(false acceptance rate)
미등록 화자를 인증
FRR(false rejection rate)
등록 화자를 거절
최적 threshold
FA, FR tradeoff 고려
Ref. J.H.L. Hansen and T. Hasan, “Speaker recognition by machines and humans: A tutorial review,” IEEE Signal Proc.
Mag., vol. 32, no. 6, pp. 74–99, 2015.
15. 기술 적용의 어려움
◼많은 종류의 음향 왜곡 요인 존재 (session variability)
◼ 외부 환경적 요인 : 잡음, 잔향, residual echo
◼ 화자 내부의 요인 : 감정, 건강, Rombard effect
에코제거
잡음
에코
잔향
잡음제거 잔향제거 음성검출 특징추출 화자인식
16. 기술 적용의 어려움
◼외부 환경적 요인 : Residual echo, 잡음
◼ 여러 PoC(Point of Contact)에서의 다양한 음향 특성
NUGU
(‘16.9)
NUGU mini
(‘17.8)Home
B tv x NUGU
(‘18.1)
T map x NUGU
(‘17.9)
JOON x NUGU
(‘17.10)
Cookies mini x NUGU
(‘18.4)
NUGU candle
(‘18.7)
Car
Mobile
NUGU Nemo
(‘19.4)
B tv x NUGU(AI2)
(‘19.8)
17. 화자인식 성능 개선
◼DNN embedding vector 추출
◼학습 데이터 확보
◼ 데이터 녹음 : 화자 수 확대
◼ Data augmentation : 잡음, RIR, 여러 POC
◼특징 정규화
◼ 발화 단위로 채널별 에너지 정규화
◼정확한 음성 구간 추출 : 정확한 forced alignment 개발
◼발화 속도 정규화
◼ Speaking rate normalization 수행 → target keyword 길이 고정
RIR : room impulse response
18. SKT 화자인식 시스템
◼화자인식 시스템 특징
◼ Text-dependent 화자인식 : wakeup word(‘아리아’, ‘팅커벨‘)
◼ 휴대폰으로 등록한 모델을 다른 여러 POC에서 공유
◼ 화자식별 → 화자인증
◼기술적 특징
◼ DNN의 embedding vector extraction
◼ 발화 단위로 채널별 에너지 정규화
◼ 정확한 forced alignment 적용
◼ Speaking rate normalization
19. SKT 화자인식 시스템
◼화자인식 엔진 : 등록, 학습, 인식 과정
Embedding
vector
wakeup alignment
Feature
norm.
SNR?
Speaker 1
Speaker 2
Speaker 3
Speaker M alignment
Feature
norm.
wakeup alignment
Feature
norm.
DNNtrain
Embedding
vector
scoring
low SNR
result
vector
extraction
vector
extraction
등록
인식
학습
20. SKT 화자인식 시스템
◼전체 flow
Device
인식서버
분배
Group ID,
음성 데이터 음성인식엔진
NUGU App
(wakeup, speex)
Align확인
SNR측정
화자모델
생성
[화자등록 서버] x M
Group ID별
화자모델 package
[모델 관리서버] x L
화자인식엔진
Group ID,
음성 데이터
Group ID 화자모델
package
계정관리
서버
[컨트롤 서버]
[인식 서버] x N
음성
데이터
ID별 화자모델
등록
성공
등록 성공 여부
화자 ID,
음성 데이터
음성데이터
등록성공 시
화자모델
인식결과,
화자 ID
인식결과,
화자 ID
[화자등록 Process]
[화자인식 Process]
21. SKT 화자인식 시스템
◼화자식별, 인증 성능
◼ Task : 6명 화자가 5회 발화 후 등록, 업체 수집(100명)
◼ 환경 : 휴대폰(등록, 근거리), 스피커(인식, 1m ~ 3m 원거리)
스피커 : NUGU, NUGU mini, NUGU candle
Clean, echo(-5 dB SER)
◼ 성능 평가 metric : 화자 식별(오류율, %), 화자 인증(EER, %)
task keyword
스피커
Clean Echo
식별(오류율)
아리아 0.67% 6.03%
팅커벨 0.54% 4.81%
인증(EER)
아리아 2.05% 6.97%
팅커벨 1.59% 6.15%
22. SKT 화자인식 시스템
◼등록 화자 수에 따른 성능 평가 결과(‘아리아’ keyword)
◼ 화자식별 오류율(%)
등록 화자 수가 증가 → 오류율 증가
23. SKT 화자인식 시스템
◼STB에서의 Live 성능 평가
◼ Task : 6명 화자가 5회 발화 후 등록, 구성원 대상(15명)
◼ 환경 : clean, echo(가요, -10 dB SER)
◼ 성능 평가 metric : 화자 인증(EER, %)
◼ 시간의 흐름에 따른 성능 평가 결과
환경 당일 1일 경과 2일 경과
Clean 6.46% 7.06% 6.24%
Echo 7.99% 9.10% 8.02%
24. 향후 계획
◼서비스 적용 및 확장
◼ NUGU 개인화 서비스 상용 적용
◼ 고객센터
◼기술 확장
◼ Text-independent 화자인식 개발
◼ 화자 분할 개발
◼ 연령 및 성별 분류
◼성능 고도화
◼ 상용 적용 이후 추가 학습에 의한 성능 향상
◼ 사용자 로그로부터 자동 clustering 후 등록 발화 확대