SlideShare a Scribd company logo
1 of 25
Download to read offline
개인화 서비스를 위한
음성기반 화자인식 기술 소개
SK 텔레콤 음성인식기술 Cell 반성민
Contents
◼ 개인화 서비스
◼ 화자인식 기술 소개
◼ 기술 적용의 어려움
◼ 화자인식 성능 개선
◼ SKT 화자인식 시스템
◼ 적용 및 향후 계획
개인화 서비스
◼알리바바와 40인의 도적
열려라 참깨 !
OK, sir!
열려라 참깨 ! 열려라 참깨 !
Rejected!OK, 신밧드!
Only wakeup Wakeup + 화자식별 Wakeup + 화자인증
개인화 서비스
◼Amazon echo (2017. 1)
◼NUGU 스피커 / STB
아리아, 오늘 일정 알려줘!
네, 오늘 일정은 OOO 입니다.
네, 좋아하시는 OOO를
재생하겠습니다.
네, 휴대폰을 찾겠습니다.
아리아, 신나는 노래 들려줘!
아리아, 내 폰 찾아줘!
알렉사, 쿠키 주문해줘!
네, 주문하신 제품을
구매하겠습니다.
개인화 서비스
◼Amazon echo (2017. 1)
◼NUGU 스피커 / STB
알렉사, 쿠키 주문해줘!
아리아, 오늘 일정 알려줘!
네, OOO님의 오늘 일정은 OOO
입니다.
네, OOO님이 좋아하시는 OOO를
재생하겠습니다.
네, OOO님의 휴대폰을 찾겠습니다.
권한이 없습니다.
아리아, 신나는 노래 들려줘!
아리아, 내 폰 찾아줘!
개인화 서비스
◼생체 인증 기술 필요
◼Voice user interface
◼ 마이크 입력 장치만 필요
◼ 과정이 자연스러움
◼ 원거리에서 인증 가능
◼ 정보량이 많음
 화자, 성별, 연령, 언어, 감정
개인화 서비스
◼개인정보 보호법
◼ 개인정보의 수집, 유출, 오용, 남용으로부터 사생활의 비밀 등을 보호
◼ 개인정보를 안전하게 저장 및 전송하는 것에 관한 사항을 규정
◼ 개인정보 : 고유식별정보, 비밀번호, 바이오정보 등
◼ 바이오정보
 지문, 얼굴, 홍채, 정맥, 음성, 필적 등 개인을 식별할 수 있는
신체적 또는 행동적 특징에 관한 정보
 개인을 인증 또는 식별하기 위하여 기술적으로 처리되는 개인정보
 사진이나 음성정보 등은 특정 개인을 식별 또는 인증하기 위하여
기술적으로 처리되는 경우에 한해서만 바이오정보에 해당
화자인식 기술 소개
◼화자 식별/인증
◼ 식별 (identification)
 다수의 후보 화자 중 택일
◼ 인증 (verification)
 단일 화자에 대한 신뢰도 측정
◼ 2 stages
 등록(enrollment)
 인식(recognition)
Multi-class
classification
Binary
classification
화자 등록
특징 추출 /
모델링
특징 추출 Scoring
화자 모델 1
화자 인식
결과
화자 인식
화자 모델 N
화자인식 기술 소개
◼Text-dependent, text-independent 화자인식
◼ Text-dependent 화자인식 : 약속된 발화로 화자인식
◼ Text-independent 화자인식 : 발화에 상관없이 화자 인식
◼ 대부분의 AI 스피커는 text-dependent 화자인식 수행
 wakeup word 사용
◼ 장, 단점
◼ 사용자 편의성, 인식 발화의 길이 고려 → text dependent 화자인식
Text-dependent Text-independent
등록 발화 약속된 발화(phonetic variability 없음) 아무 발화 (phonetic variability존재)
구현 쉬운 편 복잡함
등록 발화 수 적은 편 많은 편
인식 발화 길이 약속 발화 길이 길어야 함
화자인식 기술 소개
◼GMM-UBM based approach
◼ 등록 화자별 확률 모델 : GMM
◼ 다양한 화자 특성을 반영한 확률 모델 : UBM
Feature
extraction
<등록>
<학습>
<인식>
result
UBMSpeaker 1Speaker 2Speaker 3Speaker M
MAP
Speaker
model
Feature
extraction
train
scoring
Feature
extraction
GMM : Gaussian mixture model
UBM : universal background model
MAP : Maximum a posterior probability
화자인식 기술 소개
◼i-vector based approach
◼ 화자, 세션 특성 모두 반영
◼ 세션 variability 보상을 위해서 LDA, PLDA 등의 후처리 필요, 구현이 복잡한 편
Feature
extraction
<등록>
<학습>
<인식>
result
UBM
TVM
Speaker 1Speaker 2Speaker 3Speaker M
i-vector
extraction
i-vector
Feature
extraction
train
scoring
train
Feature
extraction
i-vector
extraction
i-vector
UBM : universal background model
TVM : total variability matrix
화자인식 기술 소개
◼Embedding vector based approach
◼ 화자 특성만을 잘 표현하도록 학습, 환경 mismatch에 강인한 편
◼ long contextual information 고려, 구현이 비교적 쉬운 편, d-vector, x-vector
Feature
extraction
<등록>
<학습>
<인식>
result
DNNSpeaker 1Speaker 2Speaker 3Speaker M
Embedding vector
extraction
Embedding
vector
Feature
extraction
train
scoring
Feature
extraction
Embedding vector
extraction
Embedding
vector
Output layer
Hidden layer
Hidden layer
input layer
Embedding vector
화자 label
입력 feature
화자인식 기술 소개
◼End-to-end approach
◼ 여러 component를 하나의 NN으로 통합
◼ 학습 화자 수가 많을 때 효과적
j-th speaker
centroid
k-th speaker
centroid
j-th speaker
embedding vector
generalized E2E loss
Triplet loss
Georg Heigold, Ignacio Moreno, Samy Bengio, and Noam Shazeer, “End-to-end text-dependent speaker verification,” in Acoustics, Speech and
Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016, pp. 5115–5119.
Tuple-based E2E loss
화자인식 기술 소개
◼성능 평가
◼ 화자식별
 오류율
◼ 화자인증
 FAR(false acceptance rate)
 미등록 화자를 인증
 FRR(false rejection rate)
 등록 화자를 거절
 최적 threshold
 FA, FR tradeoff 고려
Ref. J.H.L. Hansen and T. Hasan, “Speaker recognition by machines and humans: A tutorial review,” IEEE Signal Proc.
Mag., vol. 32, no. 6, pp. 74–99, 2015.
기술 적용의 어려움
◼많은 종류의 음향 왜곡 요인 존재 (session variability)
◼ 외부 환경적 요인 : 잡음, 잔향, residual echo
◼ 화자 내부의 요인 : 감정, 건강, Rombard effect
에코제거
잡음
에코
잔향
잡음제거 잔향제거 음성검출 특징추출 화자인식
기술 적용의 어려움
◼외부 환경적 요인 : Residual echo, 잡음
◼ 여러 PoC(Point of Contact)에서의 다양한 음향 특성
NUGU
(‘16.9)
NUGU mini
(‘17.8)Home
B tv x NUGU
(‘18.1)
T map x NUGU
(‘17.9)
JOON x NUGU
(‘17.10)
Cookies mini x NUGU
(‘18.4)
NUGU candle
(‘18.7)
Car
Mobile
NUGU Nemo
(‘19.4)
B tv x NUGU(AI2)
(‘19.8)
화자인식 성능 개선
◼DNN embedding vector 추출
◼학습 데이터 확보
◼ 데이터 녹음 : 화자 수 확대
◼ Data augmentation : 잡음, RIR, 여러 POC
◼특징 정규화
◼ 발화 단위로 채널별 에너지 정규화
◼정확한 음성 구간 추출 : 정확한 forced alignment 개발
◼발화 속도 정규화
◼ Speaking rate normalization 수행 → target keyword 길이 고정
RIR : room impulse response
SKT 화자인식 시스템
◼화자인식 시스템 특징
◼ Text-dependent 화자인식 : wakeup word(‘아리아’, ‘팅커벨‘)
◼ 휴대폰으로 등록한 모델을 다른 여러 POC에서 공유
◼ 화자식별 → 화자인증
◼기술적 특징
◼ DNN의 embedding vector extraction
◼ 발화 단위로 채널별 에너지 정규화
◼ 정확한 forced alignment 적용
◼ Speaking rate normalization
SKT 화자인식 시스템
◼화자인식 엔진 : 등록, 학습, 인식 과정
Embedding
vector
wakeup alignment
Feature
norm.
SNR?
Speaker 1
Speaker 2
Speaker 3
Speaker M alignment
Feature
norm.
wakeup alignment
Feature
norm.
DNNtrain
Embedding
vector
scoring
low SNR
result
vector
extraction
vector
extraction
등록
인식
학습
SKT 화자인식 시스템
◼전체 flow
Device
인식서버
분배
Group ID,
음성 데이터 음성인식엔진
NUGU App
(wakeup, speex)
Align확인
SNR측정
화자모델
생성
[화자등록 서버] x M
Group ID별
화자모델 package
[모델 관리서버] x L
화자인식엔진
Group ID,
음성 데이터
Group ID 화자모델
package
계정관리
서버
[컨트롤 서버]
[인식 서버] x N
음성
데이터
ID별 화자모델
등록
성공
등록 성공 여부
화자 ID,
음성 데이터
음성데이터
등록성공 시
화자모델
인식결과,
화자 ID
인식결과,
화자 ID
[화자등록 Process]
[화자인식 Process]
SKT 화자인식 시스템
◼화자식별, 인증 성능
◼ Task : 6명 화자가 5회 발화 후 등록, 업체 수집(100명)
◼ 환경 : 휴대폰(등록, 근거리), 스피커(인식, 1m ~ 3m 원거리)
 스피커 : NUGU, NUGU mini, NUGU candle
 Clean, echo(-5 dB SER)
◼ 성능 평가 metric : 화자 식별(오류율, %), 화자 인증(EER, %)
task keyword
스피커
Clean Echo
식별(오류율)
아리아 0.67% 6.03%
팅커벨 0.54% 4.81%
인증(EER)
아리아 2.05% 6.97%
팅커벨 1.59% 6.15%
SKT 화자인식 시스템
◼등록 화자 수에 따른 성능 평가 결과(‘아리아’ keyword)
◼ 화자식별 오류율(%)
 등록 화자 수가 증가 → 오류율 증가
SKT 화자인식 시스템
◼STB에서의 Live 성능 평가
◼ Task : 6명 화자가 5회 발화 후 등록, 구성원 대상(15명)
◼ 환경 : clean, echo(가요, -10 dB SER)
◼ 성능 평가 metric : 화자 인증(EER, %)
◼ 시간의 흐름에 따른 성능 평가 결과
환경 당일 1일 경과 2일 경과
Clean 6.46% 7.06% 6.24%
Echo 7.99% 9.10% 8.02%
향후 계획
◼서비스 적용 및 확장
◼ NUGU 개인화 서비스 상용 적용
◼ 고객센터
◼기술 확장
◼ Text-independent 화자인식 개발
◼ 화자 분할 개발
◼ 연령 및 성별 분류
◼성능 고도화
◼ 상용 적용 이후 추가 학습에 의한 성능 향상
◼ 사용자 로그로부터 자동 clustering 후 등록 발화 확대
감사합니다.

More Related Content

What's hot

Sharing development experience of educational apps for the hard of hearing (P...
Sharing development experience of educational apps for the hard of hearing (P...Sharing development experience of educational apps for the hard of hearing (P...
Sharing development experience of educational apps for the hard of hearing (P...Youngki Moon
 
[NUGU Conference 2018] 세션 A-2 : NUGU Voice UX
[NUGU Conference 2018] 세션 A-2 : NUGU Voice UX[NUGU Conference 2018] 세션 A-2 : NUGU Voice UX
[NUGU Conference 2018] 세션 A-2 : NUGU Voice UXNUGU developers
 
4 voc비정형분석 문종영
4 voc비정형분석 문종영4 voc비정형분석 문종영
4 voc비정형분석 문종영Saltlux Inc.
 
[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인
[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인
[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인NUGU developers
 
제11회공개sw개발자대회 금상 TensorMSA(소개)
제11회공개sw개발자대회 금상 TensorMSA(소개)제11회공개sw개발자대회 금상 TensorMSA(소개)
제11회공개sw개발자대회 금상 TensorMSA(소개)Susang Kim
 
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석Taejoon Yoo
 
왕초보, 코딩없이 챗봇 만들기
왕초보, 코딩없이 챗봇 만들기왕초보, 코딩없이 챗봇 만들기
왕초보, 코딩없이 챗봇 만들기deepseaswjh
 
한국어 띄어쓰기 프로그램 도전기
한국어 띄어쓰기 프로그램 도전기한국어 띄어쓰기 프로그램 도전기
한국어 띄어쓰기 프로그램 도전기Ted Taekyoon Choi
 
음성검색, 어디까지 가봤니 기술김예슬
음성검색, 어디까지 가봤니 기술김예슬 음성검색, 어디까지 가봤니 기술김예슬
음성검색, 어디까지 가봤니 기술김예슬 msdream
 
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성Hye-rim Jang
 
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?ssuseraf7587
 
인공지능 관련 특허 동향 및 핵심 특허 소개
인공지능 관련 특허 동향 및 핵심 특허 소개인공지능 관련 특허 동향 및 핵심 특허 소개
인공지능 관련 특허 동향 및 핵심 특허 소개Seung-won CHAE
 
영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래	영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래 engedukamall
 
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템Seokhwan Kim
 

What's hot (14)

Sharing development experience of educational apps for the hard of hearing (P...
Sharing development experience of educational apps for the hard of hearing (P...Sharing development experience of educational apps for the hard of hearing (P...
Sharing development experience of educational apps for the hard of hearing (P...
 
[NUGU Conference 2018] 세션 A-2 : NUGU Voice UX
[NUGU Conference 2018] 세션 A-2 : NUGU Voice UX[NUGU Conference 2018] 세션 A-2 : NUGU Voice UX
[NUGU Conference 2018] 세션 A-2 : NUGU Voice UX
 
4 voc비정형분석 문종영
4 voc비정형분석 문종영4 voc비정형분석 문종영
4 voc비정형분석 문종영
 
[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인
[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인
[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인
 
제11회공개sw개발자대회 금상 TensorMSA(소개)
제11회공개sw개발자대회 금상 TensorMSA(소개)제11회공개sw개발자대회 금상 TensorMSA(소개)
제11회공개sw개발자대회 금상 TensorMSA(소개)
 
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
 
왕초보, 코딩없이 챗봇 만들기
왕초보, 코딩없이 챗봇 만들기왕초보, 코딩없이 챗봇 만들기
왕초보, 코딩없이 챗봇 만들기
 
한국어 띄어쓰기 프로그램 도전기
한국어 띄어쓰기 프로그램 도전기한국어 띄어쓰기 프로그램 도전기
한국어 띄어쓰기 프로그램 도전기
 
음성검색, 어디까지 가봤니 기술김예슬
음성검색, 어디까지 가봤니 기술김예슬 음성검색, 어디까지 가봤니 기술김예슬
음성검색, 어디까지 가봤니 기술김예슬
 
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
 
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
 
인공지능 관련 특허 동향 및 핵심 특허 소개
인공지능 관련 특허 동향 및 핵심 특허 소개인공지능 관련 특허 동향 및 핵심 특허 소개
인공지능 관련 특허 동향 및 핵심 특허 소개
 
영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래	영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래
 
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
 

Similar to [NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개

카카오가 가지고 있는 음성처리 기술
카카오가 가지고 있는 음성처리 기술카카오가 가지고 있는 음성처리 기술
카카오가 가지고 있는 음성처리 기술if kakao
 
[NUGU Conference 2018] 세션 B-2 : 다중 마이크 전처리 기술
[NUGU Conference 2018] 세션 B-2 : 다중 마이크 전처리 기술[NUGU Conference 2018] 세션 B-2 : 다중 마이크 전처리 기술
[NUGU Conference 2018] 세션 B-2 : 다중 마이크 전처리 기술NUGU developers
 
사운드마스킹 소개자료
사운드마스킹 소개자료사운드마스킹 소개자료
사운드마스킹 소개자료Jinseh Kim
 
Week5 발표(특허,경쟁제품)
Week5 발표(특허,경쟁제품)Week5 발표(특허,경쟁제품)
Week5 발표(특허,경쟁제품)Eunkyung Kim
 
마인즈랩소개자료 20150616
마인즈랩소개자료 20150616마인즈랩소개자료 20150616
마인즈랩소개자료 20150616Taejoon Yoo
 
Minds ryl 사업
Minds ryl 사업Minds ryl 사업
Minds ryl 사업Taejoon Yoo
 
통찰의연결 학습자료 02
통찰의연결 학습자료 02통찰의연결 학습자료 02
통찰의연결 학습자료 02connect_foundation
 
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)NAVER D2
 
Daum 음성인식 API (김한샘)
Daum 음성인식 API (김한샘)Daum 음성인식 API (김한샘)
Daum 음성인식 API (김한샘)Daum DNA
 
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030Taejoon Yoo
 
경영정보기술과제
경영정보기술과제경영정보기술과제
경영정보기술과제beatm98
 
경영정보기술과제
경영정보기술과제경영정보기술과제
경영정보기술과제beatm98
 
GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화
GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화
GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화ksdc2019
 
리코더티쳐 사업제안서 - Recorder Teacher Business Plan
리코더티쳐 사업제안서 - Recorder Teacher Business Plan리코더티쳐 사업제안서 - Recorder Teacher Business Plan
리코더티쳐 사업제안서 - Recorder Teacher Business Plan봉조 김
 

Similar to [NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개 (14)

카카오가 가지고 있는 음성처리 기술
카카오가 가지고 있는 음성처리 기술카카오가 가지고 있는 음성처리 기술
카카오가 가지고 있는 음성처리 기술
 
[NUGU Conference 2018] 세션 B-2 : 다중 마이크 전처리 기술
[NUGU Conference 2018] 세션 B-2 : 다중 마이크 전처리 기술[NUGU Conference 2018] 세션 B-2 : 다중 마이크 전처리 기술
[NUGU Conference 2018] 세션 B-2 : 다중 마이크 전처리 기술
 
사운드마스킹 소개자료
사운드마스킹 소개자료사운드마스킹 소개자료
사운드마스킹 소개자료
 
Week5 발표(특허,경쟁제품)
Week5 발표(특허,경쟁제품)Week5 발표(특허,경쟁제품)
Week5 발표(특허,경쟁제품)
 
마인즈랩소개자료 20150616
마인즈랩소개자료 20150616마인즈랩소개자료 20150616
마인즈랩소개자료 20150616
 
Minds ryl 사업
Minds ryl 사업Minds ryl 사업
Minds ryl 사업
 
통찰의연결 학습자료 02
통찰의연결 학습자료 02통찰의연결 학습자료 02
통찰의연결 학습자료 02
 
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
 
Daum 음성인식 API (김한샘)
Daum 음성인식 API (김한샘)Daum 음성인식 API (김한샘)
Daum 음성인식 API (김한샘)
 
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
 
경영정보기술과제
경영정보기술과제경영정보기술과제
경영정보기술과제
 
경영정보기술과제
경영정보기술과제경영정보기술과제
경영정보기술과제
 
GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화
GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화
GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화
 
리코더티쳐 사업제안서 - Recorder Teacher Business Plan
리코더티쳐 사업제안서 - Recorder Teacher Business Plan리코더티쳐 사업제안서 - Recorder Teacher Business Plan
리코더티쳐 사업제안서 - Recorder Teacher Business Plan
 

More from NUGU developers

[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출
[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출
[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출NUGU developers
 
[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향
[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향
[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향NUGU developers
 
[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI Partner
[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI Partner[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI Partner
[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI PartnerNUGU developers
 
[NUGU CONFERENCE 2019] 키노트 2 : NUGU Everywhere
[NUGU CONFERENCE 2019] 키노트 2 : NUGU Everywhere[NUGU CONFERENCE 2019] 키노트 2 : NUGU Everywhere
[NUGU CONFERENCE 2019] 키노트 2 : NUGU EverywhereNUGU developers
 
[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전
[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전
[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경
[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경
[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티
[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티
[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?
[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?
[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip
[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip
[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tipNUGU developers
 
[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip
[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip
[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 TipNUGU developers
 
[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발
[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발
[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDK[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDKNUGU developers
 
[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDK[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDKNUGU developers
 
[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -
[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -
[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...
[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...
[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기
[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기
[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...
[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...
[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개
[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개
[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개
[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개
[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술NUGU developers
 

More from NUGU developers (20)

[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출
[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출
[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출
 
[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향
[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향
[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향
 
[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI Partner
[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI Partner[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI Partner
[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI Partner
 
[NUGU CONFERENCE 2019] 키노트 2 : NUGU Everywhere
[NUGU CONFERENCE 2019] 키노트 2 : NUGU Everywhere[NUGU CONFERENCE 2019] 키노트 2 : NUGU Everywhere
[NUGU CONFERENCE 2019] 키노트 2 : NUGU Everywhere
 
[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전
[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전
[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전
 
[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경
[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경
[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경
 
[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티
[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티
[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티
 
[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?
[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?
[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?
 
[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip
[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip
[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip
 
[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip
[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip
[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip
 
[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발
[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발
[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발
 
[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDK[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDK
 
[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDK[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDK
 
[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -
[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -
[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -
 
[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...
[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...
[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...
 
[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기
[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기
[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기
 
[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...
[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...
[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...
 
[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개
[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개
[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개
 
[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개
[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개
[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개
 
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술
 

[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개

  • 1. 개인화 서비스를 위한 음성기반 화자인식 기술 소개 SK 텔레콤 음성인식기술 Cell 반성민
  • 2. Contents ◼ 개인화 서비스 ◼ 화자인식 기술 소개 ◼ 기술 적용의 어려움 ◼ 화자인식 성능 개선 ◼ SKT 화자인식 시스템 ◼ 적용 및 향후 계획
  • 3. 개인화 서비스 ◼알리바바와 40인의 도적 열려라 참깨 ! OK, sir! 열려라 참깨 ! 열려라 참깨 ! Rejected!OK, 신밧드! Only wakeup Wakeup + 화자식별 Wakeup + 화자인증
  • 4. 개인화 서비스 ◼Amazon echo (2017. 1) ◼NUGU 스피커 / STB 아리아, 오늘 일정 알려줘! 네, 오늘 일정은 OOO 입니다. 네, 좋아하시는 OOO를 재생하겠습니다. 네, 휴대폰을 찾겠습니다. 아리아, 신나는 노래 들려줘! 아리아, 내 폰 찾아줘! 알렉사, 쿠키 주문해줘! 네, 주문하신 제품을 구매하겠습니다.
  • 5. 개인화 서비스 ◼Amazon echo (2017. 1) ◼NUGU 스피커 / STB 알렉사, 쿠키 주문해줘! 아리아, 오늘 일정 알려줘! 네, OOO님의 오늘 일정은 OOO 입니다. 네, OOO님이 좋아하시는 OOO를 재생하겠습니다. 네, OOO님의 휴대폰을 찾겠습니다. 권한이 없습니다. 아리아, 신나는 노래 들려줘! 아리아, 내 폰 찾아줘!
  • 6. 개인화 서비스 ◼생체 인증 기술 필요 ◼Voice user interface ◼ 마이크 입력 장치만 필요 ◼ 과정이 자연스러움 ◼ 원거리에서 인증 가능 ◼ 정보량이 많음  화자, 성별, 연령, 언어, 감정
  • 7. 개인화 서비스 ◼개인정보 보호법 ◼ 개인정보의 수집, 유출, 오용, 남용으로부터 사생활의 비밀 등을 보호 ◼ 개인정보를 안전하게 저장 및 전송하는 것에 관한 사항을 규정 ◼ 개인정보 : 고유식별정보, 비밀번호, 바이오정보 등 ◼ 바이오정보  지문, 얼굴, 홍채, 정맥, 음성, 필적 등 개인을 식별할 수 있는 신체적 또는 행동적 특징에 관한 정보  개인을 인증 또는 식별하기 위하여 기술적으로 처리되는 개인정보  사진이나 음성정보 등은 특정 개인을 식별 또는 인증하기 위하여 기술적으로 처리되는 경우에 한해서만 바이오정보에 해당
  • 8. 화자인식 기술 소개 ◼화자 식별/인증 ◼ 식별 (identification)  다수의 후보 화자 중 택일 ◼ 인증 (verification)  단일 화자에 대한 신뢰도 측정 ◼ 2 stages  등록(enrollment)  인식(recognition) Multi-class classification Binary classification 화자 등록 특징 추출 / 모델링 특징 추출 Scoring 화자 모델 1 화자 인식 결과 화자 인식 화자 모델 N
  • 9. 화자인식 기술 소개 ◼Text-dependent, text-independent 화자인식 ◼ Text-dependent 화자인식 : 약속된 발화로 화자인식 ◼ Text-independent 화자인식 : 발화에 상관없이 화자 인식 ◼ 대부분의 AI 스피커는 text-dependent 화자인식 수행  wakeup word 사용 ◼ 장, 단점 ◼ 사용자 편의성, 인식 발화의 길이 고려 → text dependent 화자인식 Text-dependent Text-independent 등록 발화 약속된 발화(phonetic variability 없음) 아무 발화 (phonetic variability존재) 구현 쉬운 편 복잡함 등록 발화 수 적은 편 많은 편 인식 발화 길이 약속 발화 길이 길어야 함
  • 10. 화자인식 기술 소개 ◼GMM-UBM based approach ◼ 등록 화자별 확률 모델 : GMM ◼ 다양한 화자 특성을 반영한 확률 모델 : UBM Feature extraction <등록> <학습> <인식> result UBMSpeaker 1Speaker 2Speaker 3Speaker M MAP Speaker model Feature extraction train scoring Feature extraction GMM : Gaussian mixture model UBM : universal background model MAP : Maximum a posterior probability
  • 11. 화자인식 기술 소개 ◼i-vector based approach ◼ 화자, 세션 특성 모두 반영 ◼ 세션 variability 보상을 위해서 LDA, PLDA 등의 후처리 필요, 구현이 복잡한 편 Feature extraction <등록> <학습> <인식> result UBM TVM Speaker 1Speaker 2Speaker 3Speaker M i-vector extraction i-vector Feature extraction train scoring train Feature extraction i-vector extraction i-vector UBM : universal background model TVM : total variability matrix
  • 12. 화자인식 기술 소개 ◼Embedding vector based approach ◼ 화자 특성만을 잘 표현하도록 학습, 환경 mismatch에 강인한 편 ◼ long contextual information 고려, 구현이 비교적 쉬운 편, d-vector, x-vector Feature extraction <등록> <학습> <인식> result DNNSpeaker 1Speaker 2Speaker 3Speaker M Embedding vector extraction Embedding vector Feature extraction train scoring Feature extraction Embedding vector extraction Embedding vector Output layer Hidden layer Hidden layer input layer Embedding vector 화자 label 입력 feature
  • 13. 화자인식 기술 소개 ◼End-to-end approach ◼ 여러 component를 하나의 NN으로 통합 ◼ 학습 화자 수가 많을 때 효과적 j-th speaker centroid k-th speaker centroid j-th speaker embedding vector generalized E2E loss Triplet loss Georg Heigold, Ignacio Moreno, Samy Bengio, and Noam Shazeer, “End-to-end text-dependent speaker verification,” in Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016, pp. 5115–5119. Tuple-based E2E loss
  • 14. 화자인식 기술 소개 ◼성능 평가 ◼ 화자식별  오류율 ◼ 화자인증  FAR(false acceptance rate)  미등록 화자를 인증  FRR(false rejection rate)  등록 화자를 거절  최적 threshold  FA, FR tradeoff 고려 Ref. J.H.L. Hansen and T. Hasan, “Speaker recognition by machines and humans: A tutorial review,” IEEE Signal Proc. Mag., vol. 32, no. 6, pp. 74–99, 2015.
  • 15. 기술 적용의 어려움 ◼많은 종류의 음향 왜곡 요인 존재 (session variability) ◼ 외부 환경적 요인 : 잡음, 잔향, residual echo ◼ 화자 내부의 요인 : 감정, 건강, Rombard effect 에코제거 잡음 에코 잔향 잡음제거 잔향제거 음성검출 특징추출 화자인식
  • 16. 기술 적용의 어려움 ◼외부 환경적 요인 : Residual echo, 잡음 ◼ 여러 PoC(Point of Contact)에서의 다양한 음향 특성 NUGU (‘16.9) NUGU mini (‘17.8)Home B tv x NUGU (‘18.1) T map x NUGU (‘17.9) JOON x NUGU (‘17.10) Cookies mini x NUGU (‘18.4) NUGU candle (‘18.7) Car Mobile NUGU Nemo (‘19.4) B tv x NUGU(AI2) (‘19.8)
  • 17. 화자인식 성능 개선 ◼DNN embedding vector 추출 ◼학습 데이터 확보 ◼ 데이터 녹음 : 화자 수 확대 ◼ Data augmentation : 잡음, RIR, 여러 POC ◼특징 정규화 ◼ 발화 단위로 채널별 에너지 정규화 ◼정확한 음성 구간 추출 : 정확한 forced alignment 개발 ◼발화 속도 정규화 ◼ Speaking rate normalization 수행 → target keyword 길이 고정 RIR : room impulse response
  • 18. SKT 화자인식 시스템 ◼화자인식 시스템 특징 ◼ Text-dependent 화자인식 : wakeup word(‘아리아’, ‘팅커벨‘) ◼ 휴대폰으로 등록한 모델을 다른 여러 POC에서 공유 ◼ 화자식별 → 화자인증 ◼기술적 특징 ◼ DNN의 embedding vector extraction ◼ 발화 단위로 채널별 에너지 정규화 ◼ 정확한 forced alignment 적용 ◼ Speaking rate normalization
  • 19. SKT 화자인식 시스템 ◼화자인식 엔진 : 등록, 학습, 인식 과정 Embedding vector wakeup alignment Feature norm. SNR? Speaker 1 Speaker 2 Speaker 3 Speaker M alignment Feature norm. wakeup alignment Feature norm. DNNtrain Embedding vector scoring low SNR result vector extraction vector extraction 등록 인식 학습
  • 20. SKT 화자인식 시스템 ◼전체 flow Device 인식서버 분배 Group ID, 음성 데이터 음성인식엔진 NUGU App (wakeup, speex) Align확인 SNR측정 화자모델 생성 [화자등록 서버] x M Group ID별 화자모델 package [모델 관리서버] x L 화자인식엔진 Group ID, 음성 데이터 Group ID 화자모델 package 계정관리 서버 [컨트롤 서버] [인식 서버] x N 음성 데이터 ID별 화자모델 등록 성공 등록 성공 여부 화자 ID, 음성 데이터 음성데이터 등록성공 시 화자모델 인식결과, 화자 ID 인식결과, 화자 ID [화자등록 Process] [화자인식 Process]
  • 21. SKT 화자인식 시스템 ◼화자식별, 인증 성능 ◼ Task : 6명 화자가 5회 발화 후 등록, 업체 수집(100명) ◼ 환경 : 휴대폰(등록, 근거리), 스피커(인식, 1m ~ 3m 원거리)  스피커 : NUGU, NUGU mini, NUGU candle  Clean, echo(-5 dB SER) ◼ 성능 평가 metric : 화자 식별(오류율, %), 화자 인증(EER, %) task keyword 스피커 Clean Echo 식별(오류율) 아리아 0.67% 6.03% 팅커벨 0.54% 4.81% 인증(EER) 아리아 2.05% 6.97% 팅커벨 1.59% 6.15%
  • 22. SKT 화자인식 시스템 ◼등록 화자 수에 따른 성능 평가 결과(‘아리아’ keyword) ◼ 화자식별 오류율(%)  등록 화자 수가 증가 → 오류율 증가
  • 23. SKT 화자인식 시스템 ◼STB에서의 Live 성능 평가 ◼ Task : 6명 화자가 5회 발화 후 등록, 구성원 대상(15명) ◼ 환경 : clean, echo(가요, -10 dB SER) ◼ 성능 평가 metric : 화자 인증(EER, %) ◼ 시간의 흐름에 따른 성능 평가 결과 환경 당일 1일 경과 2일 경과 Clean 6.46% 7.06% 6.24% Echo 7.99% 9.10% 8.02%
  • 24. 향후 계획 ◼서비스 적용 및 확장 ◼ NUGU 개인화 서비스 상용 적용 ◼ 고객센터 ◼기술 확장 ◼ Text-independent 화자인식 개발 ◼ 화자 분할 개발 ◼ 연령 및 성별 분류 ◼성능 고도화 ◼ 상용 적용 이후 추가 학습에 의한 성능 향상 ◼ 사용자 로그로부터 자동 clustering 후 등록 발화 확대