SlideShare a Scribd company logo
마이크로소프트연구소
인재 육성 플랫폼
교수 협력 사례 발표
연세대학교 전기전자 공학과 강홍구 교수
마이크로소프트연구소와의 협업 영역
커리큘럼 혁신
• 교재 및 수업 개발
• 커리큘럼 자원제공
• 초청강연
인재육성
• 인턴십
• 박사과정 펠로우십
• 패컬티 펠로우십
연구협력
• 연구 주제별
프로젝트
• 패컬티 특별
프로젝트
• 방문 연구원
프로그램
학술교류
• 연례교수회의
• 21세기 컴퓨팅
컨퍼런스
• 지역 별 워크샵
컴퓨터 공학의 발전 과학적 발견과 연구 가속화 차세대 공학도 육성
마이크로소프트연구소와의 협업 소개
연구 분야 개요
유선/무선 전송
음성 신호 저장
음성 압축
음성 변환
잡음 제거
음성 강화
음성 발생 (발화)
음성 취득 (청취)
1472
실제 음성
문자-음성 변환
음성 / 화자 인식
휴먼-컴퓨터
인터페이스 (HCI)
감정 인식
음성 신호 처리
• 연구 협력 개요
• 지난 7년간 마이크로소프트연구소 아시아 Speech 그룹(그룹장: Dr. Frank Soong)과 지속적으로 진행
• 연구 주제
• 2008~09년 : 음성/음악 신호로부터 사용자 정보 추출
• 2010~11년 : 동영상 캡션을 위한 통합 음성인식 시스템
• 2011~12년 : 키넥트의 오디오-비디오 정보를 이용한 다중 사용자 위치 추정
• 2012~13년 : 여기 신호 모델링 개선을 이용한 HMM 기반의 TTS시스템 성능 향상
• 2013~14년 : 통계적 모델 기반의 TTS 시스템을 위한 효율적인 파형 모델링 기술
• 2014~현재 : 신경망 구조 기반의 다중 언어 TTS 시스템의 효과적인 구현
• 진행 방법: 순환 구조 연구 협력
• 마이크로소프트연구소 아시아 자체 지원 혹은 마이크로소프트연구소 아시아/정부 공동 지원 프로젝트
• 연구 주제 및 목표 도출
• 온라인 논의 혹은 그룹 직접 미팅을 통한 결과 분석 및 논의
• 마이크로소프트연구소 아시아 연구소 방문 그룹 미팅
• 프로젝트 성과 발표
• 연구 결과 및 향후 연구 방향에 대한 토의
연구협력 분야에서의 협업
마이크로소프트연구소 Speech group과의 미팅 中
인재육성 분야에서의 협업
선발 과정 인턴 기간 인턴 이후
참여연구원들의 통합 평가를 통해 인턴쉽 선발
- 1차 서류 심사
- 2차 1차 면접 (자질 및 역량, 인성 등)
- 3차 마이크로소프트연구소 아시아 멘토와 on-site 1:1 면접
마이크로소프트연구소 아시아 (베이징) 인턴쉽 (6개월) - 7명
마이크로소프트연구소 (시애틀) 인턴쉽 (3개월) - 5명
박사과정 펠로우쉽 – 2명
지속적 멘토링을 통해 해외 학회 및 저널에 논문 발표
(해외 학회 6편, 해외 저널 1편, 준비 3편)
• 마이크로소프트연구소 Speech Group의 기술 발표 및 데모 시연
• 최신 기술 동향 및 향후 발전 방향 파악
• Korean Day를 통한 학술 교류
• 마이크로소프트연구소와 프로젝트에 참여했던
연구팀들의 기술 발표 및 데모 시연을 통해 다양한 분야의 기술 접할 수 있는 기회
학술교류 분야에서의 협업
2013년도 Korean day
Korean day에서 참여 연구팀들의 기술 발표 및 데모 시연 中
• 국제적으로 명성이 높은 해외 기관 연구팀으로부터 본 연구팀에서 기획한 연구 과제의 수행
방법 및 결과에 대한 질적인 평가를 객관적으로 받을 수 있음
• 학문으로만 존재하는 연구 결과가 아니라 사회에 도움이 될 수 있는 기술에 관한 연구,
그리고 단기적 성과 보다는 장기적 관점 하에 꾸준히 연구를 진행할 수 있다는 측면에서
매우 바람직함
• 연구 능력이 뛰어나고, 동기가 뚜렷한 참여 대학원생들에게 해외기관에서 인턴쉽을 수행할
기회를 부여하므로 차세대 리더로 성장할 젊은 인재들의 국제화 감각을 높일 수 있음
마이크로소프트연구소와의 협업의 특징
• 세계 시장 선점을 위해서는 국내에서 자체적으로 기술력을 확보하는 노력 뿐만 아니라
관련 연구 분야를 선도하는 글로벌 기업과의 공동 연구를 활성화하여 보다 적극적으로
기술력을 향상시키기 위한 노력이 필요함
• 치열한 글로벌 시장에서의 경쟁력을 높이기 위해서는 뛰어난 연구 능력과 열린 마음을
가진 젊은 인재를 양성하기 위한 다양한 연구/교육 프로그램이 확대되어야 함
• 정부와 마이크로소프트가 함께 지원하는 본 프로그램은 국내 대학에 재학 중인 많은
대학원생들에게 매우 독특하고 특별한 기회와 경험을 제공하고 있으므로 이를 더욱
확대할 수 있는 방안 마련이 필요함
향후 협업 계획 및 발전 방향
연구 내용 상세 소개
(최근 3년간)
문자-음성 변환(Text-to-Speech)
• 입력 텍스트 분석
• 텍스트 전처리, 구문 분석, 발음 변환
• 음성 신호 처리
• 운율 조절, 음성 신호 생성
• 활용 분야
• 안내 방송: 자동 응답 시스템, 대중 교통 안내, 네비게이션
• 장애인을 위한 시스템: 스크린 리더, 음성 합성기
• 기타: 스마트 기기, 음성 번역기, 오락용/교육용 어플리케이션 등
문자-음성 변환 (TTS) 기술 개요 (1)
입력 텍스트 분석 음성 신호 처리
• 현재 지하철 안내 방송
• 여러명의 성우가 직접 녹음
• 추가 녹음이 필요할 時,
• 성우가 아프거나 부재중이거나 목소리에 변화가 있다면 녹음을 하기까지 시간이 걸리며
다시 처음부터 녹음해야 하는 경우도 발생 가능
문자-음성 변환 (TTS) 기술 개요 (2) - 필요성
 TTS 사용 時
편리성 증가 & 음성의 일관성 유지 & 시간 및 비용 절감 가능
문자-음성 변환 (TTS) 기술 개요 (3) – 기술동향
• 기술 동향
• 음성은 차세대 보조 입·출력 방식이 될 가능성
이 매우 높음
• 예) Microsoft Cortana는 음성 인식 및 합성 기
술로 사용자에게 서비스 제공
• 활용 분야가 매우 다양함
• 웨어러블 기기
• 인공지능 로봇
• 자동차
마이크로소프트 밴드
인공지능 로봇
(영화 ‘빅히어로’, ‘인터스텔라’ 中)
감정 로봇 ‘Pepper’
자동차 내부 환경
[출처]
”Get Started with Cortana” -
http://youtube.com/watch?v=tQFrd6SEiLM
• 목표: 실제 사람이 말하는 것처럼 자연스러운 음성 합성
• 깨끗한 합성음질 및 자연스러운 운율 등
• 음성 합성 방식
• 포먼트 합성 [DECtalk]
• 음성 합성에 필요한 파라미터 값들에 대한 규칙이 정해져 있고,
이를 이용하여 음성 신호를 생성하는 방식
• 데이터베이스 기반의 음성 조각 연결 합성 [AT&T]
• 미리 녹음해 놓은 음성 데이터베이스에서 텍스트에
해당하는 음성 신호 조각을 선택하여 연결하는 방식
• 데이터베이스 기반의 통계적 파라메트릭 모델 합성 [HTS]
• 통계적으로 훈련된 모델로부터 생성된 음성 파라미터 값을
이용하여 음성 신호를 생성하는 방식
문자-음성 변환 (TTS) 기술 개요 (4)
[출처]
DECtalk : http://www.speechfxinc.com/dectalk.html
AT&T : http://www2.research.att.com/~ttsweb/tts/demo.php
HTS : http://hts.sp.nitech.ac.jp/nitech-naist-hts_blizzard2006
• 소스(source)-필터(filter) 모델
• 음성 신호는 소스-필터 모델로 표현될 수 있음
• 필터: 성도 전달 함수
• 음원: 여기 (excitation) 모델
• 유성음 – 펄스 신호
• 무성음 – 잡음 신호
문자-음성 변환 (TTS) 기술 개요 (5) – 음성 발생 모델
)n(sˆ)z(A1
1

e(n)
gain
impulse train
random noise
pitch
V
UV
여기신호
음원
성도
전달함수
합성음
합성음의 품질은 음성 발생 모델의 성능에 의해 큰 영향을 받음.
• 연구 분야
• 사람과 기계 (Human-Computer), 혹은 사람과 사람 (Human-Human)과의 자연스러운 인터페이스를 위한
핵심 기술인 ‘음성합성 (Speech synthesis, Text-to-Speech)’ 시스템의 성능 향상을 위한 연구
• 연구 내용 및 성과
• 연산량 및 메모리가 제한된 경우에 적용 가능한 은닉 마르코프 모델 (HMM; Hidden Markov Model)을
이용한 통계 기반 합성 방법의 성능 개선 연구
• 최근 기계 학습 (machine learning) 분야에서 각광받고 있는 deep learning (DNN; Deep Neural
Network) 기반의 음성 합성 시스템 구현 및 성능 향상을 통한 기술 선도
• 다국어 지원이 가능한 음성합성 시스템으로 확장하기 위한 필수 기술 연구를 통해 향후 개인별 맞춤
시스템으로 활용 가능성 타진
• 공동연구를 주도했던 연구원들이 해외 인턴십에 참여하여 연구의 연속성 유지
• 마이크로소프트연구소 아시아 멘토와의 1:1 멘토링을 통한 연구 능력 향상 및 다양한 연구 수행 방법 경험
지난 3년간 공동 연구 내용 요약
• 주제 : 여기 (excitation) 신호 모델링 개선을 이용한 HMM 기반의 TTS 시스템 성능 향상
• 기간 : 2012.08 ~ 2013.06 (11개월)
• 목표
• 여기 신호 모델링 개선을 통해 통계적 모델의 훈련 정확도를 높임으로써 합성음의 성능 향상을 목표로 함
• 제안한 여기 신호 모델 (Time-Frequency Trajectory Excitation, TFTE)
• 여기 신호를 시간-주파수 축에서 천천히/빠르게 변하는 성분으로 분리하여 각 성분 특성에 맞게 모델을 설
계함으로써 통계적 모델의 정확도를 향상시킴
연구 프로젝트 I (1)
음성
데이터베이스
특성 추출
음성 신호
생성
합성음
파라미터
생성
모델 훈련
입력
문장
그림. HMM 기반의 TTS 시스템 구성도
그림. 제안한 여기 신호 모델 (TFTE)
• 실험 환경
• 데이터베이스: 한국어 남성 화자
• 훈련/테스트 문장: 약 3,000/20문장
• 성능평가
• 객관적 성능 평가
• 데이터의 오차 및 왜곡도가 작다는 것은
통계적 모델 훈련이 잘 되었음을 의미
• 제안한 모델 (TFTE)이 기존 방법에 비해
성능이 매우 뛰어남
• 주관적 청취 평가 (선호도 평가)
• 참여 인원 : 20명
• X : 선호도가 비슷한 경우
연구 프로젝트 I (2)
그림. 정규화된 평균 자승 오차 그림. 스펙트럼 왜곡도
그림. 선호도 결과
< 여기 신호 모델 비교군 >
 제안한 모델 : TFTE
 비교군 :
• 녹음 원본 : 최종 목표
• PoN : 하향 기준점
• STRAIGHT : 현재 기술 中 상향 기준점
• 주제 : 신경망 (DNN; Deep Neural Network) 기반의 TTS 시스템을 위한 효율적인 파형 모델링 기술
• 기간 : 2013.11 ~ 2014.06 (8개월)
• 연구 배경
• DNN은 뇌의 신경망 구조를 따라 만든 모델로 입력과 출력 데이터간의 관계를 매우 정확히 추정 가능함
• 음성 인식, 영상 신호처리, 인공 지능 분야에 접목되어 성능 향상에 매우 큰 기여
• DNN 기반의 음성 합성 연구는 아직 초기 단계임
연구 프로젝트 II (1)
︙ ︙ ︙ ︙ ︙
은닉층입력층 출력층
입력
데이터
출력
데이터
그림. 신경망 (DNN) 구조그림. 사람 뇌의 신경망
• 연구 목표
• DNN 기반 TTS 시스템 구현 및 성능 향상
• 데이터 입출력 사이의 비선형적인 관계를 예측할 수 있는 DNN의 장점을 활용하여 소스-필터 및 음성 파
형 모델의 정확도를 높이기 위한 훈련 과정 도입
• 소스-필터 모델
• 음성 신호를 소스-필터 모델 파라미터로 변환하여 통계적 모델을 훈련시킴
• 파형 생성 모델
• 음성 신호 파형 자체를 모델링 함
• 모델 파라미터로 변환시 발생하는 왜곡을 감소시키고자 함
• 데이터 간의 비선형적인 특성 관계를 예측하는 DNN의 장점을 활용하고자 함
연구 프로젝트 II (2)
• 실험 환경
• 데이터베이스: 한국어 남성 화자
• 훈련/테스트 문장: 약 3,000/20 문장
• 성능 평가
• 객관적 성능 평가
• 데이터의 오차 및 왜곡도가 적다는 것은 통계적 모델 훈련이 잘 되었음을 의미
• DNN을 이용한 방법이 기존의 통계적 모델 방법인 HMM보다 성능이 더 우수함
연구 프로젝트 II (3)
시스템
측정 항목
TFTE-DNN
(duration: known)
TFTE-HMM
512*3 1024*3
스펙트럼 왜곡도 (LSD) [dB] 3.10 3.12 5.27
SEW 정규화
평균 제곱 오차 (NMSE)
0.31 0.31 0.39
F0 표준 오차 (RMSE) [Hz] 24.11 24.12 26.91
• 주제 : 신경망 (DNN) 기반의 다중 언어 TTS 시스템 구현
• 기간 : 2014.09 ~ 2015.06 (10개월)
• 연구 배경
• 여러 언어의 단어가 포함되어 있는 문장에 대해
자연스러운 합성음 제공
• 특정 언어용으로 설계된 TTS 시스템을 다른 언어의
시스템으로 쉽게 확장 가능
• 고려 사항
• 다중 언어 데이터베이스를 어떻게 구축할 것인가?
• 다중 화자 및 언어의 공통 특징 정보를 어떻게 추출할 것인가?
• 다중 언어 TTS 시스템 구현을 위하여 어떤 방식의 DNN 훈련 방법을 사용해야 하는가?
연구 프로젝트 III (1)
여러분, 왼쪽에 보이는 것은
Paris의 la tour Eiffel입니다.
• 제안한 신경망 구조 기반의 다중 언어 TTS 시스템 구성도
• 연구 진행 중인 기술
• 화자간의 특성 그리고 언어간의 특성 차이를 정규화하는 기술
• 음성 기호 (음소)와 음성 신호 파라미터 간의 관계 법칙 (mapping rule) 설계  Deep learning
• 참고
: 다국어 지원 시스템으로서 응용 분야 다변화를 위해 매우 중요한 기술
연구 프로젝트 III (2)
그림. 제안하는 시스템 구성도 예시
︙ ︙ ︙ ︙ ︙
은닉층입력층 출력층
일본어 DB
음소정보
음성 변환
한국어 DB
영어 DB
독일어 DB
음성 변환
한국어 DB
영어 DB
독일어 DB
• 음성을 이용한 HCI (Human Computer Interface or Interaction) 기술
• 자연스럽고 매우 편리하다는 장점으로 인해 지난 수 십 년 동안 활발히 연구되어 왔으며, 앞으로도 꾸준히
연구가 진행될 것으로 예측됨
• 음성 합성 기술
• 관련 IT 기술의 발전과 컴퓨터 성능 향상으로 인해 합성된 음성의 품질이 자연스러워지고 있음
• 글로벌 통신 및 인터넷 확장, 그리고 문화 교류가 활발해짐에 따라 국가/지역간의 심리적 거리가 좁혀지고
있으며, 이에 따라 다국어 지원 시스템에 대한 필요성은 지속적으로 높아질 수 밖에 없음
• 한 명의 화자가 단순하게 책을 읽는 톤의 목소리에서 다양한 목소리 특성을 지닌 화자가 자연스럽게 감정
을 표현하는 듯한 시스템으로 확장 연구도 활발히 진행 중임
발표 요약
Q&A

More Related Content

What's hot

Sharing development experience of educational apps for the hard of hearing (P...
Sharing development experience of educational apps for the hard of hearing (P...Sharing development experience of educational apps for the hard of hearing (P...
Sharing development experience of educational apps for the hard of hearing (P...
Youngki Moon
 
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
태현 임
 
[214]베이지안토픽모형 강병엽
[214]베이지안토픽모형 강병엽[214]베이지안토픽모형 강병엽
[214]베이지안토픽모형 강병엽
NAVER D2
 
파이썬과 자연어 3 | 문장구조
파이썬과 자연어 3 | 문장구조파이썬과 자연어 3 | 문장구조
파이썬과 자연어 3 | 문장구조
김용범 | 무영인터내쇼날
 
GloVe:Global vectors for word representation
GloVe:Global vectors for word representationGloVe:Global vectors for word representation
GloVe:Global vectors for word representation
keunbong kwak
 
[226]대용량 텍스트마이닝 기술 하정우
[226]대용량 텍스트마이닝 기술 하정우[226]대용량 텍스트마이닝 기술 하정우
[226]대용량 텍스트마이닝 기술 하정우
NAVER D2
 
파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석
김용범 | 무영인터내쇼날
 
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
NAVER D2
 
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템Seokhwan Kim
 
자연어2 | 1차강의
자연어2 | 1차강의자연어2 | 1차강의
자연어2 | 1차강의
김용범 | 무영인터내쇼날
 
파이썬과 자연어 2 | Sentence
파이썬과 자연어 2 | Sentence 파이썬과 자연어 2 | Sentence
파이썬과 자연어 2 | Sentence
김용범 | 무영인터내쇼날
 
Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차
Taekyung Han
 
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
NAVER D2
 
파이썬을 활용한 자연어분석 기초
파이썬을 활용한 자연어분석 기초파이썬을 활용한 자연어분석 기초
파이썬을 활용한 자연어분석 기초
김용범 | 무영인터내쇼날
 
05 1 자료형과문자열
05 1 자료형과문자열05 1 자료형과문자열
05 1 자료형과문자열
Changwon National University
 
자연어1 | 1차강의
자연어1 | 1차강의자연어1 | 1차강의
자연어1 | 1차강의
김용범 | 무영인터내쇼날
 
Deep learning hands on (딥러닝 실습 특강)
Deep learning hands on (딥러닝 실습 특강)Deep learning hands on (딥러닝 실습 특강)
Deep learning hands on (딥러닝 실습 특강)
Alex G. Lee, Ph.D. Esq. CLP
 
Rumor detection on social media
Rumor detection on social mediaRumor detection on social media
Rumor detection on social media
segwangkim
 
전자회로설계(강의계획서)2014-1
전자회로설계(강의계획서)2014-1전자회로설계(강의계획서)2014-1
전자회로설계(강의계획서)2014-1Yong Heui Cho
 
[IT21 글로벌 컨퍼런스] 대화시스템 개발을 위한 자연어처리기술 - 서희철
[IT21 글로벌 컨퍼런스] 대화시스템 개발을 위한 자연어처리기술 - 서희철[IT21 글로벌 컨퍼런스] 대화시스템 개발을 위한 자연어처리기술 - 서희철
[IT21 글로벌 컨퍼런스] 대화시스템 개발을 위한 자연어처리기술 - 서희철
NAVER Engineering
 

What's hot (20)

Sharing development experience of educational apps for the hard of hearing (P...
Sharing development experience of educational apps for the hard of hearing (P...Sharing development experience of educational apps for the hard of hearing (P...
Sharing development experience of educational apps for the hard of hearing (P...
 
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
 
[214]베이지안토픽모형 강병엽
[214]베이지안토픽모형 강병엽[214]베이지안토픽모형 강병엽
[214]베이지안토픽모형 강병엽
 
파이썬과 자연어 3 | 문장구조
파이썬과 자연어 3 | 문장구조파이썬과 자연어 3 | 문장구조
파이썬과 자연어 3 | 문장구조
 
GloVe:Global vectors for word representation
GloVe:Global vectors for word representationGloVe:Global vectors for word representation
GloVe:Global vectors for word representation
 
[226]대용량 텍스트마이닝 기술 하정우
[226]대용량 텍스트마이닝 기술 하정우[226]대용량 텍스트마이닝 기술 하정우
[226]대용량 텍스트마이닝 기술 하정우
 
파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석
 
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
 
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
 
자연어2 | 1차강의
자연어2 | 1차강의자연어2 | 1차강의
자연어2 | 1차강의
 
파이썬과 자연어 2 | Sentence
파이썬과 자연어 2 | Sentence 파이썬과 자연어 2 | Sentence
파이썬과 자연어 2 | Sentence
 
Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차
 
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
 
파이썬을 활용한 자연어분석 기초
파이썬을 활용한 자연어분석 기초파이썬을 활용한 자연어분석 기초
파이썬을 활용한 자연어분석 기초
 
05 1 자료형과문자열
05 1 자료형과문자열05 1 자료형과문자열
05 1 자료형과문자열
 
자연어1 | 1차강의
자연어1 | 1차강의자연어1 | 1차강의
자연어1 | 1차강의
 
Deep learning hands on (딥러닝 실습 특강)
Deep learning hands on (딥러닝 실습 특강)Deep learning hands on (딥러닝 실습 특강)
Deep learning hands on (딥러닝 실습 특강)
 
Rumor detection on social media
Rumor detection on social mediaRumor detection on social media
Rumor detection on social media
 
전자회로설계(강의계획서)2014-1
전자회로설계(강의계획서)2014-1전자회로설계(강의계획서)2014-1
전자회로설계(강의계획서)2014-1
 
[IT21 글로벌 컨퍼런스] 대화시스템 개발을 위한 자연어처리기술 - 서희철
[IT21 글로벌 컨퍼런스] 대화시스템 개발을 위한 자연어처리기술 - 서희철[IT21 글로벌 컨퍼런스] 대화시스템 개발을 위한 자연어처리기술 - 서희철
[IT21 글로벌 컨퍼런스] 대화시스템 개발을 위한 자연어처리기술 - 서희철
 

Similar to 20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성

Toolkits for robust speech processing
Toolkits for robust speech processingToolkits for robust speech processing
Toolkits for robust speech processing
창기 문
 
2012 3 qp_hybrid algorithm optimization with artificial intelligence
2012 3 qp_hybrid algorithm optimization with artificial intelligence 2012 3 qp_hybrid algorithm optimization with artificial intelligence
2012 3 qp_hybrid algorithm optimization with artificial intelligence
Jong MIn Yu
 
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
Taejoon Yoo
 
2017 ver. portfolio
2017 ver. portfolio2017 ver. portfolio
2017 ver. portfolio
Jooyeon Jo
 
응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈
HELENA LEE
 
새로운 기술로 '장애'를 재해석하는 기회를 만들 수 있을까?
새로운 기술로 '장애'를 재해석하는 기회를 만들 수 있을까?새로운 기술로 '장애'를 재해석하는 기회를 만들 수 있을까?
새로운 기술로 '장애'를 재해석하는 기회를 만들 수 있을까?
Myuserable
 
피지컬 컴퓨팅 교육을 위한 프로그래밍 언어 활용 방안 연구
피지컬 컴퓨팅 교육을 위한 프로그래밍 언어 활용 방안 연구피지컬 컴퓨팅 교육을 위한 프로그래밍 언어 활용 방안 연구
피지컬 컴퓨팅 교육을 위한 프로그래밍 언어 활용 방안 연구
yunjae jang
 
TTS System을 이용한 교육용 소프트웨어 개발
TTS System을 이용한 교육용 소프트웨어 개발TTS System을 이용한 교육용 소프트웨어 개발
TTS System을 이용한 교육용 소프트웨어 개발
Jongmyoung Kim
 
[신청서]설계왕 스터디 지원서
[신청서]설계왕 스터디 지원서[신청서]설계왕 스터디 지원서
[신청서]설계왕 스터디 지원서
Seongho Park
 
마인즈랩소개자료 20150616
마인즈랩소개자료 20150616마인즈랩소개자료 20150616
마인즈랩소개자료 20150616
Taejoon Yoo
 
백인걸_Ask Optimal Question_alignings LLM with Retriever's preference in C...
백인걸_Ask Optimal Question_alignings LLM with Retriever's preference in C...백인걸_Ask Optimal Question_alignings LLM with Retriever's preference in C...
백인걸_Ask Optimal Question_alignings LLM with Retriever's preference in C...
Ingeol Baek
 
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
NUGU developers
 
스마트안경 및 음성인식 기술을 활용한 청각장애인의 다가잔 대화 지원 시스템 연구
스마트안경 및 음성인식 기술을 활용한 청각장애인의 다가잔 대화 지원 시스템 연구스마트안경 및 음성인식 기술을 활용한 청각장애인의 다가잔 대화 지원 시스템 연구
스마트안경 및 음성인식 기술을 활용한 청각장애인의 다가잔 대화 지원 시스템 연구
Yoojung Kim
 
[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경
NAVER D2
 
PR-218: MFAS: Multimodal Fusion Architecture Search
PR-218: MFAS: Multimodal Fusion Architecture SearchPR-218: MFAS: Multimodal Fusion Architecture Search
PR-218: MFAS: Multimodal Fusion Architecture Search
Sunghoon Joo
 
제55회 일본미래학교(20110928)
제55회 일본미래학교(20110928)제55회 일본미래학교(20110928)
제55회 일본미래학교(20110928)
Kyubok Cho
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
Taehoon Kim
 
2206 Modupop!
2206 Modupop!2206 Modupop!
2206 Modupop!
WarNik Chow
 
인공지능기반 디지털교과서비스 전략 탐색
인공지능기반 디지털교과서비스 전략 탐색인공지능기반 디지털교과서비스 전략 탐색
인공지능기반 디지털교과서비스 전략 탐색
Euisuk Jeong
 
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
Taejoon Yoo
 

Similar to 20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성 (20)

Toolkits for robust speech processing
Toolkits for robust speech processingToolkits for robust speech processing
Toolkits for robust speech processing
 
2012 3 qp_hybrid algorithm optimization with artificial intelligence
2012 3 qp_hybrid algorithm optimization with artificial intelligence 2012 3 qp_hybrid algorithm optimization with artificial intelligence
2012 3 qp_hybrid algorithm optimization with artificial intelligence
 
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
 
2017 ver. portfolio
2017 ver. portfolio2017 ver. portfolio
2017 ver. portfolio
 
응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈
 
새로운 기술로 '장애'를 재해석하는 기회를 만들 수 있을까?
새로운 기술로 '장애'를 재해석하는 기회를 만들 수 있을까?새로운 기술로 '장애'를 재해석하는 기회를 만들 수 있을까?
새로운 기술로 '장애'를 재해석하는 기회를 만들 수 있을까?
 
피지컬 컴퓨팅 교육을 위한 프로그래밍 언어 활용 방안 연구
피지컬 컴퓨팅 교육을 위한 프로그래밍 언어 활용 방안 연구피지컬 컴퓨팅 교육을 위한 프로그래밍 언어 활용 방안 연구
피지컬 컴퓨팅 교육을 위한 프로그래밍 언어 활용 방안 연구
 
TTS System을 이용한 교육용 소프트웨어 개발
TTS System을 이용한 교육용 소프트웨어 개발TTS System을 이용한 교육용 소프트웨어 개발
TTS System을 이용한 교육용 소프트웨어 개발
 
[신청서]설계왕 스터디 지원서
[신청서]설계왕 스터디 지원서[신청서]설계왕 스터디 지원서
[신청서]설계왕 스터디 지원서
 
마인즈랩소개자료 20150616
마인즈랩소개자료 20150616마인즈랩소개자료 20150616
마인즈랩소개자료 20150616
 
백인걸_Ask Optimal Question_alignings LLM with Retriever's preference in C...
백인걸_Ask Optimal Question_alignings LLM with Retriever's preference in C...백인걸_Ask Optimal Question_alignings LLM with Retriever's preference in C...
백인걸_Ask Optimal Question_alignings LLM with Retriever's preference in C...
 
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
 
스마트안경 및 음성인식 기술을 활용한 청각장애인의 다가잔 대화 지원 시스템 연구
스마트안경 및 음성인식 기술을 활용한 청각장애인의 다가잔 대화 지원 시스템 연구스마트안경 및 음성인식 기술을 활용한 청각장애인의 다가잔 대화 지원 시스템 연구
스마트안경 및 음성인식 기술을 활용한 청각장애인의 다가잔 대화 지원 시스템 연구
 
[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경
 
PR-218: MFAS: Multimodal Fusion Architecture Search
PR-218: MFAS: Multimodal Fusion Architecture SearchPR-218: MFAS: Multimodal Fusion Architecture Search
PR-218: MFAS: Multimodal Fusion Architecture Search
 
제55회 일본미래학교(20110928)
제55회 일본미래학교(20110928)제55회 일본미래학교(20110928)
제55회 일본미래학교(20110928)
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
 
2206 Modupop!
2206 Modupop!2206 Modupop!
2206 Modupop!
 
인공지능기반 디지털교과서비스 전략 탐색
인공지능기반 디지털교과서비스 전략 탐색인공지능기반 디지털교과서비스 전략 탐색
인공지능기반 디지털교과서비스 전략 탐색
 
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
 

20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성

  • 1. 마이크로소프트연구소 인재 육성 플랫폼 교수 협력 사례 발표 연세대학교 전기전자 공학과 강홍구 교수
  • 2. 마이크로소프트연구소와의 협업 영역 커리큘럼 혁신 • 교재 및 수업 개발 • 커리큘럼 자원제공 • 초청강연 인재육성 • 인턴십 • 박사과정 펠로우십 • 패컬티 펠로우십 연구협력 • 연구 주제별 프로젝트 • 패컬티 특별 프로젝트 • 방문 연구원 프로그램 학술교류 • 연례교수회의 • 21세기 컴퓨팅 컨퍼런스 • 지역 별 워크샵 컴퓨터 공학의 발전 과학적 발견과 연구 가속화 차세대 공학도 육성
  • 4. 연구 분야 개요 유선/무선 전송 음성 신호 저장 음성 압축 음성 변환 잡음 제거 음성 강화 음성 발생 (발화) 음성 취득 (청취) 1472 실제 음성 문자-음성 변환 음성 / 화자 인식 휴먼-컴퓨터 인터페이스 (HCI) 감정 인식 음성 신호 처리
  • 5. • 연구 협력 개요 • 지난 7년간 마이크로소프트연구소 아시아 Speech 그룹(그룹장: Dr. Frank Soong)과 지속적으로 진행 • 연구 주제 • 2008~09년 : 음성/음악 신호로부터 사용자 정보 추출 • 2010~11년 : 동영상 캡션을 위한 통합 음성인식 시스템 • 2011~12년 : 키넥트의 오디오-비디오 정보를 이용한 다중 사용자 위치 추정 • 2012~13년 : 여기 신호 모델링 개선을 이용한 HMM 기반의 TTS시스템 성능 향상 • 2013~14년 : 통계적 모델 기반의 TTS 시스템을 위한 효율적인 파형 모델링 기술 • 2014~현재 : 신경망 구조 기반의 다중 언어 TTS 시스템의 효과적인 구현 • 진행 방법: 순환 구조 연구 협력 • 마이크로소프트연구소 아시아 자체 지원 혹은 마이크로소프트연구소 아시아/정부 공동 지원 프로젝트 • 연구 주제 및 목표 도출 • 온라인 논의 혹은 그룹 직접 미팅을 통한 결과 분석 및 논의 • 마이크로소프트연구소 아시아 연구소 방문 그룹 미팅 • 프로젝트 성과 발표 • 연구 결과 및 향후 연구 방향에 대한 토의 연구협력 분야에서의 협업 마이크로소프트연구소 Speech group과의 미팅 中
  • 6. 인재육성 분야에서의 협업 선발 과정 인턴 기간 인턴 이후 참여연구원들의 통합 평가를 통해 인턴쉽 선발 - 1차 서류 심사 - 2차 1차 면접 (자질 및 역량, 인성 등) - 3차 마이크로소프트연구소 아시아 멘토와 on-site 1:1 면접 마이크로소프트연구소 아시아 (베이징) 인턴쉽 (6개월) - 7명 마이크로소프트연구소 (시애틀) 인턴쉽 (3개월) - 5명 박사과정 펠로우쉽 – 2명 지속적 멘토링을 통해 해외 학회 및 저널에 논문 발표 (해외 학회 6편, 해외 저널 1편, 준비 3편)
  • 7. • 마이크로소프트연구소 Speech Group의 기술 발표 및 데모 시연 • 최신 기술 동향 및 향후 발전 방향 파악 • Korean Day를 통한 학술 교류 • 마이크로소프트연구소와 프로젝트에 참여했던 연구팀들의 기술 발표 및 데모 시연을 통해 다양한 분야의 기술 접할 수 있는 기회 학술교류 분야에서의 협업 2013년도 Korean day Korean day에서 참여 연구팀들의 기술 발표 및 데모 시연 中
  • 8. • 국제적으로 명성이 높은 해외 기관 연구팀으로부터 본 연구팀에서 기획한 연구 과제의 수행 방법 및 결과에 대한 질적인 평가를 객관적으로 받을 수 있음 • 학문으로만 존재하는 연구 결과가 아니라 사회에 도움이 될 수 있는 기술에 관한 연구, 그리고 단기적 성과 보다는 장기적 관점 하에 꾸준히 연구를 진행할 수 있다는 측면에서 매우 바람직함 • 연구 능력이 뛰어나고, 동기가 뚜렷한 참여 대학원생들에게 해외기관에서 인턴쉽을 수행할 기회를 부여하므로 차세대 리더로 성장할 젊은 인재들의 국제화 감각을 높일 수 있음 마이크로소프트연구소와의 협업의 특징
  • 9. • 세계 시장 선점을 위해서는 국내에서 자체적으로 기술력을 확보하는 노력 뿐만 아니라 관련 연구 분야를 선도하는 글로벌 기업과의 공동 연구를 활성화하여 보다 적극적으로 기술력을 향상시키기 위한 노력이 필요함 • 치열한 글로벌 시장에서의 경쟁력을 높이기 위해서는 뛰어난 연구 능력과 열린 마음을 가진 젊은 인재를 양성하기 위한 다양한 연구/교육 프로그램이 확대되어야 함 • 정부와 마이크로소프트가 함께 지원하는 본 프로그램은 국내 대학에 재학 중인 많은 대학원생들에게 매우 독특하고 특별한 기회와 경험을 제공하고 있으므로 이를 더욱 확대할 수 있는 방안 마련이 필요함 향후 협업 계획 및 발전 방향
  • 10. 연구 내용 상세 소개 (최근 3년간) 문자-음성 변환(Text-to-Speech)
  • 11. • 입력 텍스트 분석 • 텍스트 전처리, 구문 분석, 발음 변환 • 음성 신호 처리 • 운율 조절, 음성 신호 생성 • 활용 분야 • 안내 방송: 자동 응답 시스템, 대중 교통 안내, 네비게이션 • 장애인을 위한 시스템: 스크린 리더, 음성 합성기 • 기타: 스마트 기기, 음성 번역기, 오락용/교육용 어플리케이션 등 문자-음성 변환 (TTS) 기술 개요 (1) 입력 텍스트 분석 음성 신호 처리
  • 12. • 현재 지하철 안내 방송 • 여러명의 성우가 직접 녹음 • 추가 녹음이 필요할 時, • 성우가 아프거나 부재중이거나 목소리에 변화가 있다면 녹음을 하기까지 시간이 걸리며 다시 처음부터 녹음해야 하는 경우도 발생 가능 문자-음성 변환 (TTS) 기술 개요 (2) - 필요성  TTS 사용 時 편리성 증가 & 음성의 일관성 유지 & 시간 및 비용 절감 가능
  • 13. 문자-음성 변환 (TTS) 기술 개요 (3) – 기술동향 • 기술 동향 • 음성은 차세대 보조 입·출력 방식이 될 가능성 이 매우 높음 • 예) Microsoft Cortana는 음성 인식 및 합성 기 술로 사용자에게 서비스 제공 • 활용 분야가 매우 다양함 • 웨어러블 기기 • 인공지능 로봇 • 자동차 마이크로소프트 밴드 인공지능 로봇 (영화 ‘빅히어로’, ‘인터스텔라’ 中) 감정 로봇 ‘Pepper’ 자동차 내부 환경 [출처] ”Get Started with Cortana” - http://youtube.com/watch?v=tQFrd6SEiLM
  • 14. • 목표: 실제 사람이 말하는 것처럼 자연스러운 음성 합성 • 깨끗한 합성음질 및 자연스러운 운율 등 • 음성 합성 방식 • 포먼트 합성 [DECtalk] • 음성 합성에 필요한 파라미터 값들에 대한 규칙이 정해져 있고, 이를 이용하여 음성 신호를 생성하는 방식 • 데이터베이스 기반의 음성 조각 연결 합성 [AT&T] • 미리 녹음해 놓은 음성 데이터베이스에서 텍스트에 해당하는 음성 신호 조각을 선택하여 연결하는 방식 • 데이터베이스 기반의 통계적 파라메트릭 모델 합성 [HTS] • 통계적으로 훈련된 모델로부터 생성된 음성 파라미터 값을 이용하여 음성 신호를 생성하는 방식 문자-음성 변환 (TTS) 기술 개요 (4) [출처] DECtalk : http://www.speechfxinc.com/dectalk.html AT&T : http://www2.research.att.com/~ttsweb/tts/demo.php HTS : http://hts.sp.nitech.ac.jp/nitech-naist-hts_blizzard2006
  • 15. • 소스(source)-필터(filter) 모델 • 음성 신호는 소스-필터 모델로 표현될 수 있음 • 필터: 성도 전달 함수 • 음원: 여기 (excitation) 모델 • 유성음 – 펄스 신호 • 무성음 – 잡음 신호 문자-음성 변환 (TTS) 기술 개요 (5) – 음성 발생 모델 )n(sˆ)z(A1 1  e(n) gain impulse train random noise pitch V UV 여기신호 음원 성도 전달함수 합성음 합성음의 품질은 음성 발생 모델의 성능에 의해 큰 영향을 받음.
  • 16. • 연구 분야 • 사람과 기계 (Human-Computer), 혹은 사람과 사람 (Human-Human)과의 자연스러운 인터페이스를 위한 핵심 기술인 ‘음성합성 (Speech synthesis, Text-to-Speech)’ 시스템의 성능 향상을 위한 연구 • 연구 내용 및 성과 • 연산량 및 메모리가 제한된 경우에 적용 가능한 은닉 마르코프 모델 (HMM; Hidden Markov Model)을 이용한 통계 기반 합성 방법의 성능 개선 연구 • 최근 기계 학습 (machine learning) 분야에서 각광받고 있는 deep learning (DNN; Deep Neural Network) 기반의 음성 합성 시스템 구현 및 성능 향상을 통한 기술 선도 • 다국어 지원이 가능한 음성합성 시스템으로 확장하기 위한 필수 기술 연구를 통해 향후 개인별 맞춤 시스템으로 활용 가능성 타진 • 공동연구를 주도했던 연구원들이 해외 인턴십에 참여하여 연구의 연속성 유지 • 마이크로소프트연구소 아시아 멘토와의 1:1 멘토링을 통한 연구 능력 향상 및 다양한 연구 수행 방법 경험 지난 3년간 공동 연구 내용 요약
  • 17. • 주제 : 여기 (excitation) 신호 모델링 개선을 이용한 HMM 기반의 TTS 시스템 성능 향상 • 기간 : 2012.08 ~ 2013.06 (11개월) • 목표 • 여기 신호 모델링 개선을 통해 통계적 모델의 훈련 정확도를 높임으로써 합성음의 성능 향상을 목표로 함 • 제안한 여기 신호 모델 (Time-Frequency Trajectory Excitation, TFTE) • 여기 신호를 시간-주파수 축에서 천천히/빠르게 변하는 성분으로 분리하여 각 성분 특성에 맞게 모델을 설 계함으로써 통계적 모델의 정확도를 향상시킴 연구 프로젝트 I (1) 음성 데이터베이스 특성 추출 음성 신호 생성 합성음 파라미터 생성 모델 훈련 입력 문장 그림. HMM 기반의 TTS 시스템 구성도 그림. 제안한 여기 신호 모델 (TFTE)
  • 18. • 실험 환경 • 데이터베이스: 한국어 남성 화자 • 훈련/테스트 문장: 약 3,000/20문장 • 성능평가 • 객관적 성능 평가 • 데이터의 오차 및 왜곡도가 작다는 것은 통계적 모델 훈련이 잘 되었음을 의미 • 제안한 모델 (TFTE)이 기존 방법에 비해 성능이 매우 뛰어남 • 주관적 청취 평가 (선호도 평가) • 참여 인원 : 20명 • X : 선호도가 비슷한 경우 연구 프로젝트 I (2) 그림. 정규화된 평균 자승 오차 그림. 스펙트럼 왜곡도 그림. 선호도 결과 < 여기 신호 모델 비교군 >  제안한 모델 : TFTE  비교군 : • 녹음 원본 : 최종 목표 • PoN : 하향 기준점 • STRAIGHT : 현재 기술 中 상향 기준점
  • 19. • 주제 : 신경망 (DNN; Deep Neural Network) 기반의 TTS 시스템을 위한 효율적인 파형 모델링 기술 • 기간 : 2013.11 ~ 2014.06 (8개월) • 연구 배경 • DNN은 뇌의 신경망 구조를 따라 만든 모델로 입력과 출력 데이터간의 관계를 매우 정확히 추정 가능함 • 음성 인식, 영상 신호처리, 인공 지능 분야에 접목되어 성능 향상에 매우 큰 기여 • DNN 기반의 음성 합성 연구는 아직 초기 단계임 연구 프로젝트 II (1) ︙ ︙ ︙ ︙ ︙ 은닉층입력층 출력층 입력 데이터 출력 데이터 그림. 신경망 (DNN) 구조그림. 사람 뇌의 신경망
  • 20. • 연구 목표 • DNN 기반 TTS 시스템 구현 및 성능 향상 • 데이터 입출력 사이의 비선형적인 관계를 예측할 수 있는 DNN의 장점을 활용하여 소스-필터 및 음성 파 형 모델의 정확도를 높이기 위한 훈련 과정 도입 • 소스-필터 모델 • 음성 신호를 소스-필터 모델 파라미터로 변환하여 통계적 모델을 훈련시킴 • 파형 생성 모델 • 음성 신호 파형 자체를 모델링 함 • 모델 파라미터로 변환시 발생하는 왜곡을 감소시키고자 함 • 데이터 간의 비선형적인 특성 관계를 예측하는 DNN의 장점을 활용하고자 함 연구 프로젝트 II (2)
  • 21. • 실험 환경 • 데이터베이스: 한국어 남성 화자 • 훈련/테스트 문장: 약 3,000/20 문장 • 성능 평가 • 객관적 성능 평가 • 데이터의 오차 및 왜곡도가 적다는 것은 통계적 모델 훈련이 잘 되었음을 의미 • DNN을 이용한 방법이 기존의 통계적 모델 방법인 HMM보다 성능이 더 우수함 연구 프로젝트 II (3) 시스템 측정 항목 TFTE-DNN (duration: known) TFTE-HMM 512*3 1024*3 스펙트럼 왜곡도 (LSD) [dB] 3.10 3.12 5.27 SEW 정규화 평균 제곱 오차 (NMSE) 0.31 0.31 0.39 F0 표준 오차 (RMSE) [Hz] 24.11 24.12 26.91
  • 22. • 주제 : 신경망 (DNN) 기반의 다중 언어 TTS 시스템 구현 • 기간 : 2014.09 ~ 2015.06 (10개월) • 연구 배경 • 여러 언어의 단어가 포함되어 있는 문장에 대해 자연스러운 합성음 제공 • 특정 언어용으로 설계된 TTS 시스템을 다른 언어의 시스템으로 쉽게 확장 가능 • 고려 사항 • 다중 언어 데이터베이스를 어떻게 구축할 것인가? • 다중 화자 및 언어의 공통 특징 정보를 어떻게 추출할 것인가? • 다중 언어 TTS 시스템 구현을 위하여 어떤 방식의 DNN 훈련 방법을 사용해야 하는가? 연구 프로젝트 III (1) 여러분, 왼쪽에 보이는 것은 Paris의 la tour Eiffel입니다.
  • 23. • 제안한 신경망 구조 기반의 다중 언어 TTS 시스템 구성도 • 연구 진행 중인 기술 • 화자간의 특성 그리고 언어간의 특성 차이를 정규화하는 기술 • 음성 기호 (음소)와 음성 신호 파라미터 간의 관계 법칙 (mapping rule) 설계  Deep learning • 참고 : 다국어 지원 시스템으로서 응용 분야 다변화를 위해 매우 중요한 기술 연구 프로젝트 III (2) 그림. 제안하는 시스템 구성도 예시 ︙ ︙ ︙ ︙ ︙ 은닉층입력층 출력층 일본어 DB 음소정보 음성 변환 한국어 DB 영어 DB 독일어 DB 음성 변환 한국어 DB 영어 DB 독일어 DB
  • 24. • 음성을 이용한 HCI (Human Computer Interface or Interaction) 기술 • 자연스럽고 매우 편리하다는 장점으로 인해 지난 수 십 년 동안 활발히 연구되어 왔으며, 앞으로도 꾸준히 연구가 진행될 것으로 예측됨 • 음성 합성 기술 • 관련 IT 기술의 발전과 컴퓨터 성능 향상으로 인해 합성된 음성의 품질이 자연스러워지고 있음 • 글로벌 통신 및 인터넷 확장, 그리고 문화 교류가 활발해짐에 따라 국가/지역간의 심리적 거리가 좁혀지고 있으며, 이에 따라 다국어 지원 시스템에 대한 필요성은 지속적으로 높아질 수 밖에 없음 • 한 명의 화자가 단순하게 책을 읽는 톤의 목소리에서 다양한 목소리 특성을 지닌 화자가 자연스럽게 감정 을 표현하는 듯한 시스템으로 확장 연구도 활발히 진행 중임 발표 요약
  • 25. Q&A