SlideShare a Scribd company logo
김 선 희 
Naver Labs 
다국어 음성 합성 시스템 
(NVOICE) 개발
들어가기 
음성 합성의 역사 
음성 합성 기술 
NVOICE: 네이버 다국어 음성 합성 시스템 
맺음말 
CONTENTS
들어가기
들어가기 
4
영화 속 합성 음성 
들어가기 
5
합성 음성 vs. 사람 음성 A: B: C: D: E: 
들어가기 
6
언어처리부 
운율 예측부 
음성 합성부 
Text 
input 
Text To Speech 
음성합성(Text-To-Speech)이란? 
7
음성 합성의 역사
Q&A 
최초의 음성 합성 
9
Speech Chain 
음성 
10
Q&A 
Wolfgang von Kempelen의 말하는 기계 - Einer sprechenden Maschine 단어뿐 아니라 문장을 생성, 여러 언어로 합성. 
최초의 음성합성기(1791) 
11
최초의 음성합성기(1791) 
12
Joseph Faber 
EUPHONIA(1846) 
13
VODER(1939): Homer Dudley 
Developed at Bell Telephone Laboratories, 1939. 
14
VODER(1939): Homer Dudley 
15
The Pattern Playback (1951) 
16
컴퓨터를 이용한 음성 합성 
조음 합성(Articulatory synthesis) 
포먼트 합성(Formant synthesis) 
편집 합성(Concatinative synthesis) 
HMM 합성(HMM synthesis) 
17
조음 합성 
조음 기관의 운동과 성도의 음향 특성을 모델링 한 합성 방법 
http://www.youtube.com/watch?v=OvWeTJGrTnA 
18
조음 합성 
조음 기관의 운동과 성도의 음향 특성을 모델링 한 합성 방법
포먼트 합성 
음향 정보를 기반으로 하여 규칙과 필터를 이용하여 각각의 포먼트를 합성 
1980년 이전 대부분의 합성 방식 
MITalk 
DECtalk 
Stephen Hawking 
20
포먼트 합성 
Stephen Hawking: http://www.youtube.com/watch?v=w0QY4cGY0pU 
21
편집 합성 
음성 데이터베이스를 기반으로 개별 단위를 편집하여 합성 
최초의 편집 합성 시스템: Talking Clock (1936) 
단어나 구를 녹음 
녹음된 단위를 편집하여 합성 
Radio Free Vestibule (1994) 
Bell Labs TTS: 1977, 1985 
22
편집 합성 
Diphone Synthesis 
두 음소의 중간 지점과 중간 지점 구간 
음향적으로 안정 구간을 연결하여 합성 
가능한 모든 다이폰을 포함하도록 녹음하여 음성 DB를 구축 
Unit Selection Synthesis 
Diphone보다 긴 구간을 단위로 설정(구 ~ 문장도 가능) 
한 단위에 많은 후보를 확보하기 위하여 장시간 녹음 
후보 가운데 가장 적합한 단위를 선정 
23
통계 기반 파라미터 합성 
편집 합성의 문제점 
음성 처리(변조)가 용이하지 않음. 
DB가 충분하지 않은 경우에 성능이 저하됨. 
HMM 기반 파라미터 음성합성 
DB로부터 통계적인 방법으로 파라미터를 학습. 
파라미터의 조정을 통한 음성 변조가 용이함. 
기존 편집 합성 성능을 보완할 수 있음. 
편집 합성(USS) vs. 파라미터 합성(HMM) 
Roger 
Nina 
24
편집 합성 vs. 파라미터 합성 
USS 
HTS 
고품질 
불연속성 
Hit or Miss 
Vocoded speech(buzzy) 
연속성 
안정적 
대용량 DB 
(고비용) 
소용량 DB 
음성 변조 불가 
음성 변조 가능 
25
음성 합성 기술 역사
언어처리부 
운율 예측부 
음성 합성부 
Text input 
Text To Speech 
언어모델 
운율모델 
음향모델 
Language Pack 
Text Corpus 
Speech Corpus 
언어처리부 
모델 생성부 
음성처리부 
음성합성(Text-to-Speech) 
27
언어처리부 
텍스트정규화(Text Normalization) 
예제 
일본이 최근 미국 보잉사로부터 도입한 E 767기 흔히 AWACS라고 불리는 조기경보 통제기로 미국도 아직 보유하지 못한 최신예깁니다 
대장균 균이 가장 많이 검출된 제품은 일경식품의 와퍼로 1g당 4만마리가 나왔으며 한국 맥도널드의 빅맥에서도 1g당 64만마리가 검출됐습니다. 
문장 내의 숫자, 기호, 외국어, 등 여러가지 문제들을 처리하는 모듈 
방법론: 규칙 기반 혹은 통계 기반 방법 
28
언어처리부 
발음변환(Grapheme-to-Phoneme Conversion) 
예제 
백령도 
관리 
삽질 
불고기/물고기 
방법론: 규칙 기반 혹은 통계 기반 방법 
29
운율처리부 
운율 경계 및 액센트 추정 
예제 
아버지가방에들어가신다. 
규칙 기반 혹은 통계 기반 방법 
30
편집 합성: Unit Selection Synthesis 
합성 방법: 전사된 DB 가운데 합성하고자 하는 최적의 단위를 선정 
최적의 의미 
Target cost: Find closest match in terms of 
Phonetic context 
F0, stress, phrase position 
Join cost: Find best join with neighboring units 
Matching formants + other spectral characteristics 
Matching energy 
Matching F0 
31
편집 합성(Unit Selection Synthesis) 
Total Costs 
We now have weights (per phone type) for features set between target and database units 
Find best path of units through database that minimize: 
Standard problem solvable with Viterbi search with beam width constraint for pruning 
32
편집 합성(Unit Selection Synthesis) 
Synthesize: Viterbi search 
33
통계 기반 파라미터 합성 
34
통계 기반 파라미터 합성: HTS 
http://hts.sp.nitech.ac.jp/ 
35
네이버 다국어 음성 합성 시스템 NVOICE
NVOICE: NAVER 다국어 음성 합성 엔진 
개발 언어 
한국어 
영어 
일본어 
합성 방식 
Unit Selection Synthesis (USS) 
대용량 엔진 
소용량 엔진 
Statistical Parametric Synthesis: HTS 
Hybrid 
37
엔진 구성(USS) 
Text Pre-processing 
Morpheme Analysis 
Text Normalization 
Grapheme-to-Phoneme Conversion 
Prosody Prediction 
Unit Selection & Concatenation 
Speech Effect 
Speaking rate 
Conversion 
<Mixing BGM> 
Speech Encoder 
MA Dictionary & Models 
TN Dictionary 
TN Dictionary & Models 
Models 
TTSDB 
Effect Presets 
Speech Output (Streaming, Files-raw, wav, mp3, spx) 
38
발성목록 설계 
도메인 별 모집단 코퍼스 
국내/외 신문 텍스트 사용 
14개 큰 도메인, 244개 상세 도메인 구성 
문장선정 알고리즘 
Word 기반으로 문장을 선정 
WCR + CCR + Entropy 조합으로 문장을 선정 
WCR : Word Cover Rate, 모집단 문장셋 전체 고유 단어 수와 선정 문장셋의 고유 단어 수 비율 
CCR : 각 고유단어의 발생빈도(확률)을 고려한 WCR, 모집단 코퍼스의 coverage 
Entropy : 각 고유 단어 발생빈도(확률) 을 이용한 선정 문장의 평균 정보량 
39
화자 선정 
M 명 성우 예비 녹음 
음성합성 전문가 선호도 평가 후 N 명 후보 압축(N < M) 
N명 성우에 대한 K 문장 샘플 녹음 
K 문장을 이용한 프로토타입 보이스폰트 생성 
합성엔진 & 신호처리 적합도 원어민 평가 음성합성 전문가 평가 
평가 종합 
최종 성우 선정 
40
화자 선정 
원음 평가 방법 
평가자: 일반인 및 전문가 
평가 방법론 정립 
청지각 평가(일반인 및 전문가) 
음향음성학적 분석: Long Term Average Spectrum (LTAS) 분석 
전문 성우에 있어서 분석 시 3~4k 대역에 강한 에너지가 나타난다는 기존 연구를 기반 
-20 
0 
20 
40 
60 
1 
6 
11 
16 
21 
26 
31 
36 
41 
46 
51 
56 
61 
66 
71 
76 
41
42 
2.5 
3 
3.5 
4 
f12 
f33 
f36 
f40 
f9 
목소리 
0 
2 
4 
6 
f12 
f33 
f36 
f40 
f9 
발음 
3 
3.2 
3.4 
3.6 
3.8 
f12 
f33 
f36 
f40 
f9 
억양 
0 
2 
4 
f12 
f33 
f36 
f40 
f9 
어투 
화자 선정(영어)
화자 선정(영어) 
-20 
-10 
0 
10 
20 
30 
40 
50 
60 
1 
3 
5 
7 
9 
11 
13 
15 
17 
19 
21 
23 
25 
27 
29 
31 
33 
35 
37 
39 
41 
43 
45 
47 
49 
51 
53 
55 
57 
59 
61 
63 
65 
67 
69 
71 
73 
75 
77 
79 
M9 
M16 
M18 
AVE_Pros 
43
언어처리부: TN (영어) 
규칙 커버리지 
word 18 38% 
number 24 50% 
symbol 3 6% 
etc 3 6% 
word 
number 
symbol 
etc 
Category 
# of rules 
examples 
English Word 
18 
well-being, July 14, SCI, IV, ef:ef:ef, … 
Number 
24 
617-932-9209, 1/4/95, 7:35:20 a.m., … 
Symbol 
3 
$13.6 million, $2.3, symbol break index, … 
etc. 
3 
quotation, punctuation, … 
44
품사 태깅 정확도 
95.54% 
초당 분석 문장 수 
약 1,022 문장 (1 문장당 평균 20토큰) 
초당 분석 토큰 수 
약 21,180 토큰 
메모리 사용량 
약 11MB 
사전 및 모델 크기 
약 3MB 
내용 
끊어 읽기 및 발음 등 합성에서의 형태소 사전 편집의 용이성을 제공 
성능 
언어처리부: 품사 태거 (영어) 
45
내용 
영/한/중/일 인명/지명에 대한 예외 발음 사전 구축 
CMU 사전에 다중 발음 정보 정제 및 동철 이음어에 대한 품사 정보 및 개체명 정보 부착 
구축 규모 
언어처리부: 예외발음 사전 구축(영어) 
전체 
지명 
인명(이름) 
인명(성) 
인명(예외) 
영어 
168,185 
105,877 
14,234 
48,074 
- 
중국어 
58,090 
17,879 
38,449 
298 
1,464 
한국어 
54,022 
8,067 
45,044 
160 
751 
일본어 
83,783 
42,826 
23,462 
13,857 
3,638 
CMU사전 
8,891 단어 (전체 결과는 다중 발음 포함 9,119 단어, CMU 사전 전체 단어 중 약 7% 차지) 
46
G2P 성능 (정확도) 
운율 경계 모델링 추정 성능 
언어처리부(한국어) 
Precision 
Recall 
F1 
접어(Clitic) 
76.68% 
72.78% 
74.68% 
강세구(AP) 
85.42% 
89.60% 
87.46% 
억양구(IP) 
87.42% 
80.93% 
84.05% 
Precision 
음절 
98.41% 
단어(어절) 
95.23% 
문장 
71.50%% 
47
Context rule 을 반영한 음질 개선 
Boundary 
Phoneme 
Cost function cost(푙, 푐,푟)=푙푏_푐(푙)∗푤_푙푏 (푐)+푟푏_푐(푟)∗푤_푟푏 (푐) + 푙푝_푐(푙)∗ 푤_푡푙 (푙,푐)+ 푟푝_푐(푟)∗ 푤_푡푟 (푟,푐) 
음성합성부 : 합성유닛 선정 알고리듬 개선 
LLP 
Left 
phone 
Right 
phone 
RRP 
LLB 
RB 
Center 
phone 
LB 
RRB 
48
합성 엔진부 
보이스폰트(DB) 
메모리 사용량(한국어 소용량 엔진) 
Unit Compression 
130MB 
Unit Reduction 
25MB 
운율 추정부 
1M 
Viterbi 탐색부 
0.1MB 
Cpstrum 코드북 
0.1MB 
49
서비스 적용: 라인 딕셔너리(2014.06.) 
50
음성합성 샘플(영어) 
Vanity and pride are different two things, though the words are often used synonymously. A person may be proud without being vain. Pride relates more to our opinion of ourselves, vanity, to that we would have others think of us. Jane Austen 
51
맺음말
맺음말 
연구/개발 목표 
성능 향상 
기술력 향상 
향후 연구 
감성 합성 
개인화 
53
맺음말 
54
Q&A
THANK YOU

More Related Content

What's hot

MP3と音声圧縮(simple)
MP3と音声圧縮(simple)MP3と音声圧縮(simple)
MP3と音声圧縮(simple)
Kiminobu Nishimura
 
2015年度先端GPGPUシミュレーション工学特論 第9回 偏微分方程式の差分計算 (移流方程式)
2015年度先端GPGPUシミュレーション工学特論 第9回 偏微分方程式の差分計算(移流方程式)2015年度先端GPGPUシミュレーション工学特論 第9回 偏微分方程式の差分計算(移流方程式)
2015年度先端GPGPUシミュレーション工学特論 第9回 偏微分方程式の差分計算 (移流方程式)
智啓 出川
 
ROS JAPAN Users Group Meetup 03
ROS JAPAN Users Group Meetup 03ROS JAPAN Users Group Meetup 03
ROS JAPAN Users Group Meetup 03Daiki Maekawa
 
CNNチュートリアル
CNNチュートリアルCNNチュートリアル
CNNチュートリアル
Ikuro Sato
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
 
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
Yasunori Ozaki
 
Hinemosのすゝめ(監視編)
Hinemosのすゝめ(監視編)Hinemosのすゝめ(監視編)
Hinemosのすゝめ(監視編)
Hinemos
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
 
【関東GPGPU勉強会#4】GTX 1080でComputer Vision アルゴリズムを色々動かしてみる
【関東GPGPU勉強会#4】GTX 1080でComputer Visionアルゴリズムを色々動かしてみる【関東GPGPU勉強会#4】GTX 1080でComputer Visionアルゴリズムを色々動かしてみる
【関東GPGPU勉強会#4】GTX 1080でComputer Vision アルゴリズムを色々動かしてみる
Yasuhiro Yoshimura
 
シリコンスタジオの最新テクノロジーデモ技術解説
シリコンスタジオの最新テクノロジーデモ技術解説シリコンスタジオの最新テクノロジーデモ技術解説
シリコンスタジオの最新テクノロジーデモ技術解説Silicon Studio Corporation
 
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
STAIR Lab, Chiba Institute of Technology
 
ZytleBot:ROS対応自動走行ロボットへのFPGA活用を加速化する統合開発プラットフォーム
ZytleBot:ROS対応自動走行ロボットへのFPGA活用を加速化する統合開発プラットフォームZytleBot:ROS対応自動走行ロボットへのFPGA活用を加速化する統合開発プラットフォーム
ZytleBot:ROS対応自動走行ロボットへのFPGA活用を加速化する統合開発プラットフォーム
Hideki Takase
 
[0119 박민근] 기술 면접시 자주 나오는 문제들(ver 2013)
[0119 박민근] 기술 면접시 자주 나오는 문제들(ver 2013)[0119 박민근] 기술 면접시 자주 나오는 문제들(ver 2013)
[0119 박민근] 기술 면접시 자주 나오는 문제들(ver 2013)MinGeun Park
 
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
Yuta Matsunaga
 
C#×LLVM=アセンブラ!? 〜詳説・Burstコンパイラー〜
C#×LLVM=アセンブラ!? 〜詳説・Burstコンパイラー〜C#×LLVM=アセンブラ!? 〜詳説・Burstコンパイラー〜
C#×LLVM=アセンブラ!? 〜詳説・Burstコンパイラー〜
UnityTechnologiesJapan002
 
파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차
Taekyung Han
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
 
音声合成の基礎
音声合成の基礎音声合成の基礎
音声合成の基礎
Akinori Ito
 
Gpuフォトンマッピング手法 h26-09-kgussan-第2回レイトレ合宿
Gpuフォトンマッピング手法 h26-09-kgussan-第2回レイトレ合宿Gpuフォトンマッピング手法 h26-09-kgussan-第2回レイトレ合宿
Gpuフォトンマッピング手法 h26-09-kgussan-第2回レイトレ合宿
Takahiro KOGUCHI
 

What's hot (20)

MP3と音声圧縮(simple)
MP3と音声圧縮(simple)MP3と音声圧縮(simple)
MP3と音声圧縮(simple)
 
2015年度先端GPGPUシミュレーション工学特論 第9回 偏微分方程式の差分計算 (移流方程式)
2015年度先端GPGPUシミュレーション工学特論 第9回 偏微分方程式の差分計算(移流方程式)2015年度先端GPGPUシミュレーション工学特論 第9回 偏微分方程式の差分計算(移流方程式)
2015年度先端GPGPUシミュレーション工学特論 第9回 偏微分方程式の差分計算 (移流方程式)
 
ROS JAPAN Users Group Meetup 03
ROS JAPAN Users Group Meetup 03ROS JAPAN Users Group Meetup 03
ROS JAPAN Users Group Meetup 03
 
CNNチュートリアル
CNNチュートリアルCNNチュートリアル
CNNチュートリアル
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
 
그림자 이야기
그림자 이야기그림자 이야기
그림자 이야기
 
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
 
Hinemosのすゝめ(監視編)
Hinemosのすゝめ(監視編)Hinemosのすゝめ(監視編)
Hinemosのすゝめ(監視編)
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
【関東GPGPU勉強会#4】GTX 1080でComputer Vision アルゴリズムを色々動かしてみる
【関東GPGPU勉強会#4】GTX 1080でComputer Visionアルゴリズムを色々動かしてみる【関東GPGPU勉強会#4】GTX 1080でComputer Visionアルゴリズムを色々動かしてみる
【関東GPGPU勉強会#4】GTX 1080でComputer Vision アルゴリズムを色々動かしてみる
 
シリコンスタジオの最新テクノロジーデモ技術解説
シリコンスタジオの最新テクノロジーデモ技術解説シリコンスタジオの最新テクノロジーデモ技術解説
シリコンスタジオの最新テクノロジーデモ技術解説
 
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
 
ZytleBot:ROS対応自動走行ロボットへのFPGA活用を加速化する統合開発プラットフォーム
ZytleBot:ROS対応自動走行ロボットへのFPGA活用を加速化する統合開発プラットフォームZytleBot:ROS対応自動走行ロボットへのFPGA活用を加速化する統合開発プラットフォーム
ZytleBot:ROS対応自動走行ロボットへのFPGA活用を加速化する統合開発プラットフォーム
 
[0119 박민근] 기술 면접시 자주 나오는 문제들(ver 2013)
[0119 박민근] 기술 면접시 자주 나오는 문제들(ver 2013)[0119 박민근] 기술 면접시 자주 나오는 문제들(ver 2013)
[0119 박민근] 기술 면접시 자주 나오는 문제들(ver 2013)
 
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
 
C#×LLVM=アセンブラ!? 〜詳説・Burstコンパイラー〜
C#×LLVM=アセンブラ!? 〜詳説・Burstコンパイラー〜C#×LLVM=アセンブラ!? 〜詳説・Burstコンパイラー〜
C#×LLVM=アセンブラ!? 〜詳説・Burstコンパイラー〜
 
파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
音声合成の基礎
音声合成の基礎音声合成の基礎
音声合成の基礎
 
Gpuフォトンマッピング手法 h26-09-kgussan-第2回レイトレ合宿
Gpuフォトンマッピング手法 h26-09-kgussan-第2回レイトレ合宿Gpuフォトンマッピング手法 h26-09-kgussan-第2回レイトレ合宿
Gpuフォトンマッピング手法 h26-09-kgussan-第2回レイトレ合宿
 

Viewers also liked

Papago/N2MT 개발이야기
Papago/N2MT 개발이야기Papago/N2MT 개발이야기
Papago/N2MT 개발이야기
NAVER D2
 
[A2]android security의 과거와 미래 – from linux to jelly bean
[A2]android security의 과거와 미래 – from linux to jelly bean[A2]android security의 과거와 미래 – from linux to jelly bean
[A2]android security의 과거와 미래 – from linux to jelly beanNAVER D2
 
[F1]nuance
[F1]nuance[F1]nuance
[F1]nuanceNAVER D2
 
[D2SF] Naver 오픈 API 가이드
[D2SF] Naver 오픈 API 가이드[D2SF] Naver 오픈 API 가이드
[D2SF] Naver 오픈 API 가이드
NAVER D2 STARTUP FACTORY
 
142 리눅스와 모바일 day1-track4_2_v1.5
142 리눅스와 모바일 day1-track4_2_v1.5142 리눅스와 모바일 day1-track4_2_v1.5
142 리눅스와 모바일 day1-track4_2_v1.5NAVER D2
 
[D2 CAMPUS] 분야별 모임 '보안' 발표자료
[D2 CAMPUS] 분야별 모임 '보안' 발표자료[D2 CAMPUS] 분야별 모임 '보안' 발표자료
[D2 CAMPUS] 분야별 모임 '보안' 발표자료
NAVER D2
 
swig를 이용한 C++ 랩핑
swig를 이용한 C++ 랩핑swig를 이용한 C++ 랩핑
swig를 이용한 C++ 랩핑
NAVER D2
 
Django에서 websocket을 사용하는 방법
Django에서 websocket을 사용하는 방법Django에서 websocket을 사용하는 방법
Django에서 websocket을 사용하는 방법
NAVER D2
 
음성인식 기술 및 활용 트렌드 (2013년)
음성인식 기술 및 활용 트렌드 (2013년)음성인식 기술 및 활용 트렌드 (2013년)
음성인식 기술 및 활용 트렌드 (2013년)
훈주 윤
 
Daum OAuth 2.0
Daum OAuth 2.0Daum OAuth 2.0
Daum OAuth 2.0
Daum DNA
 
문자 단위의 Neural Machine Translation
문자 단위의 Neural Machine Translation문자 단위의 Neural Machine Translation
문자 단위의 Neural Machine Translation
NAVER LABS
 
Daum 음성인식 API (김한샘)
Daum 음성인식 API (김한샘)Daum 음성인식 API (김한샘)
Daum 음성인식 API (김한샘)
Daum DNA
 
오픈소스 SW 라이선스 - 박은정님
오픈소스 SW 라이선스 - 박은정님오픈소스 SW 라이선스 - 박은정님
오픈소스 SW 라이선스 - 박은정님
NAVER D2
 
[222]대화 시스템 서비스 동향 및 개발 방법
[222]대화 시스템 서비스 동향 및 개발 방법[222]대화 시스템 서비스 동향 및 개발 방법
[222]대화 시스템 서비스 동향 및 개발 방법
NAVER D2
 
JavaScript 비동기 프로그래밍 집중 탐구 - 조유성님
JavaScript 비동기 프로그래밍 집중 탐구 - 조유성님JavaScript 비동기 프로그래밍 집중 탐구 - 조유성님
JavaScript 비동기 프로그래밍 집중 탐구 - 조유성님
NAVER D2
 
[F2]자연어처리를 위한 기계학습 소개
[F2]자연어처리를 위한 기계학습 소개[F2]자연어처리를 위한 기계학습 소개
[F2]자연어처리를 위한 기계학습 소개NAVER D2
 
데이터분석과통계2 - 최재걸님
데이터분석과통계2 - 최재걸님데이터분석과통계2 - 최재걸님
데이터분석과통계2 - 최재걸님
NAVER D2
 
챗봇 개발을 위한 네이버 랩스 api
챗봇 개발을 위한 네이버 랩스 api챗봇 개발을 위한 네이버 랩스 api
챗봇 개발을 위한 네이버 랩스 api
NAVER D2
 
머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)
홍배 김
 
챗봇 시작해보기
챗봇 시작해보기챗봇 시작해보기
챗봇 시작해보기
성일 한
 

Viewers also liked (20)

Papago/N2MT 개발이야기
Papago/N2MT 개발이야기Papago/N2MT 개발이야기
Papago/N2MT 개발이야기
 
[A2]android security의 과거와 미래 – from linux to jelly bean
[A2]android security의 과거와 미래 – from linux to jelly bean[A2]android security의 과거와 미래 – from linux to jelly bean
[A2]android security의 과거와 미래 – from linux to jelly bean
 
[F1]nuance
[F1]nuance[F1]nuance
[F1]nuance
 
[D2SF] Naver 오픈 API 가이드
[D2SF] Naver 오픈 API 가이드[D2SF] Naver 오픈 API 가이드
[D2SF] Naver 오픈 API 가이드
 
142 리눅스와 모바일 day1-track4_2_v1.5
142 리눅스와 모바일 day1-track4_2_v1.5142 리눅스와 모바일 day1-track4_2_v1.5
142 리눅스와 모바일 day1-track4_2_v1.5
 
[D2 CAMPUS] 분야별 모임 '보안' 발표자료
[D2 CAMPUS] 분야별 모임 '보안' 발표자료[D2 CAMPUS] 분야별 모임 '보안' 발표자료
[D2 CAMPUS] 분야별 모임 '보안' 발표자료
 
swig를 이용한 C++ 랩핑
swig를 이용한 C++ 랩핑swig를 이용한 C++ 랩핑
swig를 이용한 C++ 랩핑
 
Django에서 websocket을 사용하는 방법
Django에서 websocket을 사용하는 방법Django에서 websocket을 사용하는 방법
Django에서 websocket을 사용하는 방법
 
음성인식 기술 및 활용 트렌드 (2013년)
음성인식 기술 및 활용 트렌드 (2013년)음성인식 기술 및 활용 트렌드 (2013년)
음성인식 기술 및 활용 트렌드 (2013년)
 
Daum OAuth 2.0
Daum OAuth 2.0Daum OAuth 2.0
Daum OAuth 2.0
 
문자 단위의 Neural Machine Translation
문자 단위의 Neural Machine Translation문자 단위의 Neural Machine Translation
문자 단위의 Neural Machine Translation
 
Daum 음성인식 API (김한샘)
Daum 음성인식 API (김한샘)Daum 음성인식 API (김한샘)
Daum 음성인식 API (김한샘)
 
오픈소스 SW 라이선스 - 박은정님
오픈소스 SW 라이선스 - 박은정님오픈소스 SW 라이선스 - 박은정님
오픈소스 SW 라이선스 - 박은정님
 
[222]대화 시스템 서비스 동향 및 개발 방법
[222]대화 시스템 서비스 동향 및 개발 방법[222]대화 시스템 서비스 동향 및 개발 방법
[222]대화 시스템 서비스 동향 및 개발 방법
 
JavaScript 비동기 프로그래밍 집중 탐구 - 조유성님
JavaScript 비동기 프로그래밍 집중 탐구 - 조유성님JavaScript 비동기 프로그래밍 집중 탐구 - 조유성님
JavaScript 비동기 프로그래밍 집중 탐구 - 조유성님
 
[F2]자연어처리를 위한 기계학습 소개
[F2]자연어처리를 위한 기계학습 소개[F2]자연어처리를 위한 기계학습 소개
[F2]자연어처리를 위한 기계학습 소개
 
데이터분석과통계2 - 최재걸님
데이터분석과통계2 - 최재걸님데이터분석과통계2 - 최재걸님
데이터분석과통계2 - 최재걸님
 
챗봇 개발을 위한 네이버 랩스 api
챗봇 개발을 위한 네이버 랩스 api챗봇 개발을 위한 네이버 랩스 api
챗봇 개발을 위한 네이버 랩스 api
 
머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)
 
챗봇 시작해보기
챗봇 시작해보기챗봇 시작해보기
챗봇 시작해보기
 

Similar to [2D2]다국어음성합성시스템(NVOICE)개발

영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래	영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래
engedukamall
 
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템Seokhwan Kim
 
[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개
[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개
[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개
NUGU developers
 
음성인식기술을 이용한 일본드라마 감성분석
음성인식기술을 이용한 일본드라마  감성분석음성인식기술을 이용한 일본드라마  감성분석
음성인식기술을 이용한 일본드라마 감성분석cyberemotion
 
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
Taejoon Yoo
 
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
NUGU developers
 
제3장 색인어 추출을 위한 언어학적 처리
제3장 색인어 추출을 위한 언어학적 처리제3장 색인어 추출을 위한 언어학적 처리
제3장 색인어 추출을 위한 언어학적 처리Chang-yong Jung
 
화자인식 기술 및 관련 연구 소개
화자인식 기술 및 관련 연구 소개화자인식 기술 및 관련 연구 소개
화자인식 기술 및 관련 연구 소개
NAVER Engineering
 
한국어 띄어쓰기 프로그램 도전기
한국어 띄어쓰기 프로그램 도전기한국어 띄어쓰기 프로그램 도전기
한국어 띄어쓰기 프로그램 도전기
Ted Taekyoon Choi
 
Sharing development experience of educational apps for the hard of hearing (P...
Sharing development experience of educational apps for the hard of hearing (P...Sharing development experience of educational apps for the hard of hearing (P...
Sharing development experience of educational apps for the hard of hearing (P...
Youngki Moon
 
[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경
NAVER D2
 
Neural Machine Translation 기반의 영어-일본어 자동번역
Neural Machine Translation 기반의 영어-일본어 자동번역Neural Machine Translation 기반의 영어-일본어 자동번역
Neural Machine Translation 기반의 영어-일본어 자동번역
NAVER LABS
 
KIPS_C2008A_0034
KIPS_C2008A_0034KIPS_C2008A_0034
KIPS_C2008A_0034suhyuk park
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향
LGCNSairesearch
 
[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템
NAVER D2
 
Devon 2011-b-4 패턴인식을 이용한 멀티미디어 검색
Devon 2011-b-4 패턴인식을 이용한 멀티미디어 검색Devon 2011-b-4 패턴인식을 이용한 멀티미디어 검색
Devon 2011-b-4 패턴인식을 이용한 멀티미디어 검색Daum DNA
 
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용
r-kor
 
Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차
Taekyung Han
 
Deview2013 naver labs_nsmt_외부공개버전_김준석
Deview2013 naver labs_nsmt_외부공개버전_김준석Deview2013 naver labs_nsmt_외부공개버전_김준석
Deview2013 naver labs_nsmt_외부공개버전_김준석NAVER D2
 

Similar to [2D2]다국어음성합성시스템(NVOICE)개발 (20)

영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래	영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래
 
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
 
[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개
[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개
[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개
 
음성인식기술을 이용한 일본드라마 감성분석
음성인식기술을 이용한 일본드라마  감성분석음성인식기술을 이용한 일본드라마  감성분석
음성인식기술을 이용한 일본드라마 감성분석
 
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
 
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
 
제3장 색인어 추출을 위한 언어학적 처리
제3장 색인어 추출을 위한 언어학적 처리제3장 색인어 추출을 위한 언어학적 처리
제3장 색인어 추출을 위한 언어학적 처리
 
화자인식 기술 및 관련 연구 소개
화자인식 기술 및 관련 연구 소개화자인식 기술 및 관련 연구 소개
화자인식 기술 및 관련 연구 소개
 
한국어 띄어쓰기 프로그램 도전기
한국어 띄어쓰기 프로그램 도전기한국어 띄어쓰기 프로그램 도전기
한국어 띄어쓰기 프로그램 도전기
 
Sharing development experience of educational apps for the hard of hearing (P...
Sharing development experience of educational apps for the hard of hearing (P...Sharing development experience of educational apps for the hard of hearing (P...
Sharing development experience of educational apps for the hard of hearing (P...
 
[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경
 
Neural Machine Translation 기반의 영어-일본어 자동번역
Neural Machine Translation 기반의 영어-일본어 자동번역Neural Machine Translation 기반의 영어-일본어 자동번역
Neural Machine Translation 기반의 영어-일본어 자동번역
 
KIPS_C2008A_0034
KIPS_C2008A_0034KIPS_C2008A_0034
KIPS_C2008A_0034
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향
 
[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템
 
Devon 2011-b-4 패턴인식을 이용한 멀티미디어 검색
Devon 2011-b-4 패턴인식을 이용한 멀티미디어 검색Devon 2011-b-4 패턴인식을 이용한 멀티미디어 검색
Devon 2011-b-4 패턴인식을 이용한 멀티미디어 검색
 
제5장 사전파일
제5장 사전파일제5장 사전파일
제5장 사전파일
 
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용
 
Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차
 
Deview2013 naver labs_nsmt_외부공개버전_김준석
Deview2013 naver labs_nsmt_외부공개버전_김준석Deview2013 naver labs_nsmt_외부공개버전_김준석
Deview2013 naver labs_nsmt_외부공개버전_김준석
 

More from NAVER D2

[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다
NAVER D2
 
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
NAVER D2
 
[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기
NAVER D2
 
[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발
NAVER D2
 
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
NAVER D2
 
[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A
NAVER D2
 
[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기
NAVER D2
 
[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning
NAVER D2
 
[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications
NAVER D2
 
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingOld version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
NAVER D2
 
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
NAVER D2
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
NAVER D2
 
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화[224]네이버 검색과 개인화
[224]네이버 검색과 개인화
NAVER D2
 
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
NAVER D2
 
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
NAVER D2
 
[213] Fashion Visual Search
[213] Fashion Visual Search[213] Fashion Visual Search
[213] Fashion Visual Search
NAVER D2
 
[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화
NAVER D2
 
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
NAVER D2
 
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
NAVER D2
 
[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?
NAVER D2
 

More from NAVER D2 (20)

[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다
 
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
 
[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기
 
[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발
 
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
 
[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A
 
[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기
 
[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning
 
[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications
 
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingOld version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
 
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
 
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화[224]네이버 검색과 개인화
[224]네이버 검색과 개인화
 
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
 
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
 
[213] Fashion Visual Search
[213] Fashion Visual Search[213] Fashion Visual Search
[213] Fashion Visual Search
 
[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화
 
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
 
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
 
[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?
 

[2D2]다국어음성합성시스템(NVOICE)개발

  • 1. 김 선 희 Naver Labs 다국어 음성 합성 시스템 (NVOICE) 개발
  • 2. 들어가기 음성 합성의 역사 음성 합성 기술 NVOICE: 네이버 다국어 음성 합성 시스템 맺음말 CONTENTS
  • 5. 영화 속 합성 음성 들어가기 5
  • 6. 합성 음성 vs. 사람 음성 A: B: C: D: E: 들어가기 6
  • 7. 언어처리부 운율 예측부 음성 합성부 Text input Text To Speech 음성합성(Text-To-Speech)이란? 7
  • 11. Q&A Wolfgang von Kempelen의 말하는 기계 - Einer sprechenden Maschine 단어뿐 아니라 문장을 생성, 여러 언어로 합성. 최초의 음성합성기(1791) 11
  • 14. VODER(1939): Homer Dudley Developed at Bell Telephone Laboratories, 1939. 14
  • 16. The Pattern Playback (1951) 16
  • 17. 컴퓨터를 이용한 음성 합성 조음 합성(Articulatory synthesis) 포먼트 합성(Formant synthesis) 편집 합성(Concatinative synthesis) HMM 합성(HMM synthesis) 17
  • 18. 조음 합성 조음 기관의 운동과 성도의 음향 특성을 모델링 한 합성 방법 http://www.youtube.com/watch?v=OvWeTJGrTnA 18
  • 19. 조음 합성 조음 기관의 운동과 성도의 음향 특성을 모델링 한 합성 방법
  • 20. 포먼트 합성 음향 정보를 기반으로 하여 규칙과 필터를 이용하여 각각의 포먼트를 합성 1980년 이전 대부분의 합성 방식 MITalk DECtalk Stephen Hawking 20
  • 21. 포먼트 합성 Stephen Hawking: http://www.youtube.com/watch?v=w0QY4cGY0pU 21
  • 22. 편집 합성 음성 데이터베이스를 기반으로 개별 단위를 편집하여 합성 최초의 편집 합성 시스템: Talking Clock (1936) 단어나 구를 녹음 녹음된 단위를 편집하여 합성 Radio Free Vestibule (1994) Bell Labs TTS: 1977, 1985 22
  • 23. 편집 합성 Diphone Synthesis 두 음소의 중간 지점과 중간 지점 구간 음향적으로 안정 구간을 연결하여 합성 가능한 모든 다이폰을 포함하도록 녹음하여 음성 DB를 구축 Unit Selection Synthesis Diphone보다 긴 구간을 단위로 설정(구 ~ 문장도 가능) 한 단위에 많은 후보를 확보하기 위하여 장시간 녹음 후보 가운데 가장 적합한 단위를 선정 23
  • 24. 통계 기반 파라미터 합성 편집 합성의 문제점 음성 처리(변조)가 용이하지 않음. DB가 충분하지 않은 경우에 성능이 저하됨. HMM 기반 파라미터 음성합성 DB로부터 통계적인 방법으로 파라미터를 학습. 파라미터의 조정을 통한 음성 변조가 용이함. 기존 편집 합성 성능을 보완할 수 있음. 편집 합성(USS) vs. 파라미터 합성(HMM) Roger Nina 24
  • 25. 편집 합성 vs. 파라미터 합성 USS HTS 고품질 불연속성 Hit or Miss Vocoded speech(buzzy) 연속성 안정적 대용량 DB (고비용) 소용량 DB 음성 변조 불가 음성 변조 가능 25
  • 27. 언어처리부 운율 예측부 음성 합성부 Text input Text To Speech 언어모델 운율모델 음향모델 Language Pack Text Corpus Speech Corpus 언어처리부 모델 생성부 음성처리부 음성합성(Text-to-Speech) 27
  • 28. 언어처리부 텍스트정규화(Text Normalization) 예제 일본이 최근 미국 보잉사로부터 도입한 E 767기 흔히 AWACS라고 불리는 조기경보 통제기로 미국도 아직 보유하지 못한 최신예깁니다 대장균 균이 가장 많이 검출된 제품은 일경식품의 와퍼로 1g당 4만마리가 나왔으며 한국 맥도널드의 빅맥에서도 1g당 64만마리가 검출됐습니다. 문장 내의 숫자, 기호, 외국어, 등 여러가지 문제들을 처리하는 모듈 방법론: 규칙 기반 혹은 통계 기반 방법 28
  • 29. 언어처리부 발음변환(Grapheme-to-Phoneme Conversion) 예제 백령도 관리 삽질 불고기/물고기 방법론: 규칙 기반 혹은 통계 기반 방법 29
  • 30. 운율처리부 운율 경계 및 액센트 추정 예제 아버지가방에들어가신다. 규칙 기반 혹은 통계 기반 방법 30
  • 31. 편집 합성: Unit Selection Synthesis 합성 방법: 전사된 DB 가운데 합성하고자 하는 최적의 단위를 선정 최적의 의미 Target cost: Find closest match in terms of Phonetic context F0, stress, phrase position Join cost: Find best join with neighboring units Matching formants + other spectral characteristics Matching energy Matching F0 31
  • 32. 편집 합성(Unit Selection Synthesis) Total Costs We now have weights (per phone type) for features set between target and database units Find best path of units through database that minimize: Standard problem solvable with Viterbi search with beam width constraint for pruning 32
  • 33. 편집 합성(Unit Selection Synthesis) Synthesize: Viterbi search 33
  • 35. 통계 기반 파라미터 합성: HTS http://hts.sp.nitech.ac.jp/ 35
  • 36. 네이버 다국어 음성 합성 시스템 NVOICE
  • 37. NVOICE: NAVER 다국어 음성 합성 엔진 개발 언어 한국어 영어 일본어 합성 방식 Unit Selection Synthesis (USS) 대용량 엔진 소용량 엔진 Statistical Parametric Synthesis: HTS Hybrid 37
  • 38. 엔진 구성(USS) Text Pre-processing Morpheme Analysis Text Normalization Grapheme-to-Phoneme Conversion Prosody Prediction Unit Selection & Concatenation Speech Effect Speaking rate Conversion <Mixing BGM> Speech Encoder MA Dictionary & Models TN Dictionary TN Dictionary & Models Models TTSDB Effect Presets Speech Output (Streaming, Files-raw, wav, mp3, spx) 38
  • 39. 발성목록 설계 도메인 별 모집단 코퍼스 국내/외 신문 텍스트 사용 14개 큰 도메인, 244개 상세 도메인 구성 문장선정 알고리즘 Word 기반으로 문장을 선정 WCR + CCR + Entropy 조합으로 문장을 선정 WCR : Word Cover Rate, 모집단 문장셋 전체 고유 단어 수와 선정 문장셋의 고유 단어 수 비율 CCR : 각 고유단어의 발생빈도(확률)을 고려한 WCR, 모집단 코퍼스의 coverage Entropy : 각 고유 단어 발생빈도(확률) 을 이용한 선정 문장의 평균 정보량 39
  • 40. 화자 선정 M 명 성우 예비 녹음 음성합성 전문가 선호도 평가 후 N 명 후보 압축(N < M) N명 성우에 대한 K 문장 샘플 녹음 K 문장을 이용한 프로토타입 보이스폰트 생성 합성엔진 & 신호처리 적합도 원어민 평가 음성합성 전문가 평가 평가 종합 최종 성우 선정 40
  • 41. 화자 선정 원음 평가 방법 평가자: 일반인 및 전문가 평가 방법론 정립 청지각 평가(일반인 및 전문가) 음향음성학적 분석: Long Term Average Spectrum (LTAS) 분석 전문 성우에 있어서 분석 시 3~4k 대역에 강한 에너지가 나타난다는 기존 연구를 기반 -20 0 20 40 60 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 41
  • 42. 42 2.5 3 3.5 4 f12 f33 f36 f40 f9 목소리 0 2 4 6 f12 f33 f36 f40 f9 발음 3 3.2 3.4 3.6 3.8 f12 f33 f36 f40 f9 억양 0 2 4 f12 f33 f36 f40 f9 어투 화자 선정(영어)
  • 43. 화자 선정(영어) -20 -10 0 10 20 30 40 50 60 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 M9 M16 M18 AVE_Pros 43
  • 44. 언어처리부: TN (영어) 규칙 커버리지 word 18 38% number 24 50% symbol 3 6% etc 3 6% word number symbol etc Category # of rules examples English Word 18 well-being, July 14, SCI, IV, ef:ef:ef, … Number 24 617-932-9209, 1/4/95, 7:35:20 a.m., … Symbol 3 $13.6 million, $2.3, symbol break index, … etc. 3 quotation, punctuation, … 44
  • 45. 품사 태깅 정확도 95.54% 초당 분석 문장 수 약 1,022 문장 (1 문장당 평균 20토큰) 초당 분석 토큰 수 약 21,180 토큰 메모리 사용량 약 11MB 사전 및 모델 크기 약 3MB 내용 끊어 읽기 및 발음 등 합성에서의 형태소 사전 편집의 용이성을 제공 성능 언어처리부: 품사 태거 (영어) 45
  • 46. 내용 영/한/중/일 인명/지명에 대한 예외 발음 사전 구축 CMU 사전에 다중 발음 정보 정제 및 동철 이음어에 대한 품사 정보 및 개체명 정보 부착 구축 규모 언어처리부: 예외발음 사전 구축(영어) 전체 지명 인명(이름) 인명(성) 인명(예외) 영어 168,185 105,877 14,234 48,074 - 중국어 58,090 17,879 38,449 298 1,464 한국어 54,022 8,067 45,044 160 751 일본어 83,783 42,826 23,462 13,857 3,638 CMU사전 8,891 단어 (전체 결과는 다중 발음 포함 9,119 단어, CMU 사전 전체 단어 중 약 7% 차지) 46
  • 47. G2P 성능 (정확도) 운율 경계 모델링 추정 성능 언어처리부(한국어) Precision Recall F1 접어(Clitic) 76.68% 72.78% 74.68% 강세구(AP) 85.42% 89.60% 87.46% 억양구(IP) 87.42% 80.93% 84.05% Precision 음절 98.41% 단어(어절) 95.23% 문장 71.50%% 47
  • 48. Context rule 을 반영한 음질 개선 Boundary Phoneme Cost function cost(푙, 푐,푟)=푙푏_푐(푙)∗푤_푙푏 (푐)+푟푏_푐(푟)∗푤_푟푏 (푐) + 푙푝_푐(푙)∗ 푤_푡푙 (푙,푐)+ 푟푝_푐(푟)∗ 푤_푡푟 (푟,푐) 음성합성부 : 합성유닛 선정 알고리듬 개선 LLP Left phone Right phone RRP LLB RB Center phone LB RRB 48
  • 49. 합성 엔진부 보이스폰트(DB) 메모리 사용량(한국어 소용량 엔진) Unit Compression 130MB Unit Reduction 25MB 운율 추정부 1M Viterbi 탐색부 0.1MB Cpstrum 코드북 0.1MB 49
  • 50. 서비스 적용: 라인 딕셔너리(2014.06.) 50
  • 51. 음성합성 샘플(영어) Vanity and pride are different two things, though the words are often used synonymously. A person may be proud without being vain. Pride relates more to our opinion of ourselves, vanity, to that we would have others think of us. Jane Austen 51
  • 53. 맺음말 연구/개발 목표 성능 향상 기술력 향상 향후 연구 감성 합성 개인화 53
  • 55. Q&A