Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Akinori Ito
ODP, PDF
15,962 views
音声の認識と合成
音声の認識と合成 東北大学工学研究科「音メディア工学」スライド
Read more
15
Save
Share
Embed
Embed presentation
Download
Downloaded 98 times
1
/ 45
2
/ 45
3
/ 45
4
/ 45
5
/ 45
6
/ 45
7
/ 45
8
/ 45
9
/ 45
10
/ 45
11
/ 45
12
/ 45
13
/ 45
14
/ 45
15
/ 45
16
/ 45
17
/ 45
18
/ 45
19
/ 45
20
/ 45
21
/ 45
22
/ 45
23
/ 45
24
/ 45
25
/ 45
26
/ 45
27
/ 45
28
/ 45
29
/ 45
30
/ 45
31
/ 45
32
/ 45
33
/ 45
34
/ 45
35
/ 45
36
/ 45
37
/ 45
38
/ 45
39
/ 45
40
/ 45
41
/ 45
42
/ 45
43
/ 45
44
/ 45
45
/ 45
More Related Content
ODP
音声認識の基礎
by
Akinori Ito
PDF
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
by
Shinnosuke Takamichi
PPTX
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
by
Deep Learning JP
ODP
音声合成の基礎
by
Akinori Ito
PDF
自称・世界一わかりやすい音声認識入門
by
Tom Hakamata
PDF
画像認識の初歩、SIFT,SURF特徴量
by
takaya imai
PDF
深層学習を利用した音声強調
by
Yuma Koizumi
PDF
環境音の特徴を活用した音響イベント検出・シーン分類
by
Keisuke Imoto
音声認識の基礎
by
Akinori Ito
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
by
Shinnosuke Takamichi
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
by
Deep Learning JP
音声合成の基礎
by
Akinori Ito
自称・世界一わかりやすい音声認識入門
by
Tom Hakamata
画像認識の初歩、SIFT,SURF特徴量
by
takaya imai
深層学習を利用した音声強調
by
Yuma Koizumi
環境音の特徴を活用した音響イベント検出・シーン分類
by
Keisuke Imoto
What's hot
PDF
失敗から学ぶ機械学習応用
by
Hiroyuki Masuda
PDF
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
by
ARISE analytics
PDF
Skip Connection まとめ(Neural Network)
by
Yamato OKAMOTO
PDF
Optimizer入門&最新動向
by
Motokawa Tetsuya
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
by
SSII
PPTX
【DL輪読会】Reward Design with Language Models
by
Deep Learning JP
PDF
Transformerを多層にする際の勾配消失問題と解決法について
by
Sho Takase
PPTX
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
by
YosukeKashiwagi1
PPTX
[DL輪読会]相互情報量最大化による表現学習
by
Deep Learning JP
PDF
音声の声質を変換する技術とその応用
by
NU_I_TODALAB
PPTX
音源分離における音響モデリング(Acoustic modeling in audio source separation)
by
Daichi Kitamura
PDF
研究効率化Tips Ver.2
by
cvpaper. challenge
PPTX
マルチモーダル深層学習の研究動向
by
Koichiro Mori
PDF
実環境音響信号処理における収音技術
by
Yuma Koizumi
PDF
POMDP下での強化学習の基礎と応用
by
Yasunori Ozaki
PPTX
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
by
Yui Sudo
PDF
WaveNetが音声合成研究に与える影響
by
NU_I_TODALAB
ODP
音声生成の基礎と音声学
by
Akinori Ito
PPTX
Transformerを雰囲気で理解する
by
AtsukiYamaguchi1
PPTX
[DL輪読会]Wavenet a generative model for raw audio
by
Deep Learning JP
失敗から学ぶ機械学習応用
by
Hiroyuki Masuda
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
by
ARISE analytics
Skip Connection まとめ(Neural Network)
by
Yamato OKAMOTO
Optimizer入門&最新動向
by
Motokawa Tetsuya
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
by
SSII
【DL輪読会】Reward Design with Language Models
by
Deep Learning JP
Transformerを多層にする際の勾配消失問題と解決法について
by
Sho Takase
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
by
YosukeKashiwagi1
[DL輪読会]相互情報量最大化による表現学習
by
Deep Learning JP
音声の声質を変換する技術とその応用
by
NU_I_TODALAB
音源分離における音響モデリング(Acoustic modeling in audio source separation)
by
Daichi Kitamura
研究効率化Tips Ver.2
by
cvpaper. challenge
マルチモーダル深層学習の研究動向
by
Koichiro Mori
実環境音響信号処理における収音技術
by
Yuma Koizumi
POMDP下での強化学習の基礎と応用
by
Yasunori Ozaki
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
by
Yui Sudo
WaveNetが音声合成研究に与える影響
by
NU_I_TODALAB
音声生成の基礎と音声学
by
Akinori Ito
Transformerを雰囲気で理解する
by
AtsukiYamaguchi1
[DL輪読会]Wavenet a generative model for raw audio
by
Deep Learning JP
Similar to 音声の認識と合成
PDF
Neural text-to-speech and voice conversion
by
Yuki Saito
PDF
音情報処理における特徴表現
by
NU_I_TODALAB
PDF
音声認識技術の変遷
by
emonosuke
PDF
仕組みから理解する人力音声認識
by
Genki Ishibashi
PDF
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
by
Shinnosuke Takamichi
ODP
音声認識
by
Ryunosuke Iwai
PPTX
音声認識における言語モデル
by
KOTARO SETOYAMA
Neural text-to-speech and voice conversion
by
Yuki Saito
音情報処理における特徴表現
by
NU_I_TODALAB
音声認識技術の変遷
by
emonosuke
仕組みから理解する人力音声認識
by
Genki Ishibashi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
by
Shinnosuke Takamichi
音声認識
by
Ryunosuke Iwai
音声認識における言語モデル
by
KOTARO SETOYAMA
More from Akinori Ito
PDF
高効率音声符号化―MP3詳解―
by
Akinori Ito
PDF
人間と機械と音のコミュニケーション
by
Akinori Ito
PDF
研究発表のやり方
by
Akinori Ito
PDF
マルチメディア情報ハイディング
by
Akinori Ito
PPTX
歌声分析のエンタテイメント応用
by
Akinori Ito
PPTX
音声と音楽による人間・機械間メタコミュニケーション
by
Akinori Ito
ODP
音声の生成と符号化
by
Akinori Ito
ODP
音楽の情報処理
by
Akinori Ito
PPTX
いろいろなプログラミング言語による互除法
by
Akinori Ito
PPTX
科学論文執筆・投稿にまつわる基礎知識
by
Akinori Ito
高効率音声符号化―MP3詳解―
by
Akinori Ito
人間と機械と音のコミュニケーション
by
Akinori Ito
研究発表のやり方
by
Akinori Ito
マルチメディア情報ハイディング
by
Akinori Ito
歌声分析のエンタテイメント応用
by
Akinori Ito
音声と音楽による人間・機械間メタコミュニケーション
by
Akinori Ito
音声の生成と符号化
by
Akinori Ito
音楽の情報処理
by
Akinori Ito
いろいろなプログラミング言語による互除法
by
Akinori Ito
科学論文執筆・投稿にまつわる基礎知識
by
Akinori Ito
音声の認識と合成
1.
1 音声認識・合成
2.
2 音声の認識 入力された音声を文字列に変換する (Speech-to-Text) 概要 – 特徴抽出(MFCC) – 音響モデル(HMM) –
言語モデル(FSG, N-gram) – デコーダ
3.
3 音声認識の基本的な考え方 発音ごとに特有のパターンがある ⇒このパターンを捕らえれば認識が可能 a i u
e o
4.
4 音声認識のブロック図 特徴 抽出 MFCC 等 認識エンジン (デコーダ) 音響 モデル 辞書 言語 モデル 文字列 X W
5.
5 確率的音声認識の原理 事後確率最大となる確率的推定問題 W = arg
max W PW∣X = arg max W p X∣W PW p X = arg max W p X∣W PW
6.
6 特徴量の抽出 スペクトルの概形を表すパラメータを 使う – スペクトルの概形⇔声道伝達関数⇔音韻 – スペクトルの微細構造(⇔ピッチ)は使わな い 概形自体は冗長⇒よりコンパクトな特徴 –
ケプストラム 時間構造の利用 – Δケプストラム,ΔΔケプストラム
7.
7 特徴量抽出の枠組み 分析窓 (フレー ム) 窓関数 周波数分析 窓関数 特徴量計算 特徴量 フレームシフト ハミング窓な ど
8.
8 スペクトルとケプストラム FFTケプストラム:対数パワースペク トルのフーリエ変換 – 低次のケプストラム係数が対数スペクトル の概形に対応→音声認識に利用 – 高次のケプストラムのピークが基本周波数 に対応→ピッチ抽出に利用 C
=F [log∣X ∣ 2 ]
9.
9 FFTケプストラム計算例 スペクトルおよび平滑化ス ペクトル (FFTケプストラム法,20次) ケプストラム(低 次) スペクト ル 概形 F0
10.
10 ケプストラムの仲間たち(1) FFTケプストラム – 音声→パワースペクトル→対数パワースペ クトル→ケプストラム LPCケプストラム – 音声→線形予測係数→LPCスペクトル→対数 LPCスペクトル→ケプストラム
11.
11 LPCケプストラム計算例 LPCスペクトル(20次) 最初から概形だけになってい る LPCケプストラム(低次) 高次の成分はほとんど0
12.
12 ケプストラムの仲間たち(2) メル周波数軸上のケプストラム – LPCメルケプストラム • LPCケプストラム係数を変換 –
メルLPCケプストラム • 音声波形をフィルタでメル周波数変換してLPC分 析 – MFCC (Mel Frequency Cepstral Coefficients) • メル周波数間隔のバンドパスフィルタ出力のコサ イン変換
13.
13 MFCCの計算 計算手順 バンドパスフィルタ – メル周波数上で等間隔 音声 振幅 スペクトル 対数BPF 出力 BPF 出力 MFCCFFT logBPF
DCT
14.
14 音響モデル 記号(音素,単語など) W が特徴量系列 X
に対応する確率 p(X|W)を計算する – どうやって確率をつけるか? – XもWも可変長⇒どう対応付けるか? 隠れマルコフモデル(HMM)によるモデ ル化 – 特徴量系列を,特定の確率分布に従う系列 の連続としてモデル化
15.
15 HMM:隠れマルコフモデル HMMは特徴量系列を生成するモデル – 非決定性有限状態オートマトン – 「現在の状態」が確率的に変わりながら, 確率的に特徴ベクトルを生成する 状態iからjへの遷移 確率 状態iでの特徴ベク トルxの出力確率密 度 状態iの初期確率
i ai j bi x 多次元混合正規分布がよく用い られる
16.
16 HMMの特徴 生成モデルである (vs. 識別モデル) –
音声の特徴量系列が出力される「確率密度」を計算する ことができる 任意の長さの系列が生成できる – 伸び縮みする系列を扱うのに適している – 系列と状態を対応付ける方法が確率している(ビタビアル ゴリズム) 学習によってパラメータが推定できる – サンプルを与えることで,そのサンプルを生成する確率 が高いHMMを推定することができる (Baum-Welch のア ルゴリズム)
17.
17 HMMの学習 各シンボル(音素など)のデータを大量に 与えることでHMMが学習できる /a/ /i/ /o/ /a/のサンプ ル /i/のサンプル /o/のサンプ ル
18.
18 HMMによる認識(1) 入力系列XがHMM ηで生成される確率 密度 p(X|η)を計算する /a/ /i/ /o/ X p
X∣/ a / p X∣/ i / p X∣/ o /
19.
19 HMMによる認識(2) 辞書を利用した単語の確率計算 /a/ /a//k/ /o/ /i//k/ X 赤
⇒ /a/ /k/ /a/ 沖 ⇒ /o/ /k/ /i/ p X∣赤 p X∣沖 確率最大の単語を探せば 単語認識ができる
20.
20 言語モデル 文を構成する単語の並びの制約を表現するモ デル ある文の並びを「評価」する – 1/0の評価:文法 (受理可能/不可能) •
有限状態文法(有限状態オートマトン) • 文脈自由文法(CFG) – 並びの「良さ」を確率的に評価: 統計的言語 モデル • N-gram • その他の確率的言語モデル
21.
21 有限状態文法 「ありうる単語の並び」をネットワー クで表現する 紅茶 コーヒー 水 を も ひとつ ふたつ みっつ 一杯 二杯 三杯 持って こい きなさい きて ください ちょうだい ください ちょうだい
22.
22 統計的言語モデル もっと大規模な文を認識するには? – 文章の音声入力など ある単語が並ぶ確率(並びやすさ)を 使う これを直接求めるのは難しい →近似によって求める Pw1 w2wN
=∏i Pwi∣w1wi−1
23.
23 N-gram言語モデル ある単語の生起確率が直前のn-1単語に のみ依存すると仮定 – n=2の場合 Pw1wN =∏i Pwi∣wi−1 n=1:
unigram n=2: bigram n=3: trigram
24.
24 一番良い文を探そう 20000種類の単語を知っている音声認識 …システムでは – 7個の単語からなる文は 200007 =1.28×1030 通り – 文1個の計算に1/10000秒かかったとする –
全部調べるには400京年(400億年の1億 倍)かかる
25.
25 デコーダによる探索 見込みのありそうな文だけ探す – 途中までスコアを計算しながら、可能性の ありそうな文だけを残し、残りは調べない 今日 は
良い 天気 でした 今日 で 言葉のつながりが悪い 音が似ていない コンピュータチェスなどと同じ手法
26.
26 音声の合成 録音合成 編集合成 パラメータ合成 テキスト音声合成 (Text-to-Speech) – 物理シミュレーション –
フォルマント合成 – 波形接続合成 – HMM合成 文を全部録音 単語単位で録音 実際の声を元に合成⇒携帯電話
27.
27 テキスト音声合成 (TTS) 文字列を音声に変換する技術 文字列 形態素解析
音素列 単語列 構文解析 単語アクセン ト 韻律句 韻律合成 ピッチ系 列 音声合成 エンジン 音声
28.
28 フォルマント合成 声帯から出る波と、声道による音色の 変化をマネすることによって音を出す 音の高さ 音の強さ 音の強さ 音の高さ × = 音の高さ 音の強さ
29.
29 フォルマント合成 音源 フォルマント フィルタ formant DB 各音素 F1~F4の周波数と そのバンド幅
30.
30 フォルマント合成 デモをどうぞ 利点 – 母音( a,
i, u, e, o等)については、どんな 声でも原理的に作れる 欠点 – 自然な声を出すのが難しい – 子音(p, s, d などの音)の品質が良くない
31.
31 波形接続合成 本物の声をたくさん記録しておき、そ の中から適宜取り出してきてつなぐ – 編集合成の高度なやつ – 利点 •
(もとが本物なので)自然な声が作りやすい – 欠点 • 大量の元音声が必要 • 任意の声は作れない
32.
32 波形接続合成 各音節の波形を接続 母音の途中で波形を接続(VCV接続) o sh i
i k a a k eo o sh i e k a k e これを実現するためには,各音声素片の長さ や高さを調整する必要がある 音声素片
33.
33 声の高さや長さを変える技術 波形をそのまま利用する方法 – TD-PSOLA法 音声分析合成に基づく方法 – フェーズボコーダ –
STRAIGHT法
34.
34 TD-PSOLA (Time-Domain Pitch-Synchronous Overlap
Add) 基本周期に同期して波形を切り出し, それを再び重ね合わせる
35.
35 TD-PSOLA (Time-Domain Pitch-Synchronous Overlap
Add) 波形を何度も重ね合わせると音を伸ば すことができる
36.
36 TD-PSOLA (Time-Domain Pitch-Synchronous Overlap
Add) 重ね合わせの周期を変えるとピッチ変 換が実現できる
37.
37 HMM音声合成 HMMはもともと生成モデル→それを合 成に使う 文に対応するHMM系列 特徴量系列 メルケプストラム・ Δ・ΔΔ MLSA フィルタ 音声系列
38.
38 対話をするために 音声認識と合成だけでは対話にならな い – 対話の目的 – 認識した内容の理解 –
目的達成のための聞き返し、確認紅茶を 下さい 緑茶ですか? 違う、紅茶 わかりました 紅茶ですね
39.
39 音声の理解 機械が「理解」するとは? – 対話の目的:人間から情報を得ること – 対話の目標:埋めるべき項目の一覧 –
対話の理解:項目が全部埋まること 動作:持ってくる 対象:紅茶 個数:1 紅茶を1杯ください。
40.
40 どうする音声の理解 紅茶 コーヒー 水 を も ひとつ ふたつ みっつ 一杯 二杯 三杯 持って こい きなさい きて ください ちょうだい ください ちょうだい 対象 個数 水 を 一杯 ください 対象=水 個数=1
41.
41 もっと難しい理解 複数の目標がある – 旅行会社の対話(目的地、ホテル、交通手 …段 ) 対話の進行によって目標が変わる –
観光案内 目標が良くわからない – 雑談
42.
42 あなたは誰? 人間が考える「対話」には相手がある 。 機械との「対話」の相手は誰だ。 ロボット? 実際のロボット 画面上のキャラク ター (アバター) 擬人化
43.
43 対話のキャラクタの デザイ ン 何がよいのか良くわかっていない – 芸術の領域 –
人間の対話行動の模倣 • うなずき、あいづち、表情の変化 人間は「自然性」に敏感 – 人間にわかる「自然性」の正体は?
44.
44 …現在の技術では 音声認識 – 「日本語のできる外国人」レベル • 雑音に弱い •
話題の変化に弱い 音声合成 – 「日本語のできる外国人」レベル • 何を言っているのかはわかる • アクセントが変
45.
45 …現在の技術では 音声理解 – きわめて限定的 – 「なにをもって理解とするか」が難しい 対話能力 –
きわめて限定的 – 複雑な対話は難しい – 理解を伴う雑談は無理 • 理解を伴わない雑談なら可能(人工無能)
Download