SlideShare a Scribd company logo
音声生成過程を考慮した
WaveNetに基づく音声波形合成法
玉森 聡,林 知樹,戸田 智基,武田 一哉
名古屋大学
研究目標
高品質かつ多様な音声波形合成技術の実現
• 音声による機械との情報伝達
• 音声は最も基本的なコミュニケーションツールの一つ
• 音声対話・音声翻訳,家電,ゲーム など
• 様々な要望
• いつでもどこでも聞き取りやすい音声
• より自然で肉声感のある音声
• 話速や声質を柔軟に制御したい など
代表的な音声波形合成技術
波形接続方式
(ノンパラメトリック)
分析合成方式
(パラメトリック)
概要 :
音声波形の素片を接続して
音声を合成
概要:
音響特徴量(パラメタ)から
音声を合成
利点:
高品質(明瞭性の高さなど)
欠点:
音質が劣化(ボコーダ音)
欠点:
声質制御の柔軟性が低い
(話速や声色) など
利点:
声質制御の柔軟性が高い
など
両方式の良いとこ取りは実現できないか?
深層学習に基づく音声波形合成
• 音声合成分野にも深層学習が進出
例:Feed-Forward [Zen et al., ‘13] , LSTM-RNN [Zen et al., ‘15]
• WaveNet [van den Oord et al., ‘16]
• ニューラルネットワーク自身が音声波形を直接生成
⇒波形接続方式をも上回る高品質な音声
• 波形合成をサポートする補助特徴量が利用可能
WaveNetのポテンシャルに注目
本研究の概要
• 音響特徴量をWaveNetの補助特徴量として利用
従来の波形接続・分析合成方式の利点を併せ持つ
• 音響特徴量の利用 ⇒ 声質制御の柔軟性を期待
• 既存の分析合成器を介さない ⇒ 高品質な音声を期待
• 客観評価実験
メルケプストラムボコーダと比較して歪み改善
WaveNet
合成音声
音響特徴量
目次
• 研究背景
• 音声の生成過程とソースフィルタモデル
• WaveNet
• 提案法
• 実験
• まとめ
音声の生成過程
肺からの空気
音声
「こんにちは」
テキスト(概念)
「こんにちは」
口やのどの形
声の高さ・大きさ
発声器官を制御
音声の生成過程を模擬
(ディジタルフィルタ)
合成音声
制御パラメータ化して表現
ソースフィルタモデル[Fant, ‘60]
)(nh
)(ne
)(*)()( nenhnx 
励起信号
パルス列(有声)
白色雑音(無声)
音声
音源の特徴
(声の高さ・大きさ)
声道の特徴
(口やのどの形)
基本周波数
非周期成分付与
有声・無声情報
窓かけ
overlap/shift
ケプストラム係数など
+
線形時不変システム
• 音声の生成過程を音源生成と声道共振(フィルタ)に分離
• 窓かけした音声を分析して音響特徴量を抽出
基本周波数(音源),ケプストラム係数(声道)など
• 音声波形合成系はボコーダ(Vocoder)とも呼ばれる
音質の限界を与える要因
)(nh
)(ne
)(*)()( nenhnx 
励起信号
パルス列(有声)
白色雑音(無声)
音声
音源の特徴
(声の高さ・大きさ)
声道の特徴
(口やのどの形)
基本周波数
非周期成分付与
有声・無声情報
窓かけ
overlap/shift
ケプストラム係数など
+
線形時不変システム
• 励起信号のモデル化 ⇒ 位相情報の損失
• フィルタのモデル化 ⇒ 数学的仮定の導入(ガウス性など)
• Frame-by-Frameな処理 ⇒ 固定窓長&窓内の線形性
複数要因が組み合わさり音質が劣化
目次
• 研究背景
• 音声の生成過程とソースフィルタモデル
• WaveNet
• 提案法
• 実験
• まとめ
WaveNet [van den Oord et.al, ’16]
音声の自己回帰型の生成モデル
重要な構成要素
• Causal dilated convolution
⇒非常に長期に渡る依存関係をモデル化
• ゲート付き活性化関数, residual, skip-connection
⇒強力な非線形性
• 出力層にsoftmax
⇒回帰問題(連続値)ではなくクラス分類問題(離散値)
:音声波形データ
畳み込みニューラルネットワークでモデル化
:モデルパラメータ
Causal Dilated Convolution
• Causal : 過去の波形サンプルのみを参照して畳み込み
• 層を重ねるごとにdilation(穴あき)を指数的に増やす
⇒長期の相関を効率よく取り込む
入力
隠れ層1
dilation=1
隠れ層2
dilation=2
隠れ層3
dilation=4
出力
dilation=8
アーキテクチャの全体図
sigm
Dilated
Conv.
1×1
Conv.
tanh tanh sigm
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
Causal
Conv.
ReLU
Skip-connections
Residual Residual
1×1
Conv.
1×1
Conv.
ReLU
Input
Output
● ● ●
Softmax
Residual
ブロック
Residual
ブロック
Residual
ブロック
アーキテクチャの全体図
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
Causal
Conv.
ReLU
Skip-connections
Residual Residual
1×1
Conv.
1×1
Conv.
ReLU
Input
Output
● ● ●
Softmax
Residual
ブロック
Residual
ブロックGated activation
Causal Dilated Conv.
ゲート付き活性化関数
Residual
Skip-connection
Softmax
• 問題点:振幅値の直接予測はクラス数が過多
例:量子化が16bitならば65,536個の値を取りうる
• 解決策:振幅値の符号化
取りうる値を大幅に削減(16bitから8bit)
• Softmax分布を出力層に設置
• 符号化された波形サンプル値が予測対象
• 予測で得られた値は復号化して振幅値に戻す
WaveNetの学習と合成
• 学習
• 入力側と出力側それぞれに符号化済サンプル列を用意
• クロスエントロピー最小化基準による最適化
• 合成
• 入力側は過去にWaveNet自身が生成したサンプル列
• Softmax分布からのランダムサンプリングを繰り返す
⇒自己回帰過程からのサンプリング
条件付きWaveNet
• 補助特徴量系列 を導入してモデルを条件づける
• 先行研究では言語情報や基本周波数が補助特徴量
⇒ 言語情報と音声波形の間の対応関係を学習
⇒ テキスト音声合成タスクに適用
目次
• 研究背景
• 音声の生成過程とソースフィルタモデル
• WaveNet
• 提案法
• 実験
• まとめ
条件付きWaveNetと提案法との関係
• 補助特徴量系列 によるモデルの条件づけは同じ
• 提案法は既存のボコーダの音響特徴量が補助特徴量
補助特徴量系列と音声波形系列で時間解像度が不一致
⇒補助特徴量の時間拡張( → )により対応
⇒各時刻の補助特徴量を予測分布に埋め込む
音響特徴量の抽出
音声
…… …
分析窓長
フレームシフト
音声分析
特徴量系列長は音声波形長よりも短い
音響
特徴量
音響特徴量の時間拡張
音響特徴量をフレームシフト幅だけ時間方向に複製
⇒音声と時間的解像度を合わせる
第1フレーム 第2フレーム 第3フレーム 第4フレーム
音声サンプル点
系列
オリジナルの
補助特徴量
系列
コピー
…
…
時間拡張した
補助特徴量
系列 …
補助特徴量の埋め込み
Residual Blockの追加入力として実現
Residual
Block #3
Residual
Block #4
Residual
Block #2
Residual
Block #1
Residual
Block #1
補助特徴量
隠れ層1
dilation=1
隠れ層2
dilation=2
隠れ層3
dilation=4
出力
dilation=8
提案法の特徴
ボコーダの音響特徴量と音声波形の対応関係を学習
• 励起信号のモデル化は不要
⇒位相情報の損失の軽減,音質劣化を抑える
• 複雑な数学的モデルや仮定は不要
⇒対応関係をデータドリブンで自動構築
• Sample-by-Sampleかつ非線形な対応関係
⇒従来はFrame-by-Frameかつ線形な関係
既存のボコーダの代替を期待
目次
• 研究背景
• 音声の生成過程とソースフィルタモデル
• WaveNet
• 提案法
• 実験
• まとめ
実験による性能評価
• 合成音声と元音声の間の歪みによる客観評価
• 実験条件
CMU-ARCTIC データベース
女性話者 SLT
学習データ 1082 文章
評価データ 50 文章
サンプリング周波数 16 kHz
フレーム周期 5 ms
フレーム長 25 ms
窓関数 ハミング窓
0 次〜24 次メルケプストラム
基本周波数
データベース
音響特徴量
ネットワークの学習条件
• 最適化アルゴリズムはAdamを利用; 学習率は手動で調整
• Dilationは1, 2, .... , 512を
3回繰り返す
⇒30層
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
Causal
Conv.
ReLU
Skip-connections
Residual Residual
1×1
Conv.
1×1
Conv.
ReLU
Input
Output
● ● ●
Softmax
Residual
ブロック
Residual
ブロックGated activation
256ch
256ch
30ブロック = Causal dilated convolution 30層
2048ch 2048ch
256ch
2048ch
歪み評価の指標
• フレーム平均SNR(セグメンタルSNR)
⇒時間領域の歪みを評価
• フレーム平均SDR
⇒振幅スペクトルの歪みを評価
: フレーム総数 : フレーム長 : 評価用音声 : 合成音声
: 周波数ビンの総数 : 合成音声の
スペクトログラム
: 評価用音声の
スペクトログラム
補助特徴量の違いが歪みに与える影響
補助特徴量のパターン 説明
Nothing 補助特徴量なし
Mcep メルケプストラムのみ
Mcep + F0 メルケプストラム
基本周波数
• 補助特徴量を変えてWaveNetを学習
※メルケプストラムは短時間FFTスペクトルから抽出
実験結果(補助特徴量の違い)
• 縦軸の単位はdB; ノッチは有意水準5%の信頼区間を表す
SNR SDR
McepNothing Mcep+F0Raw
(くぼみ)
実験結果(補助特徴量の違い)
• 基本周波数の軌跡(合成音声を分析して抽出)
Mcepは評価用音声(Test)の軌跡から大きく逸脱
メルケプストラムのみでも致命的な破綻はない
抽出誤り
メルケプストラムボコーダとの歪み比較
比較手法 メルケプストラムの抽出元 波形合成法
Plain-MLSA 短時間FFTスペクトル MLSA フィルタ
STRAIGHT-
MLSA
STRAIGHT分析※1による
スペクトル包絡
MLSA フィルタ
※2
Plain-
WaveNet
短時間FFTスペクトル WaveNet
STRAIGHT-
WaveNet
STRAIGHT分析による
スペクトル包絡
WaveNet
※1 高品質ボコーダSTRAIGHTで行われる音声分析の通称
※2 MLSAフィルタ:メルケプストラムボコーダの合成フィルタ
実験結果(SNR)
提案法の有効性を確認
SNRの改善
STRAIGHT-
WaveNet
実験結果(SNR)
メルケプストラムボコーダからの
有意な歪み改善
STRAIGHT-
WaveNet
実験結果(SNR)
高品質なメルケプストラムが
波形生成に有効に働く
STRAIGHT-
WaveNet
Raw
実験結果(SDR)
STRAIGHT-MLSAと同等の歪みを達成
STRAIGHT-
WaveNet
まとめ
音声の生成過程を考慮したWaveNetに基づく音声波形合成
• 既存のボコーダの音響特徴量を補助特徴量に利用
• 客観評価実験
• メルケプストラムボコーダが対象
• SNRについて有意な歪み改善,SDRはSTRAIGHTと同程度
今後の課題
• 主観評価実験
• 音響特徴量の変化に対する補完・頑健性の調査
• 既存の各種ボコーダの音響特徴量を適用
• データの規模を増減させて有効性を検証
時間領域の歪みを改善した高品質な音声波形の生成

More Related Content

What's hot

CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
NU_I_TODALAB
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
Yuki Saito
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法
NU_I_TODALAB
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
NU_I_TODALAB
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
Yuki Saito
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
NU_I_TODALAB
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
NU_I_TODALAB
 
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
Deep Learning JP
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
 

What's hot (20)

CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 

Viewers also liked

懇親会の余興スライド
懇親会の余興スライド懇親会の余興スライド
懇親会の余興スライド
Akira Tamamori
 
サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...
サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...
サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...
Akira Tamamori
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
 
フォントの選び方・使い方
フォントの選び方・使い方フォントの選び方・使い方
フォントの選び方・使い方
k maztani
 
介護Agent提案書 v20214
介護Agent提案書 v20214介護Agent提案書 v20214
介護Agent提案書 v20214
nakajima19931201
 
An Analysis of Convolution for Inference
An Analysis of Convolution for InferenceAn Analysis of Convolution for Inference
An Analysis of Convolution for Inference
Intel Nervana
 
ELMS:LN - Dreaming the NGDLE into reality
ELMS:LN - Dreaming the NGDLE into realityELMS:LN - Dreaming the NGDLE into reality
ELMS:LN - Dreaming the NGDLE into reality
Bryan Ollendyke
 
NTU@TPE intro 2017Spring
NTU@TPE intro 2017SpringNTU@TPE intro 2017Spring
NTU@TPE intro 2017Spring
Shuwei Huang
 
TETRIS AI WITH REINFORCEMENT LEARNING
TETRIS AI WITH REINFORCEMENT LEARNINGTETRIS AI WITH REINFORCEMENT LEARNING
TETRIS AI WITH REINFORCEMENT LEARNING
Jungkyu Lee
 
Tarikh al Hawadits wa al Ahwal an Nabawiyyah (تاريخ الحوادث والأحوال النبوية)
Tarikh al Hawadits wa al Ahwal an Nabawiyyah (تاريخ الحوادث والأحوال النبوية)Tarikh al Hawadits wa al Ahwal an Nabawiyyah (تاريخ الحوادث والأحوال النبوية)
Tarikh al Hawadits wa al Ahwal an Nabawiyyah (تاريخ الحوادث والأحوال النبوية)
Nur Agustin Mufarokhah
 
PreadNet
PreadNetPreadNet
PreadNet
Junya Kuwada
 
Regret Minimization in Multi-objective Submodular Function Maximization
Regret Minimization in Multi-objective Submodular Function MaximizationRegret Minimization in Multi-objective Submodular Function Maximization
Regret Minimization in Multi-objective Submodular Function Maximization
Tasuku Soma
 
Pythonで実現する4コマ漫画の分析・評論
Pythonで実現する4コマ漫画の分析・評論Pythonで実現する4コマ漫画の分析・評論
Pythonで実現する4コマ漫画の分析・評論
esu ji
 
Standard Assessment Procedure - ATSPACE LTD
Standard Assessment Procedure - ATSPACE LTDStandard Assessment Procedure - ATSPACE LTD
Standard Assessment Procedure - ATSPACE LTD
atspaceltd
 
GRU-Prednetを実装してみた(途中経過)
GRU-Prednetを実装してみた(途中経過)GRU-Prednetを実装してみた(途中経過)
GRU-Prednetを実装してみた(途中経過)
Taichi Iki
 
Chainerを使ったらカノジョができたお話
Chainerを使ったらカノジョができたお話Chainerを使ったらカノジョができたお話
Chainerを使ったらカノジョができたお話
Hiroki Yamamoto
 
My Future Teaching
My Future TeachingMy Future Teaching
My Future TeachingJIA JIA LIOU
 
Pred net使ってみた
Pred net使ってみたPred net使ってみた
Pred net使ってみた
koji ochiai
 

Viewers also liked (20)

懇親会の余興スライド
懇親会の余興スライド懇親会の余興スライド
懇親会の余興スライド
 
サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...
サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...
サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 
フォントの選び方・使い方
フォントの選び方・使い方フォントの選び方・使い方
フォントの選び方・使い方
 
介護Agent提案書 v20214
介護Agent提案書 v20214介護Agent提案書 v20214
介護Agent提案書 v20214
 
An Analysis of Convolution for Inference
An Analysis of Convolution for InferenceAn Analysis of Convolution for Inference
An Analysis of Convolution for Inference
 
ELMS:LN - Dreaming the NGDLE into reality
ELMS:LN - Dreaming the NGDLE into realityELMS:LN - Dreaming the NGDLE into reality
ELMS:LN - Dreaming the NGDLE into reality
 
Apatía escolar
Apatía escolarApatía escolar
Apatía escolar
 
NTU@TPE intro 2017Spring
NTU@TPE intro 2017SpringNTU@TPE intro 2017Spring
NTU@TPE intro 2017Spring
 
TETRIS AI WITH REINFORCEMENT LEARNING
TETRIS AI WITH REINFORCEMENT LEARNINGTETRIS AI WITH REINFORCEMENT LEARNING
TETRIS AI WITH REINFORCEMENT LEARNING
 
Tarikh al Hawadits wa al Ahwal an Nabawiyyah (تاريخ الحوادث والأحوال النبوية)
Tarikh al Hawadits wa al Ahwal an Nabawiyyah (تاريخ الحوادث والأحوال النبوية)Tarikh al Hawadits wa al Ahwal an Nabawiyyah (تاريخ الحوادث والأحوال النبوية)
Tarikh al Hawadits wa al Ahwal an Nabawiyyah (تاريخ الحوادث والأحوال النبوية)
 
PreadNet
PreadNetPreadNet
PreadNet
 
Regret Minimization in Multi-objective Submodular Function Maximization
Regret Minimization in Multi-objective Submodular Function MaximizationRegret Minimization in Multi-objective Submodular Function Maximization
Regret Minimization in Multi-objective Submodular Function Maximization
 
Pythonで実現する4コマ漫画の分析・評論
Pythonで実現する4コマ漫画の分析・評論Pythonで実現する4コマ漫画の分析・評論
Pythonで実現する4コマ漫画の分析・評論
 
Standard Assessment Procedure - ATSPACE LTD
Standard Assessment Procedure - ATSPACE LTDStandard Assessment Procedure - ATSPACE LTD
Standard Assessment Procedure - ATSPACE LTD
 
GRU-Prednetを実装してみた(途中経過)
GRU-Prednetを実装してみた(途中経過)GRU-Prednetを実装してみた(途中経過)
GRU-Prednetを実装してみた(途中経過)
 
Chainerを使ったらカノジョができたお話
Chainerを使ったらカノジョができたお話Chainerを使ったらカノジョができたお話
Chainerを使ったらカノジョができたお話
 
My Future Teaching
My Future TeachingMy Future Teaching
My Future Teaching
 
Pred net使ってみた
Pred net使ってみたPred net使ってみた
Pred net使ってみた
 

Similar to A Method of Speech Waveform Synthesis based on WaveNet considering Speech Generation Process

音声を検索するための索引付け方式の紹介(初心者向け)
音声を検索するための索引付け方式の紹介(初心者向け)音声を検索するための索引付け方式の紹介(初心者向け)
音声を検索するための索引付け方式の紹介(初心者向け)utsuro_lab
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
kame_hirokazu
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
Kitamura Laboratory
 
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
Kitamura Laboratory
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
Ryohei Suzuki
 
論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx
Natsumi KOBAYASHI
 
WaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw AudioWaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw Audio
Shunji Kawabata
 

Similar to A Method of Speech Waveform Synthesis based on WaveNet considering Speech Generation Process (7)

音声を検索するための索引付け方式の紹介(初心者向け)
音声を検索するための索引付け方式の紹介(初心者向け)音声を検索するための索引付け方式の紹介(初心者向け)
音声を検索するための索引付け方式の紹介(初心者向け)
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
 
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
 
論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx
 
WaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw AudioWaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw Audio
 

A Method of Speech Waveform Synthesis based on WaveNet considering Speech Generation Process