SlideShare a Scribd company logo
1 of 55
Download to read offline
1
複数話者WaveNetボコーダに
関する調査
林知樹, 小林和弘, 玉森聡, 武田一哉, 戸田智基
名古屋大学
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
2
音声合成技術の可能性
 音声合成: 人工的に人間の発話を生成する技術
 様々な場面において音声合成技術の活用が拡大
 音声合成技術には2つの重要な要素が存在
1. 自然性: 人間の発話に近いかを表現
2. 柔軟性: 柔軟に音声の性質を変化させられるかを表現
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
電話での自動応答 対話インターフェース公共の場での
アナウンス
現代の生活に必要不可欠な技術
3
従来の音声合成方式
1. 波形接続型音声合成
 音声を細かく分解した断片を接続して音声を生成
 自然性 高  柔軟性 低
2. パラメトリック音声合成
 音声特徴量とボコーダを利用して音声を生成
 柔軟性 高  自然性 低
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Database
select concatenate
Fundamental freq.
Spectrum env.
Aperiodicity
Feature
extract
Vocoder
Feature
transform
4
従来の音声合成方式
1. 波形接続型音声合成
 音声を細かく分解した断片を接続して音声を生成
 自然性 高  柔軟性 低
2. パラメトリック音声合成
 音声特徴量とボコーダを利用して音声を生成
 柔軟性 高  自然性 低
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Database
select concatenate
Fundamental freq.
Spectrum env.
Aperiodicity
Feature
extract
Vocoder
Feature
transform
自然性と柔軟性はトレードオフの関係
5
深層学習の台頭
 WaveNet [Van Den Oord+, 2016]
 直接波形を推定する自己回帰型生成モデル
 波形接続型音声合成をも上回る品質を達成
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Speech sample 1 Speech sample 2 Piano sample
WaveNetの高い時間波形モデリング能力に着目
パラメトリック音声合成の知見との融合
6
我々のこれまでの研究
 話者依存WaveNet Vocoder [Tamamori+, 2017]
 WaveNetをボコーダとして利用
 既存の高品質ボコーダを上回る音質を達成
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Feature
extract
Mel-cepstrum
𝐹0
Aperiodicity
Feature
transformation
Speech parametersSpeech signal
Contional
WaveNet
Synthesized signal
高い話者依存性を持つために
様々な話者の音声の合成ができるかは未知
7
本研究の貢献
 WaveNetボコーダの改良及び調査
 下記の三点を実験的に明らかに
1. 不特定話者モデル >> WORLD / STRAIGHT
2. 180発話学習 特定話者モデル >> WORLD
3. 320発話学習 特定話者モデル ≒ 不特定話者モデル
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
貢献1: 特徴量及び前処理の改善による品質の向上
 特徴量抽出部の改善及び正規化の導入
 ノイズシェーピングによる聴覚マスキングの導入
貢献2: 学習話者数及び学習データ量の影響を調査
 複数話者発話を利用した不特定話者モデルを構築
 学習データと合成品質の関係を明らかに
8
WaveNet
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
9
WaveNet
 波形 𝐱 = {𝑥1, 𝑥2, … , 𝑥 𝑁}の結合確率
 有限長で過去のサンプルの影響を打ち切り
 WaveNet 3つのキーポイント
1. Dilated causal convolution: 広い受容野の確保
2. Quantized waveform: 分類問題として最適化
3. Residual and skip connection: Deepなモデルを実現
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
WaveNetでモデル化
受容野サイズ
Reference: Heiga Zen, Generative model-based TTS synthesis
10
Dilated causal convolution
 過去のサンプルにのみ依存した穴開きの畳込み
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
*Figure from van den Oord+, WaveNet: A generative model for raw audio, 2016.
𝑥 𝑛−16 𝑥 𝑛−2 𝑥 𝑛−1
𝑝(𝑥 𝑛|𝑥 𝑛−1, … , 𝑥 𝑛−16)
考慮可能なサンプル数が指数関数的に増加
非常に大きな受容野のサイズを確保可能
11
量子化された波形の利用
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Time
Amplitude
 𝜇-rawアルゴリズムで波形を8 bitのone-hotへ変換
クラス分類問題として音声波形を推定
*Figure from Heiga Zen, Generative model-based TTS synthesis
12
WaveNet
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Residual block
Residual block
Residual block
Residual block
⋮
ReLU
ReLU
Softmax
1×1
1×1
Inputs
Causal
Skip connection
2 × 1 dilated
Gated
1 × 1
1 × 1
Residual block
To skip connection
To next residual block
+
+
Outputs
30
13
Conditional WaveNet
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Residual block
Residual block
Residual block
Residual block
⋮
ReLU
ReLU
Softmax
1×1
1×1
Inputs
Causal
Skip connection
2 × 1 dilated
Gated
1 × 1
1 × 1
Residual block
Toskipconnection
To next residual block
+
+
Outputs
Auxiliary
features
1 × 1
1 × 1
1 × 1
1 × 1
+
Linguistic feature,
speaker-code,
and F0 are used.
14
WaveNet Vocoder
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
15
システムの概要
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
16
特徴量抽出
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
17
特徴量抽出の流れ
1. WORLD分析により3種類の特徴量を抽出
 基本周波数: 1次元
 メルケプストラム 0-24次: 25次元
 非周期性指標: 1次元
2. 基本周波数をバイナリ情報と連続F0に変換
 有声無声区間情報: 1次元
 連続F0: 1次元
3. 抽出した特徴量を連結し28次元特徴量へ
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
18
連続F0への変換
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
線形補間
ローパスフィルタ
時間 [フレーム]
基本周波数[Hz]
19
正規化処理
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
20
正規化処理
 特徴量の各次元が平均0・分散1になるように正規化
 特徴量次元間でスケールを統一
 学習データ全体で計算した統計量により正規化
 複数話者を用いる場合でも全ての話者で統計量を計算
 合成時には学習時に計算した統計量を利用
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
21
時間分解能の修正
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
22
時間分解能の修正
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
 時間波形と同じ時間分解能を持つように複製
*Figure from A. Tamamori, 音声生成過程を考慮したWaveNetに基づく音声波形合成法, 2016.
23
ノイズシェーピング
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
24
ノイズシェーピング [Tachibana+ 2017]
 予測誤差によるノイズのパワーを音声のパワーが
強い帯域へ集中させる技術
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
周波数
パワー
音声
予測誤差による
ノイズ
高域のノイズが聴覚上知覚されやすい
25
ノイズシェーピング [Tachibana+ 2017]
 予測誤差によるノイズのパワーを音声のパワーが
強い帯域へ集中させる技術
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
周波数
パワー
音声
時不変聴覚重み付けフィルタを適用
BEFORE
周波数
パワー
フィルタリングされた
音声
AFTER
26
ノイズシェーピング [Tachibana+ 2017]
 予測誤差によるノイズのパワーを音声のパワーが
強い帯域へ集中させる技術
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
周波数
パワー
音声
周波数
パワー
音声スペクトルがフラットな形状に
BEFORE AFTER
フィルタリングされた
音声
27
ノイズシェーピング [Tachibana+ 2017]
 予測誤差によるノイズのパワーを音声のパワーが
強い帯域へ集中させる技術
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
周波数
パワー
フィルタリングされた音声
フラットになった音声を利用して学習
ノイズ
28
ノイズシェーピング [Tachibana+ 2017]
 予測誤差によるノイズのパワーを音声のパワーが
強い帯域へ集中させる技術
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
周波数
パワー
フィルタリングされた
音声
BEFORE
ノイズ
時不変ノイズシェーピングフィルタを適用
(聴覚重み付けフィルタの逆フィルタ)
周波数
パワー
AFTER
ノイズ
復元音声
29
ノイズシェーピング [Tachibana+ 2017]
 予測誤差によるノイズのパワーを音声のパワーが
強い帯域へ集中させる技術
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
周波数
パワー
音声
周波数
パワー
音声
BEFORE AFTER
ノイズ
ノイズパワーが音声パワーが強い帯域へ集中
ノイズ
聴覚上ノイズが知覚されにくいように
30
WaveNet
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
31
WaveNetの構造
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Residual block
Residual block
Residual block
Residual block
⋮
ReLU
ReLU
Softmax
1×1
1×1
Quantized
waveform
Causal
Skip connection
2 × 1 dilated
Gated
1 × 1
1 × 1
Residual block
Toskipconnection
To next residual block
+
+
Outputs
auxiliaryfeatures
1 × 1
1 × 1
1 × 1
1 × 1
+
UV binary,
continuous F0,
mel-cepstrum,
and aperiodicity
#𝑐ℎ = 2048
#𝑐ℎ = 256
#𝑐ℎ = 256
#𝑐ℎ = 256
#𝑐ℎ = 256
#𝑐ℎ = 2048 #𝑐ℎ = 2048
#𝑙𝑎𝑦𝑒𝑟 = 30
#𝑑𝑖𝑚 = 256
#𝑑𝑖𝑚=28
#𝑑𝑖𝑚=256
32
WaveNetの学習/デコード
WaveNetの学習
 学習時にはFIRフィルタとして利用
 観測信号 𝑥 𝑛−1−𝑅:𝑛−1を使ってො𝑥:𝑛を予測
 交差エントロピーを最小化するように最適化
WaveNetのデコード
 合成時にはARフィルタとしてデコード
 予測された ො𝑥 𝑛−1−𝑅:𝑛−1を使ってො𝑥 𝑛を予測
 予測された ො𝑥 𝑛−𝑅:𝑛を使ってො𝑥 𝑛+1を予測
 以下繰り返し
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
33
デコードの流れ
*Figure from van den Oord+, WaveNet: A generative model for raw audio, 2016.
332017/12/07 NECデータサイエンス研究所 共同研究インターンシップ 最終成果報告
34
実験的評価
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
35
実験的評価
 CMU-ARCTICデータベースを用いて評価
 7人の話者の英語発声からなるデータベース
 awbを除く6人の話者のデータを利用
 bdl, rms, slt, clbの4人を評価話者として利用
 各話者の1028発話を学習・40発話を評価に利用
 以下の4種類のモデルを比較
1. SD: 単一の話者で学習した特定話者モデル
2. SI-CLOSE: 全ての話者で学習した不特定話者モデル
3. SI-OPEN: 評価話者以外で学習した不特定話者モデル
4. SC: 話者コード用いて学習した不特定話者モデル
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
36
主観評価
 平均オピニオン評価(MOS)による主観評価を実施
 9人の成人男性による自然性の5段階評価
 Score: 1 (bad), 2 (poor), 3 (fair), 4 (good), 5 (excellent)
 各被験者の評価発話数は120
 比較対象としてSTRAIGHTによる音声を利用
 F0 / 0-24次メルケプ / 5次元非周期性指標を入力
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
37
実験条件
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Sampling rate 16,000 Hz
Shift size 5 msec
# training data
1 speaker (for SD)
6 speakers (for SI-CLOSE)
5 speakers (for SI-OPEN)
1028 utterances per speaker
# evaluation data
4 speakers
104 utterances per speaker
# iterations
200,000 (for SD)
400,000 (for SI / SC)
Learning rate 0.01 with halving w.r.t. 50,000 iters
Batch size 20,000
Optimization algorithm Adam
38
主観評価結果
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
39
主観評価結果
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
特定話者モデルは生音声と有意差なし
40
主観評価結果
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
先行研究からの大幅な品質向上
41
主観評価結果
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
評価話者を学習に利用せずとも従来手法を上回る
42
主観評価結果
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
話者コードの利用は自然性の向上に影響せず
43
音声サンプル
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Method BDL RMS CLB SLT
RAW
STRAIGHT
SD
SC
SI-CLOSE
SI-OPEN
44
学習データ量の影響の調査
 幅広い応用のためには限られたデータ量で
高品質な合成処理を行う必要性アリ
 学習データ量と合成品質の関係を調査
 各モデルを学習データ量を変化させて構築
 対数軸上で等間隔になるようにデータを量を変化
 学習発話数: 100 -> 180 -> 320 -> 560 -> 1028
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
45
学習データ量に関する主観評価
 平均オピニオン評価(MOS)による主観評価を実施
 SI-OPENと学習データ量を変化させたSDを比較
 5人の成人男性による自然性の5段階評価
 Score: 1 (bad), 2 (poor), 3 (fair), 4 (good), 5 (excellent)
 各被験者の評価発話数は160
 追加の比較対象としてWORLDによる音声を利用
 F0と非圧縮のスペクトル成分と非周期成分を利用
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
46
学習データ量に関する主観評価
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
47
学習データ量に関する主観評価
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
学習データ量に比例して自然性が向上
48
学習データ量に関する主観評価
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
評価話者なし不特定話者モデル >> フルWORLD
49
学習データ量に関する主観評価
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
180発話学習特定話者モデル >> フルWORLD
50
学習データ量に関する主観評価
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
320発話学習特定モデル ≒ 評価話者不特定モデル
51
学習データ量別の音声サンプル
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
SPK 100 180 320 560 1028 RAW
BDL
SLT
52
日本語の音声をデコード
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Male Sample 1 Sample 2 Sample 4 Sample 5
RAW
WaveNet
Vocoder
Female Sample 1 Sample 2 Sample 4 Sample 5
RAW
WaveNet
Vocoder
他言語でもボコーダとして機能することを確認
 英語音声で学習したモデルで日本語をデコード
53
まとめと今後の課題
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
54
まとめと今後の課題
まとめ
 WaveNetボコーダの改良
 学習データに関する調査を実施
 下記の三点を実験的に明らかに
1. 不特定話者WNV >> WORLD / STRAIGHT
2. 180発話学習 特定話者WNV >> WORLD
3. 320発話学習 特定話者WNV ≒ 不特定話者WNV
今後の課題
 合成の高速化に向けたネットワーク構造の改善
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
55
今すぐ試せます!
 Kan-bayashi/PytorchWaveNetVocoder
 コマンド一発でモデル構築可能
 サンプルも公開中
 学習済みモデルも公開中
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
E2E-ASR toolkit epsnet/espnetも興味がある方は是非

More Related Content

What's hot

論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech RecognitionYosukeKashiwagi1
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)Tomoyuki Hioki
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
音声の認識と合成
音声の認識と合成音声の認識と合成
音声の認識と合成Akinori Ito
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audioDeep Learning JP
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”Shinnosuke Takamichi
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)narumikanno0918
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理Yuma Koizumi
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 

What's hot (20)

論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
音声の認識と合成
音声の認識と合成音声の認識と合成
音声の認識と合成
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 

Similar to 複数話者WaveNetボコーダに関する調査

[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...Deep Learning JP
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援Ryohei Suzuki
 
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Kentaro Tachibana
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vcYuki Saito
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020Yuki Saito
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成Kentaro Tachibana
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNAYuki Saito
 
ソフトシンセを作りながら学ぶPythonプログラミング
ソフトシンセを作りながら学ぶPythonプログラミングソフトシンセを作りながら学ぶPythonプログラミング
ソフトシンセを作りながら学ぶPythonプログラミングRansui Iso
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理Takaaki Saeki
 
インターネット上の高品質な 遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な 遠隔コラボレーションに関する研究Takashi Kishida
 
多目的な音声伝送システム MRATの開発
多目的な音声伝送システムMRATの開発多目的な音声伝送システムMRATの開発
多目的な音声伝送システム MRATの開発Takashi Kishida
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Keisuke Imoto
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Yuki Okamoto
 
Japan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラムJapan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラムKomei Sugiura
 
Sprint16 thesis introduction
Sprint16 thesis introduction Sprint16 thesis introduction
Sprint16 thesis introduction ToshihiroMISHIBA
 
インターネット上の多目的な 音声伝送システムに関する研究
インターネット上の多目的な音声伝送システムに関する研究インターネット上の多目的な音声伝送システムに関する研究
インターネット上の多目的な 音声伝送システムに関する研究Takashi Kishida
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...ssuserf54db1
 

Similar to 複数話者WaveNetボコーダに関する調査 (20)

[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
 
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
ソフトシンセを作りながら学ぶPythonプログラミング
ソフトシンセを作りながら学ぶPythonプログラミングソフトシンセを作りながら学ぶPythonプログラミング
ソフトシンセを作りながら学ぶPythonプログラミング
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
 
インターネット上の高品質な 遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な 遠隔コラボレーションに関する研究
 
多目的な音声伝送システム MRATの開発
多目的な音声伝送システムMRATの開発多目的な音声伝送システムMRATの開発
多目的な音声伝送システム MRATの開発
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
Japan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラムJapan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラム
 
Sprint16 thesis introduction
Sprint16 thesis introduction Sprint16 thesis introduction
Sprint16 thesis introduction
 
インターネット上の多目的な 音声伝送システムに関する研究
インターネット上の多目的な音声伝送システムに関する研究インターネット上の多目的な音声伝送システムに関する研究
インターネット上の多目的な 音声伝送システムに関する研究
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
 

More from Tomoki Hayashi

ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...
ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...
ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...Tomoki Hayashi
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出Tomoki Hayashi
 
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出Tomoki Hayashi
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識Tomoki Hayashi
 
PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247Tomoki Hayashi
 
Visualizing Data Using t-SNE
Visualizing Data Using t-SNEVisualizing Data Using t-SNE
Visualizing Data Using t-SNETomoki Hayashi
 
Prediction of Exchange Rate Using Deep Neural Network
Prediction of Exchange Rate Using Deep Neural Network  Prediction of Exchange Rate Using Deep Neural Network
Prediction of Exchange Rate Using Deep Neural Network Tomoki Hayashi
 

More from Tomoki Hayashi (7)

ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...
ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...
ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
 
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
 
PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247
 
Visualizing Data Using t-SNE
Visualizing Data Using t-SNEVisualizing Data Using t-SNE
Visualizing Data Using t-SNE
 
Prediction of Exchange Rate Using Deep Neural Network
Prediction of Exchange Rate Using Deep Neural Network  Prediction of Exchange Rate Using Deep Neural Network
Prediction of Exchange Rate Using Deep Neural Network
 

複数話者WaveNetボコーダに関する調査