名古屋大学
情報基盤センター/情報科学研究科
音情報処理における特徴表現
戸田 智基
2016年8月3日
010000111・・・0
音信号 特徴表現 音情報処理
認識,変換,合成・・・
名古屋大学
情報基盤センター/情報科学研究科
音情報処理における特徴表現
戸田 智基
2016年8月3日
010000111・・・0
音信号 特徴表現 音情報処理
認識,変換,合成・・・
略歴:
1999 名古屋大学 工学部 卒
2003 奈良先端大 博士後期課程了
2003 学振特別研究員-PD
(ATR,CMU,名古屋工業大学)
2005 奈良先端大 助手(⇒助教)
2011 奈良先端大 准教授
2015 名古屋大学 教授
研究分野:
音情報処理
- 音声言語情報処理
(特に,音声変換や音声合成)
- 音楽情報処理
- 音響イベント処理
画像・音情報処理における特徴表現
1
物理性質を表す
特徴表現
勾配(変化)の
特徴表現
集積の
特徴表現
データに基づく
識別的な
特徴表現
反射の表現(BRDF)
画像局所特徴
(SIFT,二値特徴量)
局所特徴の集合
表現(BoF)
機械学習による
• 特徴選択
( (Harr-like + Adaboost)
• 特徴獲得(Deep Learning)
画像情報処理音学シンポで 音情報処理
?
MIRUで
?
?
?
音声波形
a r a y u rsil u g e N j i ts u
音素系列
あらゆる 現実無音
単語系列
はじめに・・・音信号の特徴
文 「あらゆる現実を全て自分の方へ・・・」
• 一例として音声に着目すると・・・
• 時系列データである.
• 確率的なゆらぎを持つ.
• 内部に階層的な構造を持つ.
などなど・・・
2
情報源と対応付け
複数フレームの連結
特徴表現を得る代表的なアプローチ
音信号
特徴量系列
1. 物理性質を考慮する!
2. 変化の特徴を捉える!
3. 系列全体で集積して
所望の情報を取り出す!
4. 最適な特徴表現を
自動的に獲得する!
(データに語らせる!)
セグメント
特徴量系列
短時間フレーム分析
記号系列 /n//o/ /s//i/
識別特徴量系列
情報処理の結果を反映
同時最適化
3
(固定次元)
系列特徴量
情報源と対応付け
複数フレームの連結
特徴表現を得る代表的なアプローチ
音信号
特徴量系列
1. 物理性質を考慮する!
2. 変化の特徴を捉える!
3. 系列全体で集積して
所望の情報を取り出す!
4. 最適な特徴表現を
自動的に獲得する!
(データに語らせる!)
セグメント
特徴量系列
短時間フレーム分析
記号系列 /n//o/ /s//i/
識別特徴量系列
情報処理の結果を反映
同時最適化
3
(固定次元)
系列特徴量
スペクトル包絡
周波数
パワー
1. 物理性質:生成過程を考慮する
• 短時間フレーム分析
• 短時間区間において定常性を仮定して特徴量を抽出
)(zH
)(ne
)(*)()( nenhnx 
励振源周期音源
非周期音源
音信号
音源生成(ソース)部 共振(フィルタ)部



 M
m
m
zmc
K
zH
1
)(1
)(
線形時不変フィルタ



M
m
m
zmczH
0
)(exp)(
時間
周波数
基本周波数
※HTS Slides より一部引用
http://hts.sp.nitech.ac.jp/ 4
線形予測分析
ケプストラム分析
切り出し
[板倉 他, 1966]
[今井 他, 1987]
生成過程を考慮すると何ができる?
• 物理性質に沿った変形をパラメータに与えることで
直感的な音声加工処理が可能
5
リアルタイム
音声変換ソフト(Herium)
名城大学 坂野秀樹先生作
音源生成部パラメータ(基本周波数)
間隔を短くすると
長くすると
高い声になる!
低い声になる!
時間
時間
時間
周波数軸を
伸ばすと
縮めると
太い声に(声道長が
長く)なる!
周波数
パワー
周波数
パワー
周波数
パワー
共振部パラメータ(スペクトル包絡)
子供っぽい声に
(声道長が短く)なる!
周波数
時間
振幅スペクトル
• 低周波数帯域を重視
• オールパスフィルタによる周波数軸伸縮
• メルフィルタバンク
2. 物理性質:聴覚特性を考慮する
伸縮後の周波数(rad)
周波数 (rad)
伸縮関数
メルスケール


2

0 2/
フィルタバンク出力
1
周波数
※HTS Slides より一部引用
http://hts.sp.nitech.ac.jp/
※豊橋技科大 山本一公先生の資料から引用
http://www.slp.cs.tut.ac.jp/~kyama/Lecture/AdvSLP/slide/AdvSLP_02.pdf
パワー
周波数 周波数
パワー
メルフィルタバンク出力
バンクID
時間
6
MFCC (Mel-Frequency
Cepstral Coefficient)
[Oppenheim et al., 1972]
[Davis et al., 1980]
情報源と対応付け
複数フレームの連結
特徴表現を得る代表的なアプローチ
音信号
特徴量系列
1. 物理性質を考慮する!
2. 変化の特徴を捉える!
3. 系列全体で集積して
所望の情報を取り出す!
4. 最適な特徴表現を
自動的に獲得する!
(データに語らせる!)
セグメント
特徴量系列
短時間フレーム分析
記号系列 /n//o/ /s//i/
識別特徴量系列
情報処理の結果を反映
同時最適化
(3)
(固定次元)
系列特徴量
2. 変化:局所的時間変化を捉える
• 特徴量のセグメント化(各時間フレームにて隣接フレームの結合)
• 各時間フレーム付近における特徴量の時間変化を表現
• 特徴量の次元数は結合フレーム数倍へと増加!
t-1 t
tx 1tx 2tx1tx2tx
7
t+1
=
結合
to
2. 変化:局所的時間変化を捉える
• 特徴量のセグメント化(各時間フレームにて隣接フレームの結合)
• 各時間フレーム付近における特徴量の時間変化を表現
• 特徴量の次元数は結合フレーム数倍へと増加!
• 動的(デルタ)特徴量の利用:関数フィッティング [Furui, 1981]
t-1 t
tx 1tx 2tx1tx2tx
tx
tx
tx
to 1to2to 1to 2to


線形変換
7
t+1
t
0-1-2 1 2
tt bfx  )0(
tt afx 2)0(  
ttt cbaf   2
)(二次関数:
一次微分:
二次微分:
前後2フレーム
(計5フレーム)
を使う場合の例
=
結合
?
局所的時間変化を捉えると何ができる?
• 適切に変化する特徴量系列の合成/変換処理が可能
8
TXtX2X1X
Tyˆ1
ˆy 2
ˆy tyˆ
入力特徴量系列
(テキスト,音声,など)
予測分布系列 1y 2y ty Ty
1y 2y ty Ty
変換特徴量系列
?
局所的時間変化を捉えると何ができる?
• 適切に変化する特徴量系列の合成/変換処理が可能
8
TXtX2X1X
Tyˆ1
ˆy 2
ˆy tyˆ
   

T
t
ttttT pp
T
1
,,
1 ||maxargˆ,,ˆ
1
XyXyyy
yy 

目標特徴量に
対する予測分布
局所的変化特徴量
に対する予測分布
特徴量系列の関数
変換
特徴量系列
生成処理 [Tokuda et al., 1995]
入力特徴量系列
(テキスト,音声,など)
予測分布系列 1y 2y ty Ty
フレーム毎に
予測しても・・・
系列単位の
予測が可能!
リアルタイム
統計的音声変換ソフト
奈良先端科学技術大学院大学
小林和弘さん作
1y 2y ty Ty
変換特徴量系列
 TTp XXyy ,,|,, 11 
2. 変化:大局的時間変動量を捉える
• 特徴量系列全体における変動量を抽出
0 1 2 3
Time [sec]
特徴量系列 特徴量の各次元における分散
 考慮しない:誤差,音質
(=特徴量系列に対する非線形
変換により得られる特徴量)
9
   

T
t
tt pp
T
1
,,1
maxarg yy
yy 
     ),,(maxarg 1
1
,,1
T
T
t
tt fppp
T
yyyy
yy




 考慮する:誤差,音質
[Toda et al., 2007]
2. 変化:大局的時間変動量を捉える
• 特徴量系列全体における変動量を抽出
0 1 2 3
Time [sec]
特徴量系列
変調周波数
0 Hz
0.25 Hz
0.5 Hz
~ Hz




=…
特徴量の各次元における分散
 考慮しない:誤差,音質
特徴量系列の変調スペクトル
へと拡張
(特徴量系列を各変調周波数
成分に分解して分散を計算)
(=特徴量系列に対する非線形
変換により得られる特徴量)
9
   

T
t
tt pp
T
1
,,1
maxarg yy
yy 
     ),,(maxarg 1
1
,,1
T
T
t
tt fppp
T
yyyy
yy




 考慮する:誤差,音質
[Toda et al., 2007]
[Takamichi et al., 2016]
情報源と対応付け
複数フレームの連結
特徴表現を得る代表的なアプローチ
音信号
特徴量系列
1. 物理性質を考慮する!
2. 変化の特徴を捉える!
3. 系列全体で集積して
所望の情報を取り出す!
4. 最適な特徴表現を
自動的に獲得する!
(データに語らせる!)
セグメント
特徴量系列
短時間フレーム分析
記号系列 /n//o/ /s//i/
識別特徴量系列
情報処理の結果を反映
同時最適化
(3)
(固定次元)
系列特徴量
• 系列中のフレーム特徴量は独立同分布に従うと仮定
• 混合正規分布モデル(GMM)による確率密度のモデル化
• 例:音声の話者性を捉える特徴量を抽出
3. 集積:フレーム特徴量を集積する
       

T
t
M
m
m
s
m
s
tm
T
t
ss
t
ss
T
s
PP
1 1
)()(
1
)()()()()(
1 ,;||,, Σμxλxλxx N
M個の正規分布の足し合わせ
= 音韻依存性を周辺化により緩和
話者 s の特徴量系列
(音韻・話者依存)
混合重み
(音韻依存)
平均ベクトル
(音韻・話者依存)
共分散行列
(音韻依存)
系列中の全ての
特徴量をまとめ上げ
10
• 系列中のフレーム特徴量は独立同分布に従うと仮定
• 混合正規分布モデル(GMM)による確率密度のモデル化
• 例:音声の話者性を捉える特徴量を抽出
• 平均ベクトルセットを系列単位の特徴量として使用
• 音韻系列が異なる場合,異なるモデル間で
各混合要素の対応をとるのは困難
3. 集積:フレーム特徴量を集積する
       

T
t
M
m
m
s
m
s
tm
T
t
ss
t
ss
T
s
PP
1 1
)()(
1
)()()()()(
1 ,;||,, Σμxλxλxx N
M個の正規分布の足し合わせ
= 音韻依存性を周辺化により緩和
話者 s の特徴量系列
(音韻・話者依存)
混合重み
(音韻依存)
平均ベクトル
(音韻・話者依存)
共分散行列
(音韻依存)
系列中の全ての
特徴量をまとめ上げ
音韻A
音韻B
音韻C
音韻C
音韻A
音韻C
?
10
3. 集積:因子分解を行う
スーパーベクトル
=平均ベクトルの連結
(音韻・話者依存)










































)(
)(
2
)(
1
)1(
)1(
2
)1(
1
,,
J
M
J
J
M b
b
b
b
b
b


 









)(
)(
1
s
J
s
w
w















)0(
)0(
2
)0(
1
Mb
b
b

(s)
バイアスベクトル
=平均的な話者性
(音韻依存)
+
重みベクトル
(話者依存)×
+×
基底ベクトルセット
=代表的な話者性
(音韻依存)
=
このベクトルのみを制御














)(
)(
2
)(
1
s
M
s
s
μ
μ
μ

=
=
+
11
(s)
• 平均ベクトルセットに対して制約を導入 [Dehak et al., 2011]
• 知覚的な情報を操作して特徴量系列を加工することが可能
例.多数の歌唱者の歌声データに対して知覚年齢を付与しておき・・・
知覚年齢を説明変数として平均ベクトルセットをモデル化すると・・・
知覚年齢操作を可能とするボーカルエフェクターが完成
系列単位の特徴を使うと何ができる?
15歳 50歳35歳
変換処理
知覚年齢若い声色 老いた声色
歌唱者 変換処理
12
(s)
+×=
(s)
35歳
50歳
[Kobayashi et al., 2014]
情報源と対応付け
複数フレームの連結
特徴表現を得る代表的なアプローチ
音信号
特徴量系列
1. 物理性質を考慮する!
2. 変化の特徴を捉える!
3. 系列全体で集積して
所望の情報を取り出す!
4. 最適な特徴表現を
自動的に獲得する!
(データに語らせる!)
セグメント
特徴量系列
短時間フレーム分析
記号系列 /n//o/ /s//i/
識別特徴量系列
情報処理の結果を反映
同時最適化
(3)
(固定次元)
系列特徴量
4. 特徴獲得:データから特徴表現を得る
• 後段の情報処理に適した特徴表現をデータから獲得
• (識別)精度が高くなるように特徴量を変換
/s/
セグメント
特徴量
変換関数
識別的
特徴量 精度評価情報処理
13
4. 特徴獲得:データから特徴表現を得る
• 後段の情報処理に適した特徴表現をデータから獲得
• (識別)精度が高くなるように特徴量を変換
• 線形変換の最適化
• 非線形変換の導入:複数線形変換の重み付け和
  

M
m
mtmtt mP
1
| bxAxy
/s/
混合正規分布モデル
による事後確率計算
各分布に依存した
線形変換
識別的
特徴量
bAxy  tt
入力特徴量
線形判別分析などで最適化
識別精度が向上
するように最適化
セグメント
特徴量
変換関数
識別的
特徴量 精度評価情報処理
13
音声認識における識別的特徴獲得
14
音素/a/
GMM
識別的特徴への変換関数
)|( tt sp y
)|( wyp
1x 2x 3x 4x
1y 2y 4y3y
音響モデル
• 単語列 w に対応した音響特徴量
系列 y をモデル化
• 隠れマルコフモデル(HMM)&GMM
  

M
m
mtmtt mP
1
| bxAxy
識別的
特徴量系列
セグメント
特徴量系列
HMM
音声認識における識別的特徴獲得
14
音素/a/
GMM
識別的特徴への変換関数
)|( tt sp y
)|( wyp
1x 2x 3x 4x
1y 2y 4y3y
音響モデル
• 単語列 w に対応した音響特徴量
系列 y をモデル化
• 隠れマルコフモデル(HMM)&GMM
)(wp 言語モデル
•単語列 w の生起確率をモデル化
• N-gram(マルコフモデル)
単語グラフ
認識処理
  

M
m
mtmtt mP
1
| bxAxy
識別的
特徴量系列
セグメント
特徴量系列
HMM
)|(maxarg yw
w
p
音声認識における識別的特徴獲得
14
音素/a/
GMM
識別的特徴への変換関数
)|( tt sp y
)|( wyp
)()|( )()( rr
pp wwy
  )|(ln; )(
ywwy r
pI 
w
wwy )()|( pp
正解単語系列に対する確率
候補単語系列に対する確率
相互情報量最大化基準による
変換関数最適化
1x 2x 3x 4x
1y 2y 4y3y
音響モデル
• 単語列 w に対応した音響特徴量
系列 y をモデル化
• 隠れマルコフモデル(HMM)&GMM
)(wp 言語モデル
•単語列 w の生起確率をモデル化
• N-gram(マルコフモデル)
単語グラフ
認識処理
  

M
m
mtmtt mP
1
| bxAxy
識別的
特徴量系列
セグメント
特徴量系列
HMM


w
wwy
wwy
)()|(
)()|(
ln
)()(
pp
pp rr
)|(maxarg yw
w
p
[Povey et al., 2008]
4. 特徴獲得:深層学習で同時最適化する
• 情報処理部と(特徴抽出用)変換関数を同時最適化
Productモデルによる高い表現力!
(隠れ層のノード数が N なら
分布数 2N 個の混合モデル!)
活性化(事後確率)
の共起関係をさらに
Productモデルで表現
セグメント
特徴量
変換関数
識別的
特徴量 精度評価情報処理
15
生成モデル
(無向グラフ)
としてみると・・・
4. 特徴獲得:深層学習で同時最適化する
• 情報処理部と(特徴抽出用)変換関数を同時最適化
Productモデルによる高い表現力!
(隠れ層のノード数が N なら
分布数 2N 個の混合モデル!)
記号(列)の事後確率
活性化(事後確率)
の共起関係をさらに
Productモデルで表現
出力層手前の特徴表現
入力層の特徴表現
※名古屋大学情報科学研究科
林知樹さんの修士論文から引用
セグメント
特徴量
変換関数
識別的
特徴量 精度評価情報処理
15
記号(列)の識別率が
高くなるように最適化
生成モデル
(無向グラフ)
としてみると・・・
深層学習が音声認識に与えたインパクト
1990年 2011年2000年
http://itl.nist.gov/iad/mig/publications/ASRhistory/index.html
音声認識性能評価の歴史
27.4%
単語誤り率(%)
L. Deng & D. Yu, “Deep Learning: Methods
and Applications,” Now Publishers , 2014.
16
Deepな
深層学習が音声認識に与えたインパクト
1990年 2011年2000年
http://itl.nist.gov/iad/mig/publications/ASRhistory/index.html
音声認識性能評価の歴史
27.4%
18.5%
単語誤り率(%)
L. Deng & D. Yu, “Deep Learning: Methods
and Applications,” Now Publishers , 2014.
16
Deepな
• 各フレームにおいて各HMM状態出力確率をDNNで推定(脱GMM)
• フレーム単位の多クラス分類問題としてDNNを学習
• 各フレームに対してHMM状態を割り当て
• クロスエントロピー最小化により最適化
研究動向1:ハイブリッドアプローチ
17
Deep Neural
Network (DNN)
音素/a/ 音素/r/
各HMM状態の
事後確率を推定
)(
)|(
)|(
t
tt
tt
sp
sp
sp
y
y HMM状態の出力確率密度:
DNNで直接推定
学習データから事前に計算
音素/a/音素/r/
出力確率:DNNでフレーム毎に計算
遷移確率:HMMにより計算
[Seide et al., 2011]
研究動向2:複雑なネットワーク構造へ
• Recurrent Neural Network (RNN) の導入
• 広範囲なフレーム間相関を考慮した
特徴量抽出の実現
• Long short-term memory (LSTM) による
最適化の実現
DNN
全結合層
識別的特徴量
へと変換
HMM状態事後確率
18
研究動向2:複雑なネットワーク構造へ
• Recurrent Neural Network (RNN) の導入
• 広範囲なフレーム間相関を考慮した
特徴量抽出の実現
• Long short-term memory (LSTM) による
最適化の実現
DNN
全結合層
識別的特徴量
へと変換
LSTM-RNN
LSTM-RNN
RNN層
時間変化の
モデル化
HMM状態事後確率
18
研究動向2:複雑なネットワーク構造へ
• Recurrent Neural Network (RNN) の導入
• 広範囲なフレーム間相関を考慮した
特徴量抽出の実現
• Long short-term memory (LSTM) による
最適化の実現
• Convolutional Neural Network (CNN) の導入
• 周波数方向のシフト(および時間方向の
変動)に頑健な特徴量抽出
• 各フレームのセグメント特徴量を入力
DNN
[Sainath et al., 2015]
全結合層
識別的特徴量
へと変換
LSTM-RNN
LSTM-RNN
RNN層
時間変化の
モデル化
CNN
CNN
畳み込み層
変動に頑健な
特徴抽出
HMM状態事後確率
畳み込み
部分サンプリング
画像情報処理の知見を活用!
18
研究動向3:系列レベルの最適化へ
• HMMとのハイブリッドシステムの性能改善
• これまでに培われた最適化手法を適用可能
• 系列レベルの識別学習
• 言語モデルも考慮した最適化が可能
19
HMM状態系列
特徴量系列
出力系列
[Vesely et al., 2013]
研究動向3:系列レベルの最適化へ
• HMMとのハイブリッドシステムの性能改善
• これまでに培われた最適化手法を適用可能
• 系列レベルの識別学習
• 言語モデルも考慮した最適化が可能
• HMMをRNNで置き換え(脱HMM)
• Connectionist Temporal Classification (CTC)
• 空文字を挿入することで系列長の違いを吸収
例.青い⇒/a o i/⇒/aφφ oφφ i/, /aφ o φφφ i/
/a oφφφφ i/, /aφφφφ o i/,・・・
• HMM同様Forward-Backwardアルゴリズムを適用可
19
HMM状態系列
特徴量系列
出力系列
拡張音素系列
特徴量系列
出力系列
[Vesely et al., 2013]
[Graves et al., 2006]
研究動向3:系列レベルの最適化へ
• HMMとのハイブリッドシステムの性能改善
• これまでに培われた最適化手法を適用可能
• 系列レベルの識別学習
• 言語モデルも考慮した最適化が可能
• HMMをRNNで置き換え(脱HMM)
• Connectionist Temporal Classification (CTC)
• 空文字を挿入することで系列長の違いを吸収
例.青い⇒/a o i/⇒/aφφ oφφ i/, /aφ o φφφ i/
/a oφφφφ i/, /aφφφφ o i/,・・・
• HMM同様Forward-Backwardアルゴリズムを適用可
• 特徴量系列から音素系列に変換(ブラックボックス化)
• AttentionベースEncoder-Decoderの適用
• 全処理をニューラルネットワークで表現
画像情報処理との距離はどんどん縮まっている!
19
HMM状態系列
特徴量系列
出力系列
拡張音素系列
特徴量系列
出力系列
出力系列
特徴量系列
[Vesely et al., 2013]
[Graves et al., 2006]
[Bahdanau et al., 2016]
まとめ:画像・音情報処理における特徴表現
20
音情報処理
物理性質を表す
特徴表現
勾配(変化)の
特徴表現
集積の
特徴表現
データに基づく
識別的な
特徴表現
反射の表現(BRDF)
画像局所特徴
(SIFT,二値特徴量)
局所特徴の集合
表現(BoF)
機械学習による
• 特徴選択
( (Harr-like + Adaboost)
• 特徴獲得(Deep Learning)
画像情報処理音学シンポで 音情報処理
?
MIRUで
?
?
?
• 生成過程に基づく特徴
• 聴覚特性に基づく特徴
• 局所的な時間変化特徴
• 大局的な時間変動特徴
• フレーム特徴量集合の
確率分布表現(BoG)
• 因子分解に基づく特徴
• 識別的特徴獲得
• Deep Learning による
同時最適化

音情報処理における特徴表現