音情報処理における特徴表現

名古屋大学
情報基盤センター／情報科学研究科
音情報処理における特徴表現
戸田智基
2016年8月3日
010000111・・・0
音信号特徴表現音情報処理
認識，変換，合成・・・

名古屋大学
情報基盤センター／情報科学研究科
音情報処理における特徴表現
戸田智基
2016年8月3日
010000111・・・0
音信号特徴表現音情報処理
認識，変換，合成・・・
略歴：
1999 名古屋大学工学部卒
2003 奈良先端大博士後期課程了
2003 学振特別研究員-PD
（ATR，CMU，名古屋工業大学）
2005 奈良先端大助手（⇒助教）
2011 奈良先端大准教授
2015 名古屋大学教授
研究分野：
音情報処理
- 音声言語情報処理
（特に，音声変換や音声合成）
- 音楽情報処理
- 音響イベント処理

画像・音情報処理における特徴表現
1
物理性質を表す
特徴表現
勾配（変化）の
特徴表現
集積の
特徴表現
データに基づく
識別的な
特徴表現
反射の表現（BRDF）
画像局所特徴
（SIFT，二値特徴量）
局所特徴の集合
表現（BoF）
機械学習による
• 特徴選択
（（Harr-like + Adaboost）
• 特徴獲得（Deep Learning）
画像情報処理音学シンポで音情報処理
？
MIRUで
？
？
？

音声波形
a r a y u rsil u g e N j i ts u
音素系列
あらゆる現実無音
単語系列
はじめに・・・音信号の特徴
文「あらゆる現実を全て自分の方へ・・・」
• 一例として音声に着目すると・・・
• 時系列データである．
• 確率的なゆらぎを持つ．
• 内部に階層的な構造を持つ．
などなど・・・
2

情報源と対応付け
複数フレームの連結
特徴表現を得る代表的なアプローチ
音信号
特徴量系列
1. 物理性質を考慮する！
2. 変化の特徴を捉える！
3. 系列全体で集積して
所望の情報を取り出す！
4. 最適な特徴表現を
自動的に獲得する！
（データに語らせる！）
セグメント
特徴量系列
短時間フレーム分析
記号系列 /n//o/ /s//i/
識別特徴量系列
情報処理の結果を反映
同時最適化
3
（固定次元）
系列特徴量

スペクトル包絡
周波数
パワー
1. 物理性質：生成過程を考慮する
• 短時間フレーム分析
• 短時間区間において定常性を仮定して特徴量を抽出
)(zH
)(ne
)(*)()( nenhnx 
励振源周期音源
非周期音源
音信号
音源生成（ソース）部共振（フィルタ）部



 M
m
m
zmc
K
zH
1
)(1
)(
線形時不変フィルタ



M
m
m
zmczH
0
)(exp)(
時間
周波数
基本周波数
※HTS Slides より一部引用
http://hts.sp.nitech.ac.jp/ 4
線形予測分析
ケプストラム分析
切り出し
[板倉他, 1966]
[今井他, 1987]

生成過程を考慮すると何ができる？
• 物理性質に沿った変形をパラメータに与えることで
直感的な音声加工処理が可能
5
リアルタイム
音声変換ソフト（Herium）
名城大学坂野秀樹先生作
音源生成部パラメータ（基本周波数）
間隔を短くすると
長くすると
高い声になる！
低い声になる！
時間
時間
時間
周波数軸を
伸ばすと
縮めると
太い声に（声道長が
長く）なる！
周波数
パワー
周波数
パワー
周波数
パワー
共振部パラメータ（スペクトル包絡）
子供っぽい声に
（声道長が短く）なる！

周波数
時間
振幅スペクトル
• 低周波数帯域を重視
• オールパスフィルタによる周波数軸伸縮
• メルフィルタバンク
2. 物理性質：聴覚特性を考慮する
伸縮後の周波数(rad)
周波数 (rad)
伸縮関数
メルスケール


2

0 2/
フィルタバンク出力
1
周波数
※HTS Slides より一部引用
http://hts.sp.nitech.ac.jp/
※豊橋技科大山本一公先生の資料から引用
http://www.slp.cs.tut.ac.jp/~kyama/Lecture/AdvSLP/slide/AdvSLP_02.pdf
パワー
周波数周波数
パワー
メルフィルタバンク出力
バンクID
時間
6
MFCC (Mel-Frequency
Cepstral Coefficient)
[Oppenheim et al., 1972]
[Davis et al., 1980]

情報源と対応付け
複数フレームの連結
特徴表現を得る代表的なアプローチ
音信号
特徴量系列
1. 物理性質を考慮する！
2. 変化の特徴を捉える！
3. 系列全体で集積して
所望の情報を取り出す！
4. 最適な特徴表現を
自動的に獲得する！
（データに語らせる！）
セグメント
特徴量系列
短時間フレーム分析
記号系列 /n//o/ /s//i/
識別特徴量系列
情報処理の結果を反映
同時最適化
(3)
（固定次元）
系列特徴量

2. 変化：局所的時間変化を捉える
• 特徴量のセグメント化（各時間フレームにて隣接フレームの結合）
• 各時間フレーム付近における特徴量の時間変化を表現
• 特徴量の次元数は結合フレーム数倍へと増加！
t-1 t
tx 1tx 2tx1tx2tx
7
t+1
＝
結合

to
2. 変化：局所的時間変化を捉える
• 特徴量のセグメント化（各時間フレームにて隣接フレームの結合）
• 各時間フレーム付近における特徴量の時間変化を表現
• 特徴量の次元数は結合フレーム数倍へと増加！
• 動的（デルタ）特徴量の利用：関数フィッティング [Furui, 1981]
t-1 t
tx 1tx 2tx1tx2tx
tx
tx
tx
to 1to2to 1to 2to


線形変換
7
t+1
t
0-1-2 1 2
tt bfx  )0(
tt afx 2)0(  
ttt cbaf   2
)(二次関数：
一次微分：
二次微分：
前後2フレーム
（計5フレーム）
を使う場合の例
＝
結合

？
局所的時間変化を捉えると何ができる？
• 適切に変化する特徴量系列の合成／変換処理が可能
8
TXtX2X1X
Tyˆ1
ˆy 2
ˆy tyˆ
入力特徴量系列
（テキスト，音声，など）
予測分布系列 1y 2y ty Ty
1y 2y ty Ty
変換特徴量系列

？
局所的時間変化を捉えると何ができる？
• 適切に変化する特徴量系列の合成／変換処理が可能
8
TXtX2X1X
Tyˆ1
ˆy 2
ˆy tyˆ
   

T
t
ttttT pp
T
1
,,
1 ||maxargˆ,,ˆ
1
XyXyyy
yy 

目標特徴量に
対する予測分布
局所的変化特徴量
に対する予測分布
特徴量系列の関数
変換
特徴量系列
生成処理 [Tokuda et al., 1995]
入力特徴量系列
（テキスト，音声，など）
予測分布系列 1y 2y ty Ty
フレーム毎に
予測しても・・・
系列単位の
予測が可能！
リアルタイム
統計的音声変換ソフト
奈良先端科学技術大学院大学
小林和弘さん作
1y 2y ty Ty
変換特徴量系列
 TTp XXyy ,,|,, 11 

2. 変化：大局的時間変動量を捉える
• 特徴量系列全体における変動量を抽出
0 1 2 3
Time [sec]
特徴量系列特徴量の各次元における分散
 考慮しない：誤差，音質
（＝特徴量系列に対する非線形
変換により得られる特徴量）
9
   

T
t
tt pp
T
1
,,1
maxarg yy
yy 
     ),,(maxarg 1
1
,,1
T
T
t
tt fppp
T
yyyy
yy




 考慮する：誤差，音質
[Toda et al., 2007]

2. 変化：大局的時間変動量を捉える
• 特徴量系列全体における変動量を抽出
0 1 2 3
Time [sec]
特徴量系列
変調周波数
0 Hz
0.25 Hz
0.5 Hz
～ Hz




＝…
特徴量の各次元における分散
 考慮しない：誤差，音質
特徴量系列の変調スペクトル
へと拡張
（特徴量系列を各変調周波数
成分に分解して分散を計算）
（＝特徴量系列に対する非線形
変換により得られる特徴量）
9
   

T
t
tt pp
T
1
,,1
maxarg yy
yy 
     ),,(maxarg 1
1
,,1
T
T
t
tt fppp
T
yyyy
yy




 考慮する：誤差，音質
[Toda et al., 2007]
[Takamichi et al., 2016]

• 系列中のフレーム特徴量は独立同分布に従うと仮定
• 混合正規分布モデル（GMM）による確率密度のモデル化
• 例：音声の話者性を捉える特徴量を抽出
3. 集積：フレーム特徴量を集積する
       

T
t
M
m
m
s
m
s
tm
T
t
ss
t
ss
T
s
PP
1 1
)()(
1
)()()()()(
1 ,;||,, Σμxλxλxx N
M個の正規分布の足し合わせ
＝音韻依存性を周辺化により緩和
話者 s の特徴量系列
（音韻・話者依存）
混合重み
（音韻依存）
平均ベクトル
共分散行列
（音韻依存）
系列中の全ての
特徴量をまとめ上げ
10

• 系列中のフレーム特徴量は独立同分布に従うと仮定
• 混合正規分布モデル（GMM）による確率密度のモデル化
• 例：音声の話者性を捉える特徴量を抽出
• 平均ベクトルセットを系列単位の特徴量として使用
• 音韻系列が異なる場合，異なるモデル間で
各混合要素の対応をとるのは困難
3. 集積：フレーム特徴量を集積する
       

T
t
M
m
m
s
m
s
tm
T
t
ss
t
ss
T
s
PP
1 1
)()(
1
)()()()()(
1 ,;||,, Σμxλxλxx N
M個の正規分布の足し合わせ
＝音韻依存性を周辺化により緩和
話者 s の特徴量系列
混合重み
（音韻依存）
平均ベクトル
共分散行列
（音韻依存）
系列中の全ての
特徴量をまとめ上げ
音韻A
音韻B
音韻C
音韻C
音韻A
音韻C
?
10

3. 集積：因子分解を行う
スーパーベクトル
＝平均ベクトルの連結










































)(
)(
2
)(
1
)1(
)1(
2
)1(
1
,,
J
M
J
J
M b
b
b
b
b
b


 









)(
)(
1
s
J
s
w
w















)0(
)0(
2
)0(
1
Mb
b
b

（s）
バイアスベクトル
＝平均的な話者性
（音韻依存）
＋
重みベクトル
（話者依存）×
＋×
基底ベクトルセット
＝代表的な話者性
（音韻依存）
＝
このベクトルのみを制御














)(
)(
2
)(
1
s
M
s
s
μ
μ
μ

＝
＝
＋
11
（s）
• 平均ベクトルセットに対して制約を導入 [Dehak et al., 2011]

• 知覚的な情報を操作して特徴量系列を加工することが可能
例．多数の歌唱者の歌声データに対して知覚年齢を付与しておき・・・
知覚年齢を説明変数として平均ベクトルセットをモデル化すると・・・
知覚年齢操作を可能とするボーカルエフェクターが完成
系列単位の特徴を使うと何ができる？
15歳 50歳35歳
変換処理
知覚年齢若い声色老いた声色
歌唱者変換処理
12
（s）
＋×＝
（s）
35歳
50歳
[Kobayashi et al., 2014]

4. 特徴獲得：データから特徴表現を得る
• 後段の情報処理に適した特徴表現をデータから獲得
• （識別）精度が高くなるように特徴量を変換
/s/
セグメント
特徴量
変換関数
識別的
特徴量精度評価情報処理
13

4. 特徴獲得：データから特徴表現を得る
• 後段の情報処理に適した特徴表現をデータから獲得
• （識別）精度が高くなるように特徴量を変換
• 線形変換の最適化
• 非線形変換の導入：複数線形変換の重み付け和
  

M
m
mtmtt mP
1
| bxAxy
/s/
混合正規分布モデル
による事後確率計算
各分布に依存した
線形変換
識別的
特徴量
bAxy  tt
入力特徴量
線形判別分析などで最適化
識別精度が向上
するように最適化
セグメント
特徴量
変換関数
識別的
13

音声認識における識別的特徴獲得
14
音素/a/
GMM
識別的特徴への変換関数
)|( tt sp y
)|( wyp
1x 2x 3x 4x
1y 2y 4y3y
音響モデル
• 単語列 w に対応した音響特徴量
系列 y をモデル化
• 隠れマルコフモデル（HMM）&GMM
  

M
m
mtmtt mP
1
| bxAxy
識別的
特徴量系列
セグメント
特徴量系列
HMM

14
音素/a/
GMM
)|( tt sp y
)|( wyp
1x 2x 3x 4x
1y 2y 4y3y
音響モデル
)(wp 言語モデル
•単語列 w の生起確率をモデル化
• N-gram（マルコフモデル）
単語グラフ
認識処理
  

M
m
mtmtt mP
1
| bxAxy
識別的
特徴量系列
セグメント
特徴量系列
HMM
)|(maxarg yw
w
p

4. 特徴獲得：深層学習で同時最適化する
• 情報処理部と（特徴抽出用）変換関数を同時最適化
Productモデルによる高い表現力！
（隠れ層のノード数が N なら
分布数 2N 個の混合モデル！）
活性化（事後確率）
の共起関係をさらに
Productモデルで表現
セグメント
特徴量
変換関数
識別的
15
生成モデル
（無向グラフ）
としてみると・・・

4. 特徴獲得：深層学習で同時最適化する
• 情報処理部と（特徴抽出用）変換関数を同時最適化
Productモデルによる高い表現力！
（隠れ層のノード数が N なら
分布数 2N 個の混合モデル！）
記号（列）の事後確率
活性化（事後確率）
の共起関係をさらに
Productモデルで表現
出力層手前の特徴表現
入力層の特徴表現
※名古屋大学情報科学研究科
林知樹さんの修士論文から引用
セグメント
特徴量
変換関数
識別的
15
記号（列）の識別率が
高くなるように最適化
生成モデル
（無向グラフ）
としてみると・・・

深層学習が音声認識に与えたインパクト
1990年 2011年2000年
http://itl.nist.gov/iad/mig/publications/ASRhistory/index.html
音声認識性能評価の歴史
27.4%
単語誤り率（％）
L. Deng & D. Yu, “Deep Learning: Methods
and Applications,” Now Publishers , 2014.
16
Deepな

深層学習が音声認識に与えたインパクト
1990年 2011年2000年
http://itl.nist.gov/iad/mig/publications/ASRhistory/index.html
音声認識性能評価の歴史
27.4%
18.5%
単語誤り率（％）
L. Deng & D. Yu, “Deep Learning: Methods
and Applications,” Now Publishers , 2014.
16
Deepな

• 各フレームにおいて各HMM状態出力確率をDNNで推定（脱GMM）
• フレーム単位の多クラス分類問題としてDNNを学習
• 各フレームに対してHMM状態を割り当て
• クロスエントロピー最小化により最適化
研究動向１：ハイブリッドアプローチ
17
Deep Neural
Network (DNN)
音素/a/ 音素/r/
各HMM状態の
事後確率を推定
)(
)|(
)|(
t
tt
tt
sp
sp
sp
y
y HMM状態の出力確率密度：
DNNで直接推定
学習データから事前に計算
音素/a/音素/r/
出力確率：DNNでフレーム毎に計算
遷移確率：HMMにより計算
[Seide et al., 2011]

研究動向２：複雑なネットワーク構造へ
• Recurrent Neural Network (RNN) の導入
• 広範囲なフレーム間相関を考慮した
特徴量抽出の実現
• Long short-term memory (LSTM) による
最適化の実現
DNN
全結合層
識別的特徴量
へと変換
HMM状態事後確率
18

最適化の実現
DNN
全結合層
識別的特徴量
へと変換
LSTM-RNN
LSTM-RNN
RNN層
時間変化の
モデル化
18

最適化の実現
• Convolutional Neural Network (CNN) の導入
• 周波数方向のシフト（および時間方向の
変動）に頑健な特徴量抽出
• 各フレームのセグメント特徴量を入力
DNN
[Sainath et al., 2015]
全結合層
識別的特徴量
へと変換
LSTM-RNN
LSTM-RNN
RNN層
時間変化の
モデル化
CNN
CNN
畳み込み層
変動に頑健な
特徴抽出
畳み込み
部分サンプリング
画像情報処理の知見を活用！
18

研究動向３：系列レベルの最適化へ
• HMMとのハイブリッドシステムの性能改善
• これまでに培われた最適化手法を適用可能
• 系列レベルの識別学習
• 言語モデルも考慮した最適化が可能
19
HMM状態系列
特徴量系列
出力系列
[Vesely et al., 2013]

• HMMをRNNで置き換え（脱HMM）
• Connectionist Temporal Classification (CTC)
• 空文字を挿入することで系列長の違いを吸収
例．青い⇒/a o i/⇒/aφφ oφφ i/， /aφ o φφφ i/
/a oφφφφ i/， /aφφφφ o i/，・・・
• HMM同様Forward-Backwardアルゴリズムを適用可
19
HMM状態系列
特徴量系列
出力系列
拡張音素系列
特徴量系列
出力系列
[Graves et al., 2006]

• HMMをRNNで置き換え（脱HMM）
• Connectionist Temporal Classification (CTC)
• 空文字を挿入することで系列長の違いを吸収
例．青い⇒/a o i/⇒/aφφ oφφ i/， /aφ o φφφ i/
/a oφφφφ i/， /aφφφφ o i/，・・・
• HMM同様Forward-Backwardアルゴリズムを適用可
• 特徴量系列から音素系列に変換（ブラックボックス化）
• AttentionベースEncoder-Decoderの適用
• 全処理をニューラルネットワークで表現
画像情報処理との距離はどんどん縮まっている！
19
HMM状態系列
特徴量系列
出力系列
拡張音素系列
特徴量系列
出力系列
出力系列
特徴量系列
[Graves et al., 2006]
[Bahdanau et al., 2016]

まとめ：画像・音情報処理における特徴表現
20
音情報処理
物理性質を表す
特徴表現
勾配（変化）の
特徴表現
集積の
特徴表現
データに基づく
識別的な
特徴表現
反射の表現（BRDF）
画像局所特徴
（SIFT，二値特徴量）
局所特徴の集合
表現（BoF）
機械学習による
• 特徴選択
（（Harr-like + Adaboost）
• 特徴獲得（Deep Learning）
画像情報処理音学シンポで音情報処理
？
MIRUで
？
？
？
• 生成過程に基づく特徴
• 聴覚特性に基づく特徴
• 局所的な時間変化特徴
• 大局的な時間変動特徴
• フレーム特徴量集合の
確率分布表現（BoG）
• 因子分解に基づく特徴
• 識別的特徴獲得
• Deep Learning による
同時最適化

音情報処理における特徴表現

More Related Content

What's hot

Similar to 音情報処理における特徴表現

More from NU_I_TODALAB

音情報処理における特徴表現