音声認識の話
音声認識って
・ Siri
言わずと知れた iPhone の
音声インターフェイス
バラエティーに富んだ
受け答えに定評がある
How to 音声認識
音声データから
文章データへの変換 意味解析
意味に対する適切な
処理・対応を出力
音声
→ 「めもちょう」
「めもちょう」
→ 「メモ帳」
→ 「帳」をメモ
メモ「帳」を出力
How to 音声認識
音声データから
文章データへの変換 意味解析
意味に対する適切な
処理・対応を出力
音声
→ 「めもちょう」
「めもちょう」
→ 「メモ帳」
→ 「帳」をメモ
メモ「帳」を出力
前提
● 音は波形(空気の密度) → 太鼓
前提
● 音は波形(空気の密度) → 太鼓
● 人の音声もただの音・ただの波形でしか
ない
→ 波形として解析
これを
こうして
j i b u n
こうじゃ
じ  ぶ
レシピ
● ① 材料を細かく切り刻む
● ② 雛形(音声のサンプルデータ)を大量に集め
る
– “a” ”のサンプル、 b” …のサンプル、
– 地味に一番大変(らしい)
● ③① を②と比較して一番似てるものを選ぶ
● ④ 後は何とかする
こうして
そうして
j j i i i b b b u u u u n n
こうじゃ
j i b u n
後の課題
● ③① を②と比較して一番似てるものを選ぶ
– 「似てる」って?
「似てる」の判定
→ 機械学習の十八番
● 波形の「特徴」を抽出する
– …「特徴」 顔認識における目、口、鼻とか
● 波形の特徴って?
– 指標「メル周波数ケプストラム係数」
メル周波数ケプストラム係数
(MFCC)
● 人間は音を音の高さごとに聞いているらしい
→ 音を高さごとに表したい
メル周波数ケプストラム係数
(MFCC)
● 人間は音を音の高さごとに聞いているらしい
→ 音を高さごとに表したい
→ フーリエ変換
フーリエ変換(級数)
● 波をある周波数の 1 倍、 2 倍、 3 …倍、 の周
波数を持つ波たちに分解する変換
– 周波数=波の細かさ≒音の高さ
● 波の扱いが
簡単になることが多い
フーリエ変換(式)
●
●
●
f(x) = 
フーリエ変換(式)
●
●
●
f(x) = 
フーリエ変換
= 波を扱いやすくする魔法
これが
こうなる
次の一手
● さっきのグラフの形のうち、
– 大まかな形:音の特性
– 細かい形:声道とかの影響
を表している(らしい)
● 大まかな形の方を求めたい
大まかな形(適当)
これまでのまとめ
● 周波数:波の細かさ
● フーリエ変換:波を周波数ごとに分解
● 求めたいもの:
 大まかな波の形
これまでのまとめ
● 周波数:波の細かさ
● フーリエ変換:波を周波数ごとに分解
● 求めたいもの:
 大まかな波の形
= –波の形 細かい波
● ん?
結論
● 元の波をフーリエしたものをもっかいフーリ
エ
● 周波数の高いところ(波が細かい部分)は無
視
● 周波数の低いところを使う( MFCC )
– 数値化できた!
その後
● 数値化してしまえばこちらのもの
– 機械学習おじさんたちに丸投げ
– K 近傍とか色々
● 意味解析の部分なども大体機械学習がやって
くれます
覚えて帰ってほしいこと
● フーリエ変換というよくわからないけどすごい
魔法があるらしい
● 微積分だってたまには役に立つ
● 以上、身近に潜む数学のお話

音声認識