音声認識

音声認識って
・ Siri
言わずと知れた iPhone の
音声インターフェイス
バラエティーに富んだ
受け答えに定評がある

How to 音声認識
音声データから
文章データへの変換意味解析
意味に対する適切な
処理・対応を出力
音声
→ 「めもちょう」
「めもちょう」
→ 「メモ帳」
→ 「帳」をメモ
メモ「帳」を出力

前提
● 音は波形（空気の密度） → 太鼓

前提
● 音は波形（空気の密度） → 太鼓
● 人の音声もただの音・ただの波形でしか
ない
→ 波形として解析

レシピ
● ① 材料を細かく切り刻む
● ② 雛形（音声のサンプルデータ）を大量に集め
る
– “a” ”のサンプル、 b” …のサンプル、
– 地味に一番大変（らしい）
● ③① を②と比較して一番似てるものを選ぶ
● ④ 後は何とかする

そうして
j j i i i b b b u u u u n n

後の課題
● ③① を②と比較して一番似てるものを選ぶ
– 「似てる」って？

「似てる」の判定
→ 機械学習の十八番
● 波形の「特徴」を抽出する
– …「特徴」顔認識における目、口、鼻とか
● 波形の特徴って？
– 指標「メル周波数ケプストラム係数」

メル周波数ケプストラム係数
(MFCC)
● 人間は音を音の高さごとに聞いているらしい
→ 音を高さごとに表したい

メル周波数ケプストラム係数
(MFCC)
● 人間は音を音の高さごとに聞いているらしい
→ 音を高さごとに表したい
→ フーリエ変換

フーリエ変換（級数）
● 波をある周波数の 1 倍、 2 倍、 3 …倍、の周
波数を持つ波たちに分解する変換
– 周波数＝波の細かさ≒音の高さ
● 波の扱いが
簡単になることが多い

フーリエ変換（式）
●
●
●
f(x) =

フーリエ変換
= 波を扱いやすくする魔法

次の一手
● さっきのグラフの形のうち、
– 大まかな形：音の特性
– 細かい形：声道とかの影響
を表している（らしい）
● 大まかな形の方を求めたい

これまでのまとめ
● 周波数：波の細かさ
● フーリエ変換：波を周波数ごとに分解
● 求めたいもの：
　大まかな波の形

これまでのまとめ
● 周波数：波の細かさ
● フーリエ変換：波を周波数ごとに分解
● 求めたいもの：
　大まかな波の形
= –波の形細かい波
● ん？

結論
● 元の波をフーリエしたものをもっかいフーリ
エ
● 周波数の高いところ（波が細かい部分）は無
視
● 周波数の低いところを使う（ MFCC ）
– 数値化できた！

その後
● 数値化してしまえばこちらのもの
– 機械学習おじさんたちに丸投げ
– K 近傍とか色々
● 意味解析の部分なども大体機械学習がやって
くれます

覚えて帰ってほしいこと
● フーリエ変換というよくわからないけどすごい
魔法があるらしい
● 微積分だってたまには役に立つ
● 以上、身近に潜む数学のお話

More Related Content