SlideShare a Scribd company logo
1 of 30
音声認識の話
音声認識って
・ Siri
言わずと知れた iPhone の
音声インターフェイス
バラエティーに富んだ
受け答えに定評がある
How to 音声認識
音声データから
文章データへの変換 意味解析
意味に対する適切な
処理・対応を出力
音声
→ 「めもちょう」
「めもちょう」
→ 「メモ帳」
→ 「帳」をメモ
メモ「帳」を出力
How to 音声認識
音声データから
文章データへの変換 意味解析
意味に対する適切な
処理・対応を出力
音声
→ 「めもちょう」
「めもちょう」
→ 「メモ帳」
→ 「帳」をメモ
メモ「帳」を出力
前提
● 音は波形(空気の密度) → 太鼓
前提
● 音は波形(空気の密度) → 太鼓
● 人の音声もただの音・ただの波形でしか
ない
→ 波形として解析
これを
こうして
j i b u n
こうじゃ
じ  ぶ
レシピ
● ① 材料を細かく切り刻む
● ② 雛形(音声のサンプルデータ)を大量に集め
る
– “a” ”のサンプル、 b” …のサンプル、
– 地味に一番大変(らしい)
● ③① を②と比較して一番似てるものを選ぶ
● ④ 後は何とかする
こうして
そうして
j j i i i b b b u u u u n n
こうじゃ
j i b u n
後の課題
● ③① を②と比較して一番似てるものを選ぶ
– 「似てる」って?
「似てる」の判定
→ 機械学習の十八番
● 波形の「特徴」を抽出する
– …「特徴」 顔認識における目、口、鼻とか
● 波形の特徴って?
– 指標「メル周波数ケプストラム係数」
メル周波数ケプストラム係数
(MFCC)
● 人間は音を音の高さごとに聞いているらしい
→ 音を高さごとに表したい
メル周波数ケプストラム係数
(MFCC)
● 人間は音を音の高さごとに聞いているらしい
→ 音を高さごとに表したい
→ フーリエ変換
フーリエ変換(級数)
● 波をある周波数の 1 倍、 2 倍、 3 …倍、 の周
波数を持つ波たちに分解する変換
– 周波数=波の細かさ≒音の高さ
● 波の扱いが
簡単になることが多い
フーリエ変換(式)
●
●
●
f(x) = 
フーリエ変換(式)
●
●
●
f(x) = 
フーリエ変換
= 波を扱いやすくする魔法
これが
こうなる
次の一手
● さっきのグラフの形のうち、
– 大まかな形:音の特性
– 細かい形:声道とかの影響
を表している(らしい)
● 大まかな形の方を求めたい
大まかな形(適当)
これまでのまとめ
● 周波数:波の細かさ
● フーリエ変換:波を周波数ごとに分解
● 求めたいもの:
 大まかな波の形
これまでのまとめ
● 周波数:波の細かさ
● フーリエ変換:波を周波数ごとに分解
● 求めたいもの:
 大まかな波の形
= –波の形 細かい波
● ん?
結論
● 元の波をフーリエしたものをもっかいフーリ
エ
● 周波数の高いところ(波が細かい部分)は無
視
● 周波数の低いところを使う( MFCC )
– 数値化できた!
その後
● 数値化してしまえばこちらのもの
– 機械学習おじさんたちに丸投げ
– K 近傍とか色々
● 意味解析の部分なども大体機械学習がやって
くれます
覚えて帰ってほしいこと
● フーリエ変換というよくわからないけどすごい
魔法があるらしい
● 微積分だってたまには役に立つ
● 以上、身近に潜む数学のお話

More Related Content

More from Ryunosuke Iwai (12)

DP
DPDP
DP
 
貪欲
貪欲貪欲
貪欲
 
全探索2
全探索2全探索2
全探索2
 
全探索
全探索全探索
全探索
 
導入
導入導入
導入
 
Rth number
Rth numberRth number
Rth number
 
Glasses
GlassesGlasses
Glasses
 
Ice
IceIce
Ice
 
Water flow
Water flowWater flow
Water flow
 
文字列処理
文字列処理文字列処理
文字列処理
 
データ処理
データ処理データ処理
データ処理
 
Arduino
ArduinoArduino
Arduino
 

Recently uploaded

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 

Recently uploaded (9)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 

音声認識