Submit Search
Upload
音声認識
•
Download as ODP, PDF
•
4 likes
•
1,104 views
Ryunosuke Iwai
Follow
音声認識の話
Read less
Read more
Technology
Report
Share
Report
Share
1 of 30
Download now
Recommended
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
付録 参考資料・音源 (アドリブ入門Vo.1)
付録 参考資料・音源 (アドリブ入門Vo.1)
Yukosekine
Nishimoto110126 v15-light
Nishimoto110126 v15-light
Takuya Nishimoto
Kmcn demo
Kmcn demo
Yoshinori Hayashi
音声認識における言語モデル
音声認識における言語モデル
KOTARO SETOYAMA
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
Unityで音声認識
Unityで音声認識
光喜 濱屋
RNNLM
RNNLM
Kei Uchiumi
Recommended
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
付録 参考資料・音源 (アドリブ入門Vo.1)
付録 参考資料・音源 (アドリブ入門Vo.1)
Yukosekine
Nishimoto110126 v15-light
Nishimoto110126 v15-light
Takuya Nishimoto
Kmcn demo
Kmcn demo
Yoshinori Hayashi
音声認識における言語モデル
音声認識における言語モデル
KOTARO SETOYAMA
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
Unityで音声認識
Unityで音声認識
光喜 濱屋
RNNLM
RNNLM
Kei Uchiumi
DP
DP
Ryunosuke Iwai
貪欲
貪欲
Ryunosuke Iwai
全探索2
全探索2
Ryunosuke Iwai
全探索
全探索
Ryunosuke Iwai
導入
導入
Ryunosuke Iwai
Rth number
Rth number
Ryunosuke Iwai
Glasses
Glasses
Ryunosuke Iwai
Ice
Ice
Ryunosuke Iwai
Water flow
Water flow
Ryunosuke Iwai
文字列処理
文字列処理
Ryunosuke Iwai
データ処理
データ処理
Ryunosuke Iwai
Arduino
Arduino
Ryunosuke Iwai
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
Hiroshi Tomioka
More Related Content
More from Ryunosuke Iwai
DP
DP
Ryunosuke Iwai
貪欲
貪欲
Ryunosuke Iwai
全探索2
全探索2
Ryunosuke Iwai
全探索
全探索
Ryunosuke Iwai
導入
導入
Ryunosuke Iwai
Rth number
Rth number
Ryunosuke Iwai
Glasses
Glasses
Ryunosuke Iwai
Ice
Ice
Ryunosuke Iwai
Water flow
Water flow
Ryunosuke Iwai
文字列処理
文字列処理
Ryunosuke Iwai
データ処理
データ処理
Ryunosuke Iwai
Arduino
Arduino
Ryunosuke Iwai
More from Ryunosuke Iwai
(12)
DP
DP
貪欲
貪欲
全探索2
全探索2
全探索
全探索
導入
導入
Rth number
Rth number
Glasses
Glasses
Ice
Ice
Water flow
Water flow
文字列処理
文字列処理
データ処理
データ処理
Arduino
Arduino
Recently uploaded
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
Hiroshi Tomioka
Recently uploaded
(9)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
音声認識
1.
音声認識の話
2.
音声認識って ・ Siri 言わずと知れた iPhone
の 音声インターフェイス バラエティーに富んだ 受け答えに定評がある
3.
How to 音声認識 音声データから 文章データへの変換
意味解析 意味に対する適切な 処理・対応を出力 音声 → 「めもちょう」 「めもちょう」 → 「メモ帳」 → 「帳」をメモ メモ「帳」を出力
4.
How to 音声認識 音声データから 文章データへの変換
意味解析 意味に対する適切な 処理・対応を出力 音声 → 「めもちょう」 「めもちょう」 → 「メモ帳」 → 「帳」をメモ メモ「帳」を出力
5.
前提 ● 音は波形(空気の密度) →
太鼓
6.
前提 ● 音は波形(空気の密度) →
太鼓 ● 人の音声もただの音・ただの波形でしか ない → 波形として解析
7.
これを
8.
こうして j i b
u n
9.
こうじゃ じ ぶ
10.
レシピ ● ① 材料を細かく切り刻む ●
② 雛形(音声のサンプルデータ)を大量に集め る – “a” ”のサンプル、 b” …のサンプル、 – 地味に一番大変(らしい) ● ③① を②と比較して一番似てるものを選ぶ ● ④ 後は何とかする
11.
こうして
12.
そうして j j i
i i b b b u u u u n n
13.
こうじゃ j i b
u n
14.
後の課題 ● ③① を②と比較して一番似てるものを選ぶ –
「似てる」って?
15.
「似てる」の判定 → 機械学習の十八番 ● 波形の「特徴」を抽出する –
…「特徴」 顔認識における目、口、鼻とか ● 波形の特徴って? – 指標「メル周波数ケプストラム係数」
16.
メル周波数ケプストラム係数 (MFCC) ● 人間は音を音の高さごとに聞いているらしい → 音を高さごとに表したい
17.
メル周波数ケプストラム係数 (MFCC) ● 人間は音を音の高さごとに聞いているらしい → 音を高さごとに表したい →
フーリエ変換
18.
フーリエ変換(級数) ● 波をある周波数の 1
倍、 2 倍、 3 …倍、 の周 波数を持つ波たちに分解する変換 – 周波数=波の細かさ≒音の高さ ● 波の扱いが 簡単になることが多い
19.
フーリエ変換(式) ● ● ● f(x) =
20.
フーリエ変換(式) ● ● ● f(x) =
21.
フーリエ変換 = 波を扱いやすくする魔法
22.
これが
23.
こうなる
24.
次の一手 ● さっきのグラフの形のうち、 – 大まかな形:音の特性 –
細かい形:声道とかの影響 を表している(らしい) ● 大まかな形の方を求めたい
25.
大まかな形(適当)
26.
これまでのまとめ ● 周波数:波の細かさ ● フーリエ変換:波を周波数ごとに分解 ●
求めたいもの: 大まかな波の形
27.
これまでのまとめ ● 周波数:波の細かさ ● フーリエ変換:波を周波数ごとに分解 ●
求めたいもの: 大まかな波の形 = –波の形 細かい波 ● ん?
28.
結論 ● 元の波をフーリエしたものをもっかいフーリ エ ● 周波数の高いところ(波が細かい部分)は無 視 ●
周波数の低いところを使う( MFCC ) – 数値化できた!
29.
その後 ● 数値化してしまえばこちらのもの – 機械学習おじさんたちに丸投げ –
K 近傍とか色々 ● 意味解析の部分なども大体機械学習がやって くれます
30.
覚えて帰ってほしいこと ● フーリエ変換というよくわからないけどすごい 魔法があるらしい ● 微積分だってたまには役に立つ ●
以上、身近に潜む数学のお話
Download now