Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ヤフー音声認識のご紹介#yjdsw1

2,243 views

Published on

http://yahoo-ds-event.connpass.com/event/21903/

Published in: Technology
  • Be the first to comment

ヤフー音声認識のご紹介#yjdsw1

  1. 1. データサイエンスワークショップ
 ヤフー⾳音声認識識のご紹介 ヤフー株式会社   D&Sサイエンス本部サイエンス3部   三宅宅  純平 1
  2. 2. Yahoo!JAPAN  Confidential ⾃自⼰己紹介 • 経歴   • 専⾨門技術領領域
 ⾳音声認識識アルゴリズム,  ⾔言語モデル,  単語分割,  C/C++,  Python,  Perl
 サーバ開発(C/C++),  最近だとやはり深層学習 2 2009年年4⽉月 新卒⼊入社。⾃自然⾔言語処理理技術の開発。
 (読み獲得、レコメンド、クエリセグメンテーション、Hadoop) 2011年年1⽉月~∼現在 ・⾳音声認識識PJの発⾜足と共にチーム異異動し、⾳音声認識識の開発
 ・Yahoo!  JAPAN研究所とサイエンス本部の共同開発PJ
  3. 3. 「Yahoo!  JAPAN」アプリなど18のアプリ・ウィジェットに導⼊入(5/19現在) YJVOICE ヤフー⽇日本語⾳音声認識識 Andorid iOS
  4. 4. ヤフー⽇日本語⾳音声認識識  YJVOICEについて 最近のヤフー⾳音声認識識のリリース • DNNベースの音声認識に切替(5/19)
 音声区間検出と音響モデルの2箇所にDNNを実装
 雑音環境下において大幅精度改善
 大規模な音声データで大規模なNNを学習 • 音声検索アプリにKeyword Spotting機能の追加(9/25)
 所謂「OK,Google」「Hey,Siri」の機能
 クライアント側で常時、音声認識が起動 おんせー けんさく! 出典:GTC Japan 2015 ヤフー研究員 磯氏の講演より
  5. 5. 5 DNN導⼊入前後で何が変わったか?ー⾳音響モデルー
  6. 6. DNN導⼊入前後で何が変わったか?ー⾳音響モデルー 6 ka to / 2 1 0 ⾳音声認識識の全体概要
  7. 7. ⾳音響モデルとは 7 ⼊入⼒力力⾳音声(の分析量量)と   ⾳音響モデルを照合 ⼊入⼒力力⾳音声 ⾳音響モデル ka to どの⾳音素に尤も近いか ⼤大量量の⾳音声データから   ⾳音素の周波数パターンを   モデル化(確率率率化) /a/ /o/ /u/ /e//i/ 1000(Hz)5000 (Hz) 1000 2000 3000 成⼈人⼥女女性 成⼈人男性 F1 F2 P(x|s1) x P(x|s2) x P(x|s3) x ⾳音素(  y-‐‑‒a+f  ) s1 s2 s3 実際には各音素毎に3状態HMMで表現。 各状態における出力確率がGMMからDNNに変更 イメージ例例 ↑学習 ↓分類
  8. 8. ⾳音声の特徴量量について 音声信号 ディジタル化 高域強調 FFT メル帯域化 対数化 離散コサイン 変換(DCT) 正規化 (CMS) ・スペクトル形状  MFCC(12次元)  ΔMFCC(12次元)  ΔΔMFCC(12次元) ・音声信号の強さ
  Δパワー(1次元)  ΔΔパワー(1次元) DNN-HMMの特徴量:440次元 ・メルフィルタバンク(メル帯域スペクトル)  現在1フレーム(40次元)  前5フレーム(40次元x5)  後ろ5フレーム(40次元x5) GMM-HMMの特徴量:38次元 1m I ・・ jm pm MEL 周 0   8   MFCC ケプストラム領域化 量子化(Bit Rate) 標本化(Sampling Rate)
  9. 9. 9 特徴量(MFCC)から音素(HMM状態数)の
 出力確率を混合正規分布で表現 約5000状態の事後確率率率を   DNNモデル構築 ⼊入⼒力力層:特徴量量(メルフィルタバンク) 中間層 1024unit, 5layers 出力層:約5000状態の音素 GMMからDNNへ x どれが尤もらしいか…
  10. 10. Yahoo!JAPAN  Confidential 10 最後に 全体概要 通信制御部(ASRプロトコル)   認識識エンジン部   (⾳音声検出/デコード) App(表⽰示) クライアント 通信制御部(ASRプロトコル) ⾳音声圧縮処理理   (Speex,Flac) ⾳音声取り込み   (OS/ドライバ)   ⾳音声データ   (圧縮⾳音声) ⾳音声検出をサーバで デコーダ:   ⇒WFSTデコーダによるデコード 認識識結果 認識識アルゴリズム、クライアントSDK、サーバと多岐に渡る   開発をしているので、興味がある⽅方はお声がけください! Client(iOS/Android) Server ⾳音響モデル ⾔言語モデル

×