Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ゼロから作るダメ絶対音感

859 views

Published on

2017-06-14スキルウェンズデー発表内容

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

ゼロから作るダメ絶対音感

  1. 1. ゼロからつくる ダメ絶対音感 2017-06-14 スキルウェンズデー@CyberZ いしばし げんき
  2. 2. 自己紹介 ・3Dプリンタに関する研究 ・2015年 7月CyberZに入社 ・15年8月 広告設定チームに配属 ・16年8月 データ抽出チームJOIN 名前:石橋 弦樹(@b0941015) 経歴
  3. 3. ダメ絶対音感とは… ある音を単独に聴いたときに、その音の高さを 記憶に基づいて絶対的に認識する能力である。 絶対音感… ダメ絶対音感… アニメやCM・洋画の吹き替えなどの声から瞬時 に誰の声かを判断することができるという、生 きていく上で特に必要のない能力のことをいう。 @wikipedia @アニオタWiki(仮)
  4. 4. ※ダメ絶対音感テスト~入門~ http://www.nicovideo.jp/watch/sm17371984
  5. 5. 簡単ですよね?
  6. 6. 機械学習でダメ絶対音感 http://qiita.com/1234224576/items/f785eef6eed68271be64 http://manabukk.hatenablog.com/entry/2016/12/10/204111
  7. 7. 機械学習でダメ絶対音感 http://qiita.com/1234224576/items/f785eef6eed68271be64 http://manabukk.hatenablog.com/entry/2016/12/10/204111 私もやりたい! 特徴量として使ってる MFCCって何? 日本語で詳しい記事が全然 見当たらないんだけど… 声の分析やってみたい!
  8. 8. とりあえずダメ絶対音感作ってみた
  9. 9. ダメ絶対音感のための機械学習プロセス ① 学習させる元となるデータを集める ② 識別に必要な特徴量を抽出する ③ 特徴量を学習させて識別モデルを作成する ④ モデルを評価する
  10. 10. ①データ集め 識別したいアニメやラジオから音源を調達 • 特定の人物が喋っている部分だけ抜き出す必要あり • 声に他人の声・効果音やBGMが被っている • 地声と各アニメキャラのサンプルの調達に手間 ボイスサンプルを利用
  11. 11. ①データ集め ボイスサンプルを利用 • 本人しか喋ってないのでラベリングが楽 • 基本BGMがなく、声のみのデータが取得可 • 地声・色々なキャラの声を容易に収集可 声優事務所HP ボイスサンプルで検索
  12. 12. ダメ絶対音感のための機械学習プロセス ① 学習させる元となるデータを集める ② 識別に必要な特徴量を抽出する ③ 特徴量を学習させて識別モデルを作成する ④ モデルを評価する
  13. 13. ②特徴量の抽出 • 音声信号の機械学習には色々種類がある • 音声認識…なんと喋っているか • 話者認識...誰が話しているか • 言語認識…何の言語か • 性別識別…男性か女性か
  14. 14. ②特徴量の抽出 • 音声信号の機械学習には色々種類がある • 音声認識…なんと喋っているか • 話者認識...誰が話しているか • 言語認識…何の言語か • 性別識別…男性か女性か • ダメ絶対音感 = 話者認識(Speaker Recognition)
  15. 15. ②特徴量の抽出 音声信号は声帯の音源と周波数特性を変える声道フィ ルタの組み合わせによってモデル化される + = 声帯の振動 声道フィルタ 声
  16. 16. ②特徴量の抽出 • 話者認識の特徴量としてMFCCがよく用いられる
  17. 17. ②特徴量の抽出 • MFCCってなんなん? Mel-Frequency Cepstral Coefficients メル尺度 || 人の音の知覚尺度 周波数 スペクトルをフーリエ変換したもの spectrum→cepstrum 係数
  18. 18. ②特徴量の抽出
  19. 19. ②特徴量の抽出~mfccの算出~ 計測される音声信号 周波数のパワースペクトル メル尺度・対数に変換 ケプストラム
  20. 20. ②特徴量の抽出~mfccの算出~ ~15次元ぐらいの値を特徴量として利用 = MFCC 声道の特性 =
  21. 21. 機械学習のプロセス ① 学習させる元となるデータを集める ② 識別に必要な特徴量を抽出する ③ 特徴量を学習させて識別モデルを作成する ④ モデルを評価する
  22. 22. ③特徴量の分類 • 話者認識する方法には種類がある • 決められたフレーズ • 比較が容易 テキスト依存 テキスト非依存 • 任意のフレーズ • 単純な比較が困難
  23. 23. ③特徴量の分類 • 古典的で一般的な学習モデル • GMM-UBM…ガウシアン混合分布を用いて確率的に 分類 • SVM…マージン最大化の離散モデル GMM SVM
  24. 24. 機械学習のプロセス ① 学習させる元となるデータを集める ② 識別に必要な特徴量を抽出する ③ 特徴量を学習させて識別モデルを作成する ④ モデルを評価する
  25. 25. 具体的な手順 ① 6人のボイスサンプルを用意 ② ボイスサンプルから無音時間を削除 ③ 各MFCCを計算して、ファイル(.mfcc)に保存する ④ GMMとSVMの学習器に特徴量を学習
  26. 26. 具体的な手順 無音領域の除去 MFCCの抽出 学習・分類
  27. 27. GMM結果 • 識別できてない…
  28. 28. SVM結果 • 6~7割の精度で6人の識別可能
  29. 29. まとめ • MFCCってなにか • SVM使うとそれっぽく分類できた • ROCとか結果の評価をもっとやりたい • ディープラーニングに転用したい • 声を入力すると誰に似てるとか 今後
  30. 30. ご清聴ありがとうございました

×