Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

音声にまつわる技術の基礎

2,030 views

Published on

非技術者向けの音声情報処理技術の紹介

Published in: Technology
  • Be the first to comment

音声にまつわる技術の基礎

  1. 1. 音声 にまつわる技術の基礎 池宮 由楽 | イケミヤ ユカラ 2016/06/04
  2. 2. プロフィール  名前とか  池宮 由楽  京大での研究  プロ歌手の歌い方とかを抽出 (卒論)  音楽からボーカルを分離 (修論) 今の研究  音響信号処理いろいろ
  3. 3. あらまし 1. 音声とは 2. 音声認識 Siri とか 3. 音声合成 アナウンス、VOCALOID とか 4. 声質変換 コナン君の蝶ネクタイ型...
  4. 4. 1. 音声とは
  5. 5. 音 = 空気の振動 人間 (鼓膜) 機械 (マイク)
  6. 6. 音の3要素 1. 音量  音の大きさ [単位:dB (デシベル) ] 2. 音高  音の高さ [単位:Hz (ヘルツ) ] 3. 音色
  7. 7. 音の3要素 1. 音量  音の大きさ [単位:dB (デシベル) ] 2. 音高  音の高さ [単位:Hz (ヘルツ) ] 3. 音色 「同じように提示された,大きさ,高さが 等しい2つの音が違って聞こえるとき, その違いをもたらす性質のことである」 (JIS)
  8. 8. 音声における音色 「あ」と「い」の違い 150 Hz の「あ」 150 Hz の「い」 音高成分 音高成分
  9. 9. 音声における音色 「あ」と「い」の違い 150 Hz の「あ」 150 Hz の「い」 実は含まれる音高成分は同じ 成分の「混合度合い」で音色が変わる 音高成分 音高成分
  10. 10. 2. 音声認識 “ ぱりーぽむ ん ぽむん ” きゃりー ぱみゅぱみゅ
  11. 11. 音声認識のしくみ 機械学習 どの音色が「あ」に 対応するかなどを むっちゃ学習する 認識 学習結果をもとに 入力された音声を テキストに変換する 大量のデータを 持ってる Google とかが強い 最近 NTT 研究所 とかが強い
  12. 12. 音声認識のしくみ つきしまそう! 日本語を むっちゃ 学習した機械
  13. 13. 音声認識のしくみ つきしまそう! 「う」っぽい? 日本語を むっちゃ 学習した機械
  14. 14. 音声認識のしくみ つきしまそう! 「う」っぽい? 「い」? 「い」? 「あ」? 「お」? 「う」? 日本語を むっちゃ 学習した機械
  15. 15. 音声認識のしくみ つきしまそう! 「う」っぽい? 「い」? 「い」? 「あ」? 「お」? 「う」? 「つきしまそう」? 「つきしましょう」? 「くぎりましょう」? 一番それっぽいのを出力 日本語を むっちゃ 学習した機械
  16. 16. 3. 音声合成 「ロボットデス」
  17. 17. 音声合成のしくみ つ き し ま そ う 日本語を むっちゃ 学習した機械
  18. 18. 音声合成のしくみ つ き し ま そ う 日本語を むっちゃ 学習した機械 こんな音色 やろ?
  19. 19. 音声合成のしくみ つ き し ま そ う 日本語を むっちゃ 学習した機械 こんな音色 やろ?
  20. 20. 音声合成のしくみ つ き し ま そ う 日本語を むっちゃ 学習した機械 それっぽく滑らかに繋げる(合成する) こんな音色 やろ?
  21. 21. 4. 声質変換
  22. 22. 声質変換はむずかしい ボイスチェンジャー 声質変換 適当に声を歪ませるだけ 入力された声の音色をピンポイントで適切な 音色に変換する
  23. 23. 声質変換のしくみ Aさんの声と Bさんの声を むっちゃ 学習した機械 Aさんの声
  24. 24. 声質変換のしくみ Aさんの声と Bさんの声を むっちゃ 学習した機械 Aさんの声
  25. 25. 声質変換のしくみ Aさんの声と Bさんの声を むっちゃ 学習した機械 Aさんの声 Bさんに変えたろ
  26. 26. 声質変換のしくみ Aさんの声と Bさんの声を むっちゃ 学習した機械 Aさんの声 Bさんに変えたろ
  27. 27. 声質変換のしくみ Aさんの声と Bさんの声を むっちゃ 学習した機械 Aさんの声 Bさんに変えたろ Bさんの声

×