Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト

952 views

Published on

1. Microsoft Imagine Cupについて
2. 深層学習を利用して,特定の人物の声を
抽出するソフトウェア「Mediated Ear

Published in: Technology
  • Hello! Get Your Professional Job-Winning Resume Here - Check our website! https://vk.cc/818RFv
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト

  1. 1. Microsoft Imagine Cupと 深層学習を用いた音源分離技術について 佐藤邦彦
  2. 2. 1. Microsoft Imagine Cupについて 2. 深層学習を利用して,特定の人物の声を 抽出するソフトウェア「Mediated Ear」
  3. 3. Mediated Ear  Micorosoftが主催する学生向けITコンテスト.  過去に190 を超える国から,延べ 200 万人以上の学生が参加.  テクノロジーにフォーカス.  優勝賞金 8 万 5000 ドル. Imagine Cupとは
  4. 4. Mediated Ear Imagine Cup 2018 日本大会決勝(2018年4月16日)に参加 https://tech-camp.in/note/technology/41540/
  5. 5. https://news.microsoft.com/ja-jp/2018/04/17/blog-microsoft-innovation-day-2018/ 世界大会進出決定.
  6. 6. Mediated Ear 6 名前:佐藤邦彦 所属:LINE株式会社 開発(2018年4月入社) 2016年~2018年 筑波大学 情報学群 情報メディア創成学類2012年~2016年 東京大学大学院 学際情報学府 修士課程 暦本研究室
  7. 7. Mediated Ear 高校時代 未踏2015 Imagine Cup 2017 世界大会SXSW2017
  8. 8. 8 Imagine Cup 2017 日本代表選出.
  9. 9. Mediated Ear 9 トランプ大統領 "I have many friends I actually have a large group of people friends that I have a great people but they do suffer these..." 深層学習を用いて,入力音声を特定の人物の声質に変換するソフトウェア Imagine Cup 2017 プロダクト「NeuroVoice」
  10. 10. Mediated Ear 10 マイケルジャクソン "I have many friends I actually have a large group of people friends that I have a great people but they do suffer these..." トランプ大統領 深層学習を用いて,入力音声を特定の人物の声質に変換するソフトウェア Imagine Cup 2017 プロダクト「NeuroVoice」
  11. 11. Mediated Ear 11 マイケルジャクソン "I have many friends I actually have a large group of people friends that I have a great people but they do suffer these..." トランプ大統領 深層学習を用いて,入力音声を特定の人物の声質に変換するソフトウェア Imagine Cup 2017 プロダクト「NeuroVoice」 同時再生
  12. 12. 世界大会(2017年) 一回戦で負けてしまいました.
  13. 13. 13 Imagine Cup 2018 世界大会(2018年7月頃開催)で リベンジ!
  14. 14. Mediated Ear特定の人物の声を抽出するソフトウェア
  15. 15. Mediated Ear 補聴器利用者の友人の話
  16. 16. Mediated Ear 聴覚障害者の悩み 人混みでは, 会話相手の声が聞こえない.
  17. 17. Mediated Ear 聴覚障害者の音の聞こえ方 音が小さく聞こえるのではなく, 周りの音すべてが混ざって聞こえる.
  18. 18. 深層学習を利用して, 特定の人物の声を抽出するソフトウェア Mediated Ear
  19. 19. Mediated Ear 聞きたい声が聞こえる「Mediated Ear」 Mediated Ear 雑音や複数話者の声が混ざった入力音源から,特定の人物の声だけを抽出. 入力波形 特定の人物の声
  20. 20. 20 入力音声(複数の話者が混ざっています) 抽出の対象となる話者 Mediated Earによって対象者の声を抽出 複数話者が重なっている音源からの抽出結果
  21. 21. 21 入力音声(背景で音楽が鳴っています) 抽出の対象となる話者 Mediated Earによって対象者の声を抽出 BGMが重なっている音源からの抽出結果
  22. 22. Mediated Ear https://kakakumag.com/av-kaden/?id=12058http://kodawari-story.com/movie/rion.html http://trendy.nikkeibp.co.jp/atcl/pickup/15/1003590/110901435/?P=2 現在の補聴器・イヤホン 雑音抑制や音声強調機能が搭載.
  23. 23. Mediated Ear https://kakakumag.com/av-kaden/?id=12058http://kodawari-story.com/movie/rion.html http://trendy.nikkeibp.co.jp/atcl/pickup/15/1003590/110901435/?P=2 現在の補聴器・イヤホン 雑音抑制や音声強調機能が搭載. 複数話者の声を分離することはできない.
  24. 24. Mediated Ear Mediated Earの働き 抽出対象の人物の声 実際の抽出波形
  25. 25. Mediated Ear Mediated Earの働き 抽出対象の人物の声 実際の抽出波形 雑音や対象人物以外の声 実際の抽出波形
  26. 26. Mediated Ear 音源分離技術の先行事例 音源分離技術 マルチマイク (マルチチャンネル) シングルマイク (モノラルチャンネル)
  27. 27. Mediated Ear 音源分離技術の先行事例 音源分離技術 シングルマイク (モノラルチャンネル)
  28. 28. Mediated Ear 音源分離技術の先行事例 音源分離技術 シングルマイク (モノラルチャンネル) 雑音除去 話者分離
  29. 29. Mediated Ear 雑音除去・話者分離・Mediated Earの違い 雑音除去 話者分離 Mediated Ear 雑音と人の声を 分離できる. 短所 長所 話者分離は できない.
  30. 30. Mediated Ear 雑音除去・話者分離・Mediated Earの違い 雑音除去サンプル “Deep Clustering and Conventional Networks for Music Separation: Stronger Together” http://danetapi.com/chimera Luo, Yi, et al. "Deep clustering and conventional networks for music separation: Stronger together." Acoustics, Speech and Signal Processing (ICASSP), 2017 IEEE International Conference on. IEEE, 2017. http://danetapi.com/chimera • 音楽が混ざった入力音声 • フィルター結果
  31. 31. Mediated Ear 雑音除去・話者分離・Mediated Earの違い 雑音除去サンプル “Deep Clustering and Conventional Networks for Music Separation: Stronger Together” http://danetapi.com/chimera Luo, Yi, et al. "Deep clustering and conventional networks for music separation: Stronger together." Acoustics, Speech and Signal Processing (ICASSP), 2017 IEEE International Conference on. IEEE, 2017. • 音楽が混ざった入力音声 • フィルター結果
  32. 32. Mediated Ear 雑音除去・話者分離・Mediated Earの違い 雑音除去サンプル “Deep Clustering and Conventional Networks for Music Separation: Stronger Together” http://danetapi.com/chimera Luo, Yi, et al. "Deep clustering and conventional networks for music separation: Stronger together." Acoustics, Speech and Signal Processing (ICASSP), 2017 IEEE International Conference on. IEEE, 2017. http://danetapi.com/chimera • 音楽が混ざった入力音声 • フィルター結果 • 複数話者が含まれる入力音声 • フィルター結果
  33. 33. Mediated Ear 雑音除去・話者分離・Mediated Earの違い 雑音除去サンプル “Deep Clustering and Conventional Networks for Music Separation: Stronger Together” http://danetapi.com/chimera Luo, Yi, et al. "Deep clustering and conventional networks for music separation: Stronger together." Acoustics, Speech and Signal Processing (ICASSP), 2017 IEEE International Conference on. IEEE, 2017. http://danetapi.com/chimera • 音楽が混ざった入力音声 • フィルター結果 • 複数話者が含まれる入力音声 • フィルター結果
  34. 34. Mediated Ear 雑音除去・話者分離・Mediated Earの違い 雑音除去 話者分離 Mediated Ear 雑音と人の声を 分離できる. 短所 長所 話者分離は できない. 複数話者の声を 分離できる. 雑音除去できない. 入力音源に雑音が 含まれると話者分離の 精度が落ちる.
  35. 35. Mediated Ear 雑音除去・話者分離・Mediated Earの違い 雑音除去 話者分離 Mediated Ear 雑音と人の声を 分離できる. 短所 長所 話者分離は できない. 複数話者の声を 分離できる. 雑音除去できない. 入力音源に雑音が 含まれると話者分離の 精度が落ちる. 入力音源に雑音や複数話者の 声が含まれていても,特定の 人物の声を抽出できる. 特定の人物の声しか 抽出できない.
  36. 36. Mediated Ear Mediated Earの実装方法 対象人物の音声にさまざまな雑音や 他人の声を重畳した音声波形 対象人物の音声のみの波形 抽出対象となる人物の音声だけを抽出するように深層学習を行う.
  37. 37. Mediated Ear Mediated Earの実装方法 対象人物の音声にさまざまな雑音や 他人の声を重畳した音声波形 対象人物の音声のみの波形 抽出対象となる人物の音声だけを抽出するように深層学習を行う. 振幅のサンプリング値(8bit)をそのまま入出力.
  38. 38. Mediated Ear Mediated Earの Deep Neural Network(DNN)構造
  39. 39. RNN / LSTM
  40. 40. RNN / LSTM
  41. 41. Mediated Ear RNN / LSTMの欠点 “All class-based BLSTMs performed poorly in non-speaker-dependent settings” [1] [1] Hershey, John R., et al. "Deep clustering: Discriminative embeddings for segmentation and separation." Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016. LSTMを用いたDNNモデルは, 訓練データに含まれない話者同士の分離が難しい.
  42. 42. https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0
  43. 43. https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0
  44. 44. https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 RNNは訓練時も実行時も多くのリソースを 必要とする. RNNの中間層は逐次実行であり, 計算結果を保持する必要がある.
  45. 45. Mediated Ear 出力層 隠れ層 入力層 時間方向 丸はユニット,赤い色は行列乗算を意味する. 時間方向 Convolutional NN LSTM
  46. 46. Dilated Convolutional Neural Network (Dilated CNN) Mediated EarのDNN構造
  47. 47. Mediated Ear 画像処理のために提案されたDNN手法 Yu, Fisher, and Vladlen Koltun. "Multi-scale context aggregation by dilated convolutions." arXiv preprint arXiv:1511.07122 (2015). Dilated CNN 畳み込みの範囲を拡大する.
  48. 48. Mediated Ear Dilated CNNを音声に適用した研究「WaveNet」 Van Den Oord, Aaron, et al. "Wavenet: A generative model for raw audio." arXiv preprint arXiv:1609.03499 (2016). Text to Speech “Hello”
  49. 49. Mediated Ear 競合との比較 https://research.googleblog.com/2018/04/looking-to-listen-audio-visual- speech.html Google Research、複数音から特定の発話者だけの 声を聞こえるようにする深層学習手法(2018年4月12日発表!)
  50. 50. Mediated Ear 競合との比較 https://research.googleblog.com/2018/04/looking-to-listen-audio-visual- speech.html 顔認識 + 音源分離 発話者の顔画像が必要. Google Research、複数音から特定の発話者だけの 声を聞こえるようにする深層学習手法(2018年4月12日発表!)
  51. 51. Mediated Ear 競合との比較 https://research.googleblog.com/2018/04/looking-to-listen-audio-visual- speech.html Google Research、複数音から特定の発話者だけの 声を聞こえるようにする深層学習手法(2018年4月12日発表!) 顔認識 + 音源分離 Mediated Ear 音声データのみでよい. 発話者の顔画像が必要.
  52. 52. Q. Mediated Earの訓練データに必要な, 抽出対象人物の音声データ量は?
  53. 53. A. ひとりあたりの必要な音声データ 3分 Q. Mediated Earの訓練データに必要な, 抽出対象人物の音声データ量は?
  54. 54. Q. ユーザーはどのような人を抽出する対象とするか?
  55. 55. A. ユーザーの家族,恋人,仲の良い友人など頻繁に会話する人. Q. ユーザーはどのような人を抽出する対象とするか?
  56. 56. https://www.weforum.org/agenda/2017/04/treating-hearing-loss-might-be-easier-with-a-familiar-voice 親しみのある声(親,恋人,孫)を聞くことは, 聴覚が低下した人に対して,聴力を向上させる可能性がある. Cited by World Economic Forum
  57. 57. 親しみのある声(親,恋人,孫)を聞くことは, 聴覚が低下した人に対して,聴力を向上させる可能性がある. 親しい人の声をいつでも・ どこでも聞くことが可能に なるだけで大きな利点. https://www.weforum.org/agenda/2017/04/treating-hearing-loss-might-be-easier-with-a-familiar-voice Cited by World Economic Forum
  58. 58. Mediated Ear ユーザーからのフィードバック 「日常生活では,複数の人が話していると 聞きづらいことが多い. Mediated Earは,音源に雑音が含まれ ていても話者分離できるのが良い!」 「Mediated Earで抽出した音は 対象話者の声が聞きやすい.」
  59. 59. Mediated Ear 「日常生活では,複数の人が話していると 聞きづらいことが多い. Mediated Earは,音源に雑音が含まれ ていても話者分離できるのが良い!」 ユーザーからのフィードバック 「Imagine Cup世界大会で優勝して早く実用化してくれ.」 「Mediated Earで抽出した音は 対象話者の声が聞きやすい.」
  60. 60. Mediated Earの発展性
  61. 61. Mediated Ear Wearableから「Hearable」へ
  62. 62. Mediated Ear Wearableから「Hearable」へ Mediated Earを搭載すれば, イヤホンを介して,周囲の音を 選択的に聞くことが可能になる.
  63. 63. Mediated Ear 冨永 健 佐藤 邦彦 チーム 東京大学大学院 暦本研究室 機械設計,ソフトウェア 東京大学大学院 暦本研究室 深層学習,Human-Computer Interaction
  64. 64. Mediated Ear プラン 現在 ソフトウェアとして実装 2017年 冬 着手 Hearable端末として発表 Imagine Cup 世界大会
  65. 65. Mediated Ear Empowering us all. ありがとうございました.

×