Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

【CVPR 2019】2.5D Visual Sound

620 views

Published on

cvpaper.challenge はコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文読破・まとめ・アイディア考案・議論・実装・論文投稿に取り組み、あらゆる知識を共有しています。
http://xpaperchallenge.org/cv/

本資料は、CVPR 2019 網羅的サーベイの成果の一部で、1論文を精読してプレゼンテーション形式でまとめております。論文サマリは下記からご確認頂けます。
http://xpaperchallenge.org/cv/survey/cvpr2019_summaries/listall/

Published in: Technology
  • Be the first to comment

  • Be the first to like this

【CVPR 2019】2.5D Visual Sound

  1. 1. 2.5D Visual Sound (CVPR 2019 Oral) Ruohan Gao, Kristen Grauman (The University of Texas at Austin, Facebook AI Research) 資料作成:升山義紀(早稲田大学) 1 https://sites.google.com/view/yoshiki-masuyama/home
  2. 2. 論文の要点 2 – 動画情報に基づきモノラルの音信号をバイノー ラル信号に変換するMONO2BINAURALを提案 – 5.2時間のビデオとバイノーラル信号のペア データセット(Fair Play Dataset)を提案 – モノラルからステレオへの変換タスクでSOTA – 得られたバイノーラル信号を用いることでAudio Visual Source separationの性能を改善
  3. 3. • バイノーラル信号 – 人間は両耳に届く音の差から音源の方向を知覚 • 両耳間時間差(ITD):両耳に音が届くまでの時間の差 • 両耳間強度差(ILD):両耳における音の強度の差 – バイノーラル録音・再生 • ダミーヘッド(右図)を用いて録音 • ヘッドホンで再生するとITD/ILDが 再現されて人間は音源の位置を知覚 • 専用の機材が必要なため録音が困難 ⇒ モノラル信号から生成したい 研究背景 3 [1] GRAS Sound & Vibration [1] GRAS 45BB KEMAR Head & Torso
  4. 4. 関連研究 4 • 動画からの音生成 – 従来研究の多くは無音の動画からモノラルの信号 を生成 – 360°カメラの情報に基づいてアンビソニックス (音場を基底に分解し解析・再現する技術)を行い, 空間的な音を生成[2] • 画像を用いた音源分離 – 従来研究の多くがモノラルの信号を分離 – 音に対応したピクセルの推定などが近年の主流 [2] “Self-supervised generation of spatial audio for 360° video”
  5. 5. 提案データセット:FAIR-Play Dataset 5 • 動画+バイノーラル信号のデータセット – 内容 • 音楽室で楽器を演奏している動画とそのバイノーラル 信号のペアデータ • 各10秒の1871ペア
  6. 6. 提案データセット:FAIR-Play Dataset 6 • 動画+バイノーラル信号のデータセット – 収録機材 • 動画:Go Pro • バイノーラル信号:3Dio Binaural Mic
  7. 7. 提案手法:Mono2Binaural 7 • 動画を使った音響信号の変換 – チャンネル間の差の信号を時間周波数マスキング によって推定 – ImageNetで事前学習したResNet-18で抽出した 画像特徴量を利用
  8. 8. 提案手法:Mono2Binaural 8 • 定式化 – 両チャネル信号の足し合わせからの推定 • 著者らの実験では,直接各チャンネルを推定を行うと 入力をそのまま出力してしまったと報告あり • 各チャネルの差分の推定が有効 – 差分は時間周波数領域でのマスク処理で推定 • 短時間フーリエ変換で時間周波数領域へ変換 • U-Net構造のDNNで複素数のマスクを推定 • ResNet-18で抽出した画像特徴量を中間層で連結
  9. 9. Audio-Visual Source Separation 9 • Mono2Binauralを使った音源分離 – Mono2Binauralでの学習によって空間的な情報 を抽出できていると期待 – Mono2Binauralで推定したバイノーラル信号を 用いることで音源分離性能が向上することを期待
  10. 10. 実験条件 10 • データセット – FAIR-Play – 既存のデータセット[2] • 360°カメラによる動画と空間的な音響データ • REC-STREET:一般の街中 • YT-CLEAN:街中での人の会話など • YT-MUSIC:複数の楽器の演奏 [2] “Self-supervised generation of spatial audio for 360° video”
  11. 11. 実験条件 11 • 比較手法 – 従来手法:画像を用いたアンビソニックス[2] • 音と画像から球面調和関数展開の係数を推定 • 推 定 さ れ た 係 数 か ら バ イ ノ ー ラ ル 信 号 へ HRTF の データを利用し変換 – 画像情報の影響を評価 • Audio-Only:画像特徴量なし • Flipped-Visual:画像を反転し入力 – その他 • Mono-Mono:両チャネル信号の平均をコピー
  12. 12. 実験条件 12 • データ – 0.63秒のバイノーラル信号を各ファイルから抽出 • 257×64×2 (周波数×時間×実部・虚部) – 真ん中の時刻の画像を利用 (動画ではない) • 480×240の画像からランダムに448×224をクロップ • 評価 – STFT領域でのℓ2距離 – 波形の包絡のℓ2距離
  13. 13. 実験結果:Mono2Binaural 13 • 定量評価 – 空間情報の有効性を確認 • 提案手法>Audio-Only>Flipped-Visual ⇒ 画像特徴量の有効性を確認 – アンビソニックスを用いた従来手法 • 有効性を確認できず • 推定された球面調和関数の係数からバイノーラル信号 に変換する部分で雑音が発生(?)
  14. 14. 実験結果:Mono2Binaural 14 • 主観評価 • 真の信号と動画を視聴後,推定された信号2つを聴き より3D sensationを感じた方を選択 • ケース2:推定されたバイノーラル信号を聴いて音の 方向を左/中央/右から選択
  15. 15. 応用:Localizing the Sound Sources 15 • 音源に対応したピクセルの推定 – 手法 • 画像の一部(32×32)をマスクしMono2Binauralを行い ロスを評価 • マスクしたことで最もロスが最大になった部分が音源 に対応していると期待 – 結果 • 楽器の領域が選ばれていることを確認
  16. 16. • Mono2Binauralでの事前学習の影響評価 – 比較手法 • MONO:モノラル信号で分離を行う従来手法 • MONO-MONO:(再掲のため省略) • Predicted Binaural:推定したバイノーラル信号を利用 • GT Binaural:真のバイノーラル信号を利用 – 結果 • 提案手法でバイノーラルに変換することで性能改善 応用:Audio-Visual Source Separation 16
  17. 17. 概要(再掲) 17 – 動画情報に基づきモノラルの音信号をバイノー ラル信号に変換するMONO2BINAURALを提案 – 5.2時間のビデオとバイノーラル信号のペア データセット(Fair Play Dataset)を提案 – モノラルからステレオへの変換タスクでSOTA – 得られたバイノーラル信号を用いることでAudio Visual Source separationの性能を改善

×