SlideShare a Scribd company logo
Submit Search
Upload
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
Report
Share
Ryohei Suzuki
Research Assistant (RA) at 東京大学 | Todai
Follow
•
1 like
•
2,159 views
1
of
30
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
•
1 like
•
2,159 views
Report
Share
Download Now
Download to read offline
Technology
presented@WISS2014 (Hamanako, Japan)
Read more
Ryohei Suzuki
Research Assistant (RA) at 東京大学 | Todai
Follow
Recommended
ICASSP 2019での音響信号処理分野の世界動向 by
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
4.6K views
•
44 slides
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3 by
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
1K views
•
22 slides
音響システム特論 第11回 実環境における音響信号処理と機械学習 by
音響システム特論 第11回 実環境における音響信号処理と機械学習
Yuma Koizumi
1.6K views
•
90 slides
Inverse Filter design using smoothed L-curve method in Frequency Domain for S... by
Inverse Filter design using smoothed L-curve method in Frequency Domain for S...
RYOTAETO1
840 views
•
32 slides
Saito18sp03 by
Saito18sp03
Yuki Saito
1.1K views
•
25 slides
AnnoTone (CHI 2015) by
AnnoTone (CHI 2015)
Ryohei Suzuki
2.9K views
•
43 slides
More Related Content
Similar to AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
複数話者WaveNetボコーダに関する調査 by
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
4.4K views
•
55 slides
My MPEG life: MPEG-2, MPEG-4, H264/AVC and H.265/HEVC by
My MPEG life: MPEG-2, MPEG-4, H264/AVC and H.265/HEVC
Osaka University
4.6K views
•
53 slides
国際会議 interspeech 2020 報告 by
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
1.2K views
•
32 slides
インターネット上の多目的な音声伝送システムに関する研究 by
インターネット上の多目的な音声伝送システムに関する研究
Takashi Kishida
829 views
•
21 slides
Ustreamで広報力UP講座資料 by
Ustreamで広報力UP講座資料
Takeo Noda
2K views
•
66 slides
実環境音響信号処理における収音技術 by
実環境音響信号処理における収音技術
Yuma Koizumi
2.1K views
•
76 slides
Similar to AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
(20)
複数話者WaveNetボコーダに関する調査 by Tomoki Hayashi
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
•
4.4K views
My MPEG life: MPEG-2, MPEG-4, H264/AVC and H.265/HEVC by Osaka University
My MPEG life: MPEG-2, MPEG-4, H264/AVC and H.265/HEVC
Osaka University
•
4.6K views
国際会議 interspeech 2020 報告 by Shinnosuke Takamichi
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
•
1.2K views
インターネット上の多目的な音声伝送システムに関する研究 by Takashi Kishida
インターネット上の多目的な音声伝送システムに関する研究
Takashi Kishida
•
829 views
Ustreamで広報力UP講座資料 by Takeo Noda
Ustreamで広報力UP講座資料
Takeo Noda
•
2K views
実環境音響信号処理における収音技術 by Yuma Koizumi
実環境音響信号処理における収音技術
Yuma Koizumi
•
2.1K views
Kameoka2016 miru08 by kame_hirokazu
Kameoka2016 miru08
kame_hirokazu
•
2K views
ヤフー音声認識サービスでのディープラーニングとGPU利用事例 by Yahoo!デベロッパーネットワーク
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
Yahoo!デベロッパーネットワーク
•
53K views
Japan Robot Week 2014けいはんなロボットフォーラム by Komei Sugiura
Japan Robot Week 2014けいはんなロボットフォーラム
Komei Sugiura
•
4.1K views
インターネット上の高品質な遠隔コラボレーションに関する研究 by Takashi Kishida
インターネット上の高品質な遠隔コラボレーションに関する研究
Takashi Kishida
•
849 views
エヌビディアのディープラーニング戦略 by NVIDIA Japan
エヌビディアのディープラーニング戦略
NVIDIA Japan
•
5.6K views
深層生成モデルに基づく音声合成技術 by NU_I_TODALAB
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
•
929 views
【ECCV 2018】Audio-Visual Scene Analysis with Self-Supervised Multisensory Feat... by cvpaper. challenge
【ECCV 2018】Audio-Visual Scene Analysis with Self-Supervised Multisensory Feat...
cvpaper. challenge
•
528 views
小松★企業内研修における動画教材活用例★ラボイベント<学習スタイルコーディネート> by デジタル・ナレッジ はが弘明
小松★企業内研修における動画教材活用例★ラボイベント<学習スタイルコーディネート>
デジタル・ナレッジ はが弘明
•
754 views
大規模発話ログデータを活用した音声対話処理 by Yahoo!デベロッパーネットワーク
大規模発話ログデータを活用した音声対話処理
Yahoo!デベロッパーネットワーク
•
4.1K views
Interspeech2022 参加報告 by Yuki Saito
Interspeech2022 参加報告
Yuki Saito
•
657 views
なぜ標準化技術は使われないか by Takuya Nishimoto
なぜ標準化技術は使われないか
Takuya Nishimoto
•
303 views
なぜ標準化技術は使われないか by guest797b90
なぜ標準化技術は使われないか
guest797b90
•
311 views
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ... by Deep Learning JP
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
•
3.1K views
音情報処理における特徴表現 by NU_I_TODALAB
音情報処理における特徴表現
NU_I_TODALAB
•
6.2K views
More from Ryohei Suzuki
Transformer based approaches for visual representation learning by
Transformer based approaches for visual representation learning
Ryohei Suzuki
322 views
•
36 slides
Paper memo: persistent homology on biological problems by
Paper memo: persistent homology on biological problems
Ryohei Suzuki
317 views
•
16 slides
Paper memo: Optimal-Transport Analysis of Single-Cell Gene Expression Identif... by
Paper memo: Optimal-Transport Analysis of Single-Cell Gene Expression Identif...
Ryohei Suzuki
1.2K views
•
22 slides
Basic Concepts of Entanglement Measures by
Basic Concepts of Entanglement Measures
Ryohei Suzuki
1.5K views
•
18 slides
Disentangled Representation Learning of Deep Generative Models by
Disentangled Representation Learning of Deep Generative Models
Ryohei Suzuki
1.3K views
•
24 slides
論文紹介: "MolGAN: An implicit generative model for small molecular graphs" by
論文紹介: "MolGAN: An implicit generative model for small molecular graphs"
Ryohei Suzuki
2.8K views
•
29 slides
More from Ryohei Suzuki
(20)
Transformer based approaches for visual representation learning by Ryohei Suzuki
Transformer based approaches for visual representation learning
Ryohei Suzuki
•
322 views
Paper memo: persistent homology on biological problems by Ryohei Suzuki
Paper memo: persistent homology on biological problems
Ryohei Suzuki
•
317 views
Paper memo: Optimal-Transport Analysis of Single-Cell Gene Expression Identif... by Ryohei Suzuki
Paper memo: Optimal-Transport Analysis of Single-Cell Gene Expression Identif...
Ryohei Suzuki
•
1.2K views
Basic Concepts of Entanglement Measures by Ryohei Suzuki
Basic Concepts of Entanglement Measures
Ryohei Suzuki
•
1.5K views
Disentangled Representation Learning of Deep Generative Models by Ryohei Suzuki
Disentangled Representation Learning of Deep Generative Models
Ryohei Suzuki
•
1.3K views
論文紹介: "MolGAN: An implicit generative model for small molecular graphs" by Ryohei Suzuki
論文紹介: "MolGAN: An implicit generative model for small molecular graphs"
Ryohei Suzuki
•
2.8K views
Report: "MolGAN: An implicit generative model for small molecular graphs" by Ryohei Suzuki
Report: "MolGAN: An implicit generative model for small molecular graphs"
Ryohei Suzuki
•
1.3K views
等号と不等号の物理学 by Ryohei Suzuki
等号と不等号の物理学
Ryohei Suzuki
•
1.1K views
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen... by Ryohei Suzuki
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
Ryohei Suzuki
•
871 views
コンピュータは知恵熱を出すか? by Ryohei Suzuki
コンピュータは知恵熱を出すか?
Ryohei Suzuki
•
950 views
身体の中の小宇宙:免疫研究の最前線 by Ryohei Suzuki
身体の中の小宇宙:免疫研究の最前線
Ryohei Suzuki
•
1.2K views
Single-cell pseudo-temporal ordering 近年の技術動向 by Ryohei Suzuki
Single-cell pseudo-temporal ordering 近年の技術動向
Ryohei Suzuki
•
5.3K views
Collaborative 3D Modeling by the Crowd by Ryohei Suzuki
Collaborative 3D Modeling by the Crowd
Ryohei Suzuki
•
3.6K views
アナログとはなんだろう。―古くて新しい、もう一つの計算― by Ryohei Suzuki
アナログとはなんだろう。―古くて新しい、もう一つの計算―
Ryohei Suzuki
•
1.6K views
立体音響とインタラクション by Ryohei Suzuki
立体音響とインタラクション
Ryohei Suzuki
•
3.7K views
SIGGRAPH 2014 Preview -"Shape Collection" Session by Ryohei Suzuki
SIGGRAPH 2014 Preview -"Shape Collection" Session
Ryohei Suzuki
•
979 views
Overview of User Interfaces by Ryohei Suzuki
Overview of User Interfaces
Ryohei Suzuki
•
2.8K views
Brief Introduction to Recent Spatial Interfaces by Ryohei Suzuki
Brief Introduction to Recent Spatial Interfaces
Ryohei Suzuki
•
2.2K views
Generalization of the Concept of Pattern Language by Ryohei Suzuki
Generalization of the Concept of Pattern Language
Ryohei Suzuki
•
722 views
iii_SGMI #5 "OOP & Design Patterns" by Ryohei Suzuki
iii_SGMI #5 "OOP & Design Patterns"
Ryohei Suzuki
•
698 views
Recently uploaded
01Booster Studio ご紹介資料 by
01Booster Studio ご紹介資料
ssusere7a2172
220 views
•
19 slides
JJUG CCC.pptx by
JJUG CCC.pptx
Kanta Sasaki
6 views
•
14 slides
概念モデリングワークショップ 基礎編 by
概念モデリングワークショップ 基礎編
Knowledge & Experience
19 views
•
71 slides
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 by
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
Knowledge & Experience
8 views
•
34 slides
概念モデリングワークショップ 設計編 by
概念モデリングワークショップ 設計編
Knowledge & Experience
10 views
•
37 slides
さくらのひやおろし2023 by
さくらのひやおろし2023
法林浩之
83 views
•
58 slides
Recently uploaded
(8)
01Booster Studio ご紹介資料 by ssusere7a2172
01Booster Studio ご紹介資料
ssusere7a2172
•
220 views
JJUG CCC.pptx by Kanta Sasaki
JJUG CCC.pptx
Kanta Sasaki
•
6 views
概念モデリングワークショップ 基礎編 by Knowledge & Experience
概念モデリングワークショップ 基礎編
Knowledge & Experience
•
19 views
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 by Knowledge & Experience
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
Knowledge & Experience
•
8 views
概念モデリングワークショップ 設計編 by Knowledge & Experience
概念モデリングワークショップ 設計編
Knowledge & Experience
•
10 views
さくらのひやおろし2023 by 法林浩之
さくらのひやおろし2023
法林浩之
•
83 views
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
NTT DATA Technology & Innovation
•
217 views
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
NTT DATA Technology & Innovation
•
185 views
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
1.
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
鈴木良平 坂本大介 五十嵐健夫 東京大学大学院情報理工学系研究科 1
2.
高性能カメラの普及映像共有文化の発達 映像制作の大衆化 さまざまな人々が、さまざまな目的で
映像コンテンツを作っている 2
3.
問題 魅力的な映像の編集は依然として難しい なぜか?
3 1. オーサリングソフトの習熟コストの高さ 2. 映像の文脈的内容を反映した編集は手間が掛かる …エフェクト追加、カット、キャプションなど 少しでも自動化できないか?
4.
本研究の目的 ■ ビデオ撮影時に映像に意味情報を注釈し
■ 注釈情報を用いて映像編集を支援する ワークフローと基礎技術の提案 (対象:実写映像) 4
5.
AnnoToneの基本アイデア ■ 注釈情報を不可聴な高周波音に変調
■ 撮影中、カメラのマイクから重畳録音 利点 • ほぼあらゆるビデオカメラで利用できる • 映像データそのものに情報を格納できる • 不要時には簡単なフィルタ処理で除去できる 5
6.
Workflow AnnoToneを用いた 映像編集のワークフロー
6
7.
1. 機材のセットアップ ■
ビデオカメラにスマートフォンを固定 ■ スマートフォン上でAnnoToneアプリを起動 スマートフォンの取り付けアプリの起動 7
8.
2. 映像の撮影 ■
撮影中、スマートフォンがユーザー入力や センサデータを取得、ビデオカメラに吹き込む ユーザー入力 センサデータ 撮影シーン 音声透かし信号 8
9.
注釈済み映像の編集 ■ 注釈付き音声から注釈情報を抽出、編集に利用
■ 編集完了後、透かし除去器により注釈シグナルを除去 9
10.
Applications AnnoToneの利用例 10
11.
撮影時映像編集 • 映像撮影中に演技の良し悪しのヒントを記録
• 成功した部分だけを自動的に抽出し、結合 収録時の様子 Good! Bad! Good! 成功失敗成功 成功成功 自動結合結果 (時間) 11
12.
位置情報を用いた映像編集 • 移動撮影中のカメラのGPS座標系列を編集に利用
地図上のスケッチによる 対応映像の切り出し 地図画像の重畳 12
13.
グラフィックの自動合成 • チェス試合撮影時に棋譜をタッチパネルで記録
• 棋譜から試合状況のグラフィックを自動合成 棋譜記録用UI グラフィックが合成された映像13
14.
AfterEffectsとの統合 • AnnoToneプラグインが注釈情報を抽出
• エフェクトやアニメーションの生成に利用可能 ⇒ 既存の映像制作ノウハウの有効活用 14
15.
Related work 関連研究
15
16.
ContextCam [Patel &
Abowd, 2004] ■ 撮影時に位置・場面等の注釈を記録し、映像管理に活用 ■ 注釈情報は映像の各フレームに画像透かしとして埋込み 既存のビデオカメラと組み合わせることは出来ない 16
17.
Cryptone [Hirabayashi &
Shimizu, 2012] ■ 高周波音を用いた、ライブ会場でのインタラクション ■ ラウドスピーカーと観客手持ちスマートフォンとの連携 本研究では編集支援のために同様の音声透かし技術を利用 17 01001 11010
18.
Methods 注釈埋め込みの手法 18
19.
高可聴域を用いた音声透かし 音声透かし(Bender
et al., 1996) • 人間には分からない形で音声信号に情報を埋め込む • 多くの手法はオフラインな埋め込み 高可聴域への情報コーディング Frequency (Hz) 22k 20k 18k 20 高可聴域 (ほぼ不可聴) 情報埋め込み可能 +信号除去が容易 19 音声データ 記録域 ヒト 可聴域
20.
DTMFベースの埋め込みプロトコル Dual-Tone
Multi-Frequency (DTMF) • 7周波数のうち2正弦波の重ねあわせで4bitを表現 USC [Hirabayashi&Shimizu, 2012] を拡張 • 可変長のパケットを表現するプロトコルを開発 • シグナルあたり10msで、400bpsのグロスレート 音声透かし信号のスペクトログラム20
21.
Evaluations 性能評価 21
22.
音声透かしの信頼性 ■ 埋め込んだ音声透かしの抽出成功率
– 様々な音響条件(静音・街中・音楽再生)で試験 – いずれの条件でも95%以上の成功率を検証 ■ 音声圧縮に対する透かしの保存率 – Ogg Vorbis, AC-3, AACでは中音質以上で損失なし – MP3では高音質でも半数以上損失(∵コーデック特性) ※ デコード速度(Java実装) – 約11倍速(2GHz Intel Core i7, 8GB RAM) 22
23.
音声透かしの不可聴性 ■ 注釈済み音源からの検知が可能か実験(6人)
• 透かしは完全に不可聴ではない(個人差・年齢依存) • 透かし除去器の適用後はほぼ完全に不可聴となった 100 80 60 40 20 0 silent public rock electronic Noticed Watermark Rate (%) Before Erasure After Erasure 23
24.
Quiz 1 Q.
どちらが透かし入り? 24 A B
25.
Quiz 2 Q.
どちらが透かし(フィルタ済み)入り? 25 A B
26.
Conclusions まとめ 26
27.
研究の目的 • 映像編集を支援するための注釈手法の開発
• 注釈付ビデオを編集するワークフローの提案 アプローチ • 注釈情報を音声透かし信号として重畳録音 • カメラに取り付けたスマートフォンからの吹込み • 編集ソフト用ライブラリやAEプラグインの開発 27
28.
利点 • 特殊な機材が不要
• ファイル形式に非依存 • 映像との同期性に優れる ⇒ 映像制作プロセスへの導入が容易 制約 • 目的ごとのアプリ開発必要性(AnnoToneはToolkit) • 透かし除去時の音質低下 28
29.
29
30.
注)スマートフォン記録に対する比較 ※スマホ撮影時には直接メタデータを書き出せる –
e.g., Adobe XMP • ビデオカメラ自体の性能差 – 画質、機能面など • 外部ファイルとの対応付けが不要 – 編集ソフトを選ばない – 切り出し処理などで時間対応が崩れない 30
Editor's Notes
Situation: ビデオ撮影やコンテンツ制作の普及
何度もプレビューする必要があったり、映像をよく
カメラにスマートフォンを固定する AnnoTone用のアプリを起動する
3. 映像を撮影する 4. 撮影中、スマートフォンを操作したり、センサーを使って注釈情報を取得する 5. スマートフォンのスピーカーから注釈情報を変調した不可聴音が発生、 ビデオカメラのマイクから映像データ中に情報が埋め込まれる
(ワークフローの全体図) 今回は全体的なワークフローおよび、基本技術を提案している スマホアプリ・編集アプリはライブラリを提供 従来のワークフローに組み込んで、すぐに使える ごちゃごちゃしていてわかりづらい ワークフローの順を追ってアニメーションにする 中央にわくをつける
ビデオを流す(またはデモ) ビデオ講義の撮影など、何度も撮り直しテイクを管理する手間を省く ----- 会議メモ (2014/11/25 15:23) ----- このデモをやりたい
アニメーション ->説明図
説明が長すぎる ひとことですませる
図が分からない ラウドスピーカーを使うことをちゃんと説明する、頭を入れる(絵を描く)
箱は横幅に意味があるように見えて不適切
100%という表現は誤解を招く 下側の%表記をやめる
A: default B: watermarked
制約 ・目的ごとにアプリケーションを作らなければならないこと 発表後にその場で聞こえるか試せるように(デモはできるように) ----- 会議メモ (2014/11/25 15:23) ----- デモ