More Related Content
Similar to AnnoTone: 高周波音の映像収録時埋め込みによる編集支援 (20)
More from Ryohei Suzuki (20)
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
- 7. 1. 機材のセットアップ
■ ビデオカメラにスマートフォンを固定
■ スマートフォン上でAnnoToneアプリを起動
スマートフォンの取り付けアプリの起動
7
- 8. 2. 映像の撮影
■ 撮影中、スマートフォンがユーザー入力や
センサデータを取得、ビデオカメラに吹き込む
ユーザー入力
センサデータ
撮影シーン
音声透かし信号
8
- 16. ContextCam
[Patel & Abowd, 2004]
■ 撮影時に位置・場面等の注釈を記録し、映像管理に活用
■ 注釈情報は映像の各フレームに画像透かしとして埋込み
既存のビデオカメラと組み合わせることは出来ない
16
- 17. Cryptone
[Hirabayashi & Shimizu, 2012]
■ 高周波音を用いた、ライブ会場でのインタラクション
■ ラウドスピーカーと観客手持ちスマートフォンとの連携
本研究では編集支援のために同様の音声透かし技術を利用
17
01001
11010
- 19. 高可聴域を用いた音声透かし
音声透かし(Bender et al., 1996)
• 人間には分からない形で音声信号に情報を埋め込む
• 多くの手法はオフラインな埋め込み
高可聴域への情報コーディング
Frequency (Hz)
22k
20k
18k
20
高可聴域
(ほぼ不可聴)
情報埋め込み可能
+信号除去が容易
19
音声データ
記録域
ヒト
可聴域
- 20. DTMFベースの埋め込みプロトコル
Dual-Tone Multi-Frequency (DTMF)
• 7周波数のうち2正弦波の重ねあわせで4bitを表現
USC [Hirabayashi&Shimizu, 2012] を拡張
• 可変長のパケットを表現するプロトコルを開発
• シグナルあたり10msで、400bpsのグロスレート
音声透かし信号のスペクトログラム20
- 22. 音声透かしの信頼性
■ 埋め込んだ音声透かしの抽出成功率
– 様々な音響条件(静音・街中・音楽再生)で試験
– いずれの条件でも95%以上の成功率を検証
■ 音声圧縮に対する透かしの保存率
– Ogg Vorbis, AC-3, AACでは中音質以上で損失なし
– MP3では高音質でも半数以上損失(∵コーデック特性)
※ デコード速度(Java実装)
– 約11倍速(2GHz Intel Core i7, 8GB RAM)
22
- 23. 音声透かしの不可聴性
■ 注釈済み音源からの検知が可能か実験(6人)
• 透かしは完全に不可聴ではない(個人差・年齢依存)
• 透かし除去器の適用後はほぼ完全に不可聴となった
100
80
60
40
20
0
silent public rock electronic
Noticed Watermark Rate (%)
Before Erasure
After Erasure
23
- 27. 研究の目的
• 映像編集を支援するための注釈手法の開発
• 注釈付ビデオを編集するワークフローの提案
アプローチ
• 注釈情報を音声透かし信号として重畳録音
• カメラに取り付けたスマートフォンからの吹込み
• 編集ソフト用ライブラリやAEプラグインの開発
27
- 28. 利点
• 特殊な機材が不要
• ファイル形式に非依存
• 映像との同期性に優れる
⇒ 映像制作プロセスへの導入が容易
制約
• 目的ごとのアプリ開発必要性(AnnoToneはToolkit)
• 透かし除去時の音質低下
28
Editor's Notes
- Situation:
ビデオ撮影やコンテンツ制作の普及
- 何度もプレビューする必要があったり、映像をよく
- カメラにスマートフォンを固定する
AnnoTone用のアプリを起動する
- 3. 映像を撮影する
4. 撮影中、スマートフォンを操作したり、センサーを使って注釈情報を取得する
5. スマートフォンのスピーカーから注釈情報を変調した不可聴音が発生、
ビデオカメラのマイクから映像データ中に情報が埋め込まれる
- (ワークフローの全体図)
今回は全体的なワークフローおよび、基本技術を提案している
スマホアプリ・編集アプリはライブラリを提供
従来のワークフローに組み込んで、すぐに使える
ごちゃごちゃしていてわかりづらい
ワークフローの順を追ってアニメーションにする
中央にわくをつける
- ビデオを流す(またはデモ)
ビデオ講義の撮影など、何度も撮り直しテイクを管理する手間を省く
----- 会議メモ (2014/11/25 15:23) -----
このデモをやりたい
- アニメーション ->説明図
- 説明が長すぎる
ひとことですませる
- 図が分からない
ラウドスピーカーを使うことをちゃんと説明する、頭を入れる(絵を描く)
- 箱は横幅に意味があるように見えて不適切
- 100%という表現は誤解を招く
下側の%表記をやめる
- A: default
B: watermarked
- 制約
・目的ごとにアプリケーションを作らなければならないこと
発表後にその場で聞こえるか試せるように(デモはできるように)
----- 会議メモ (2014/11/25 15:23) -----
デモ