論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

論文紹介
Ambient Sound Provides Supervision for
Visual Learning
2016/12/3 @CV勉強会
酒井　俊樹

自己紹介
名前：酒井　俊樹
所属：NTTドコモサービスイノベーション部
仕事：画像認識API/サービスの研究開発
● 局所特徴量を用いた画像認識
https://www.nttdocomo.co.jp/binary/pdf/corporate/technology/rd/technical_journal/bn/vol23_1/vol23_1_004jp.pdf
● Deep Learningを用いた画像認識
https://www.nttdocomo.co.jp/binary/pdf/corporate/technology/rd/technical_journal/bn/vol24_1/vol24_1_007jp.pdf
● 画像認識API
https://dev.smt.docomo.ne.jp
本発表は個人で行うものであり、所属組織とは関係ありません。 2

論文概要
Ambient Sound Provides Supervision for Visual Learning
● 著者：Andrew Owens et al.(MIT)
概要
● 画像データを収集する際の”教師ラベル作成”の手間を軽減したい
● 動画データに付いている音声情報を教師信号の代わりに利用
○ 画像中のオブジェクトやシーンに反応するようなニューロンが学習された
○ 他の教師なし学習手法と同程度もしくは上の Performanceの学習が可能に
3

画像認識におけるDeep Learning
● Deep Learning
○ 2012年以降、画像認識分野で用いられる機械学習技術
○ 画像＋教師ラベルを入力として画像分類、回帰、物体検出などのタスクを学習
○ 学習データから、タスク遂行のための特徴量抽出もデータから学習
○ ☹学習に多量のデータが必要
● Deep Learningベースの画像特徴量
○ 学習したDeep Learningのネットワークの中間層の活性を画像特徴量として用いる事ができる
(http://deeplearning.net/tutorial/lenet.htmlより)
(A tutorial on deep learning at icml 2013より)
4

Unsupervised Learning Methods
● 人手による教師データは、有用だが高コスト
→教師なし学習の手法が検討されてきた
○ 教師データがなくても、 Deep Learningネットワーク内部の「特徴量」は学習できる
● Self Supervision/ natural supervision
○ 自然に得られる/付随して得られる信号を教師データとして、予測問題を学習し、
画像特徴量を得る
○ 例1)egomotion[1]
■ スマホのジャイロセンサー等で記録できる
カメラ自身の動きを、連続して撮影した
2枚の画像から予測
5

Unsupervised Learning Methods
● 例2)Patch base[4]
○ 画像から切り取ったパッチ間の
位置関係を予測する
6
● 例3)Tracking[35]
○ 教師なしのトラッキング手法でビデオ内の
オブジェクトをトラッキング
○ 同じビデオ内のブジェクトと、
他のビデオから得られたオブジェクト
前者の方が距離が近くなるようにCNNを学習

本論文のアイディア
● 音声情報をnatural supervisionの教師データとして用いる
○ 画像が撮影された際の音声は、画像に関連する情報を持っている
■ 車の騒音→車がいることがわかる
■ 話し声→人がいっぱいいる場所 /カフェ
○ 画像から音声を予測する学習器は、内部的に
オブジェクトやシーンを構成する要素を学習していると考えられる
○ 画像のTransformationに対して、音声信号は独立している
■ 照明条件の変化や、カメラの角度などに影響を受けない
音声情報はYouTubeのビデオ等、動画データを集めれば、
自然に付いているもの
人の話し声
→人がいる
波の音/風の音
→海沿いの外
7

目標
● 以下を示す
○ 画像を入力として音声信号の予測タスクで得られた
特徴量が、物体/シーンの認識に有用であること
○ 学習された特徴量が、特に画像中の物体に
特異的に反応すること
■ シーン認識の学習をした networkのニューロンが、
object detectorになっていることを
先行研究が示している
8
特徴量として
用いる

音声x画像(動画)の先行研究
● 動画から、直接音声を予測する先行研究[30]
○ ドラムスティックで叩いている映像から、叩く音を予測する
○ これは、視覚的に予測できる音だけを予測することに特化している
○ https://youtu.be/JpZUZ9ZDECE
○
● 音源の定位
● 画像と音声の同期
9

音声信号を利用する上での課題
● 視覚情報と音声情報はルーズにしか関係してない
○ 画像上に写っていないものが音源の可能性がある
○ 画像と音声のタイミングを取ることが難しい
(音声信号のサンプルをhttp://www.ykw.elec.keio.ac.jp/suuri.htmlより)
?
10

音声信号の特徴量化
● Sound Textureを利用(McDermott and Simoncelli, 2011)
○ 数秒間の音声の要約情報 (今回は3.75sec)
11
３つの特徴量

1. バンドパスフィルタにかける
○ バンドパスフィルタ
■ 特定の周波数帯の信号だけを取り出す filter
○ 周波数帯の異なる32個のバンドパスフィルタを利用
○ ヒトの蝸牛管の受容体のレスポンスを模す
(https://ja.wikipedia.org/wiki/耳より)
12
(http://anasynth.ircam.fr/home/system/files/attachment_uploads/lagrange/private/mcdermott
Casa11.pdfより)
バンドパスフィルタ

● Cochleagramが得られる
13

2. 各フィルタの包絡線(envelope)を求める
○ 特定の周波数帯の信号だけを取り出す filter
○ 振幅変調の逆を行うイメージ
○ ヒルベルト変換で求める
14(https://ja.wikipedia.org/wiki/振幅変調より)
振
幅
変
調
(http://anasynth.ircam.fr/home/system/files/attachment_uploads/lagrange/privat
e/mcdermottCasa11.pdfより)

15

3. 以下の4つの特徴量を求め、結合
a. 各周波数チャネルのenvelopeごとに
もう一度バンドパスフィルタ
(modulation filter)をかける
○ 包絡線の変調の周波数成分を取り出す
○ modulation filterは0.5to200Hzの間で
10個(logスケール上で均等な幅に )
○ envelope数 x modulation filter数の出力
○ それぞれ二乗平均を取る
(modulation power)
16

3. 以下の4つの特徴量を求め、結合
b. 各周波数チャネルのenvelopeごとに平均と分散を計算
・marginal moment
・各周波数成分の強度と変化の大きさ
c. 各周波数チャネルごとにピアソンの相関係数を求める
・各周波数成分間の相関
d. 各envelopeの強度のmedianを取る→normを取る
17

画像から音声を予測する
● 入力は「動画」ではなく「画像」
○ 学習した特徴量を、「画像」認識タスクに転用することを目指して
● 音声特徴量そのものを予測するのではなく、分類課題として学習
○ 既存のオブジェクト分類やシーン分類のモデルと比較するため
18
● clustering audio features
○ 音声情報でクラスタリング
→クラスタの番号を予測する分類
● Binary coding model
○ 各sound特徴量を30の主成分に分解
○ 主成分の値を、binary codeに変換
○ 複数のカテゴリに属しているような状
態
(https://ja.wikipedia.org
/wiki/主成分分析より)

実験
● 学習データ
○ 360,000 video from flickr dataset
○ 各ビデオから10frameずつ取り出す→1.8M traing images
● Deep Learningのネットワーク
○ Caffenet (AlexNetの変形)
○ mini batch: 256
○ 320,000 iter
19

結果：conv層のニューロンの可視化
● conv5層の出力を元に、receptive fieldを可視化
○ receptive field: 各ニューロンが画像上のどこに反応しているか
20

● conv5 layerの出力を元に、receptive fieldを可視化
○ receptive field: 各ニューロンが画像上のどこに反応しているか
○ 利用した手法: synthetic visualization
■ 200,000枚の画像をテストセットして利用
■ 各neuronが最も反応する画像を 60枚ずつ抽出
■ 60枚中60%について、同じobjectに反応していたら、object detectorとする
○ 提案手法では91/256がobject detectorだった
23

● 各ニューロンが反応したオブジェクの名前をsun databaseを元につけてみる
24
シーンを認識する教師あり
学習のタスクの方が、
detectorは多く学習された
他の教師なし学習手法
よりはdetectorが多く
学習された
*は特異的な音を出す
オブジェクト

● 実際にオブジェクトに関連する音声が入っている事を確認
○ 各object detectorについて、
■ ニューロンが反応する動画、 30clipを視聴
■ そのニューロンがselectiveなオブジェクトの音がしているかを調べた
25

結果：学習した特徴量の利用
● 物体認識
○ データ:PASCAL VOC
○ CNNのpool5, fc6, fc7を特徴量として利用
○ global max poolingも実施
(全conv layerについて、画像上の位置の同じ
ニューロンをmax poolingした特徴量)
○ 特徴量をLinear SVMにかけて予測
26
● シーン認識
○ データ:SUN397
○ Soundのmodel間の差異は縮小
・教師あり>教師なし
・(Sound)binary > cluster > spect
※spectは、画像撮影時の音声
スペクトラムを直接学習した場合
→特徴量化の効果が示せた
・(教師なし)sound>他の手法

結果：学習した特徴量の利用
● Fast R-CNNの事前学習に使ってみた
○ 教師ありの手法が最も良かった
○ 教師なし学習の中では
■ Tracking(Motion)とは同程度の精度
■ Patch baseが最も良かった
● 音声ベースのクラスタと画像ベースのクラスタ、教師データとして
優れているのはどちらか(p.25の図中Texton-CNN)
○ visual texton histogramsを使ってクラスタリング
○ 音声ベースの方がシーン認識精度、オブジェクト認識精度が上
■ 画像ベースのtextonではlow lavelなlabelingしか学習できない？
■ 音声を使うと、visual transformationに関係ない教師信号になる
28

まとめと所感
● 画像と音声信号を元に、CNNを学習する方法を提案
● 動画データであれば、音声信号は多くの場合付いているという点で、
利用できる場面が多い
● やはり教師あり学習で行った特徴量表現とは差がある
29

論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (17)

Similar to 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

Similar to 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会) (20)

論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)