Copyright©2014 NTT corp. All Rights Reserved.
CVPR2016 reading
特徴量学習とクロスモーダル転移について
Akisato Kimura <akisato@ieee.org>
_akisato
http://www.kecl.ntt.co.jp/people/kimura.akisato/
1
フルーツジュースはいかがですか?
2
フルーツジュースはいかがですか?
3
ジュースで大事なこと
材料
作り方
飲み方
4
特徴量学習も同じです
データセット
学習方法
利用目的
5
特徴量は作るものから学ぶものへ
http://www.isi.imi.i.u-
tokyo.ac.jp/~harada/pdf/cvim_slide_harada20120315.pdf
http://www.cc.gatech.edu/~hays/compvision/proj6/
6
特徴量学習とは
教師付画像データを
機械学習器に与えて
画像特徴量を
抽出する方法を得る
7
特徴量学習の目的 (1)
• 次元削減
線形判別分析 Auto-encoder bottleneck features
8
特徴量学習の目的 (1)
• 最終タスク込みの特徴量学習 (end-to-end)
[LeCun Proc. IEEE98]
9
特徴量学習の目的 (2)
• タスク実現のための中間特徴量
[Yu+ CVPR13]
http://www.cc.gatech.edu/~hays/compvision/proj6/
10
特徴量学習の問題点
教師付画像データ
(畳み込み)
ニューラネネットワーク
画像特徴量
深い学習で高い性能を出すほどの
大量の教師付データを作るには,
お金か時間が大量に必要です.
11
どうすれば良いか?
• 教師なし特徴量学習
‒ 教師付きデータを作らないで済ます
• クロスモーダル転移
‒ 別のモーダルから得られる知識を転用する
Copyright©2014 NTT corp. All Rights Reserved.
教師なし特徴量学習
• Mukuta+ “Kernel approximation via empirical orthogonal decomposition for
unsupervised feature learning”
• Pathak+ “Context encoders: Feature learning byinpainting”
• Zhang+ “Online collaborative learning for open vocabulary visual classifiers”
• Yang+ “Joint unsupervised learning of deep representation and image clusters”
13
初期の特徴量学習
教師付画像データ
画像特徴量
多変量解析
14
Kernel PCA
特徴ベクトル 𝒙𝒙 を変換する方法
𝒈𝒈 = 𝚲𝚲−1/2
𝑨𝑨⊤
𝒌𝒌
𝒌𝒌 = (𝐾𝐾 𝒙𝒙1, 𝒙𝒙 , 𝐾𝐾 𝒙𝒙2, 𝒙𝒙 , … , 𝑘𝑘(𝒙𝒙𝑛𝑛, 𝒙𝒙)), 𝑲𝑲 = 𝐾𝐾 𝒙𝒙1, 𝒙𝒙 𝑖𝑖,𝑗𝑗=1
𝑛𝑛
𝜆𝜆𝑖𝑖, 𝜶𝜶𝑖𝑖 𝑖𝑖=1
𝑛𝑛
: Sorted eigenvalues and normalized
eigenvectors of 𝑲𝑲𝑲𝑲 = 𝜆𝜆𝜶𝜶
𝜆𝜆1 ≥ 𝜆𝜆2 ≥ ⋯ ≥ 𝜆𝜆 𝑚𝑚, 𝜶𝜶𝑖𝑖, 𝛼𝛼𝑗𝑗 = 𝛿𝛿𝑖𝑖,𝑗𝑗
𝚲𝚲 = diag(𝜆𝜆1, 𝜆𝜆2, … , 𝜆𝜆 𝑚𝑚), 𝑨𝑨 = (𝜶𝜶1, 𝜶𝜶2, … , 𝜶𝜶 𝑚𝑚)
グラム行列が
大きい → 計算量大
小さい → 表現力不足
http://www.kecl.ntt.co.jp/people/kimura.akisato/titech/class.html
15
グラム行列を近似する方法
• Nystrom method
‒ 学習サンプルの乱択 + 部分グラム行列の直交展開
‒ 直交展開に大きな計算量が必要
• Random feature method [Rahini+ NIPS07]
‒ カーネル関数を以下の形で表現
‒ パラメータ 𝑤𝑤 のサンプリングによる関数近似
‒ 近似に学習サンプルを用いない → 近似誤差が不十分
16
学習サンプルを用いてカーネル関数を近似
Merserの定理
�
𝑋𝑋
𝑘𝑘 𝑥𝑥, 𝑦𝑦 𝜓𝜓𝑖𝑖 𝑥𝑥 𝑝𝑝 𝑥𝑥 𝑑𝑑𝑑𝑑 = 𝜆𝜆𝑖𝑖 𝜓𝜓𝑖𝑖(𝑥𝑥)
1. 分布 𝑝𝑝(𝑥𝑥) を学習サンプルから予測
2. 固有関数 𝜓𝜓𝑖𝑖(𝑥𝑥) を求める
3. 固有値 𝜆𝜆𝑖𝑖 が大きい固有関数だけ使う
(Mukuta and Harada)
17
最近の教師なし特徴量学習
Auto-encoder: 教師は自分
http://journal.frontiersin.org/article/10.3389/f
ncom.2015.00032/full
ここが特徴量
ここが画像
18
周辺情報から中央部分を予測する特徴量学習
(Pathak, Krahenbuhl, Donahue, Darrel and Efros)
平均値で埋める
別の欠損方法
でも良い
19
教師なし特徴量学習の別アプローチ
教師のようなものを求められさえすれば良い
[Fang+ CVPR15]
「ユーザ 𝑗𝑗 が
画像 𝑖𝑖 を見た」行列 協調フィルタリング
20
Web annotationデータからのラベル予測
(Zhang, Shang, Yang, Xu, Luan and Chua)
ラベルベクトル 𝑦𝑦𝑡𝑡 を
潜在ベクトル 𝑣𝑣𝑡𝑡 に変換(圧縮)
画像特徴ベクトル 𝑥𝑥𝑡𝑡 から
潜在ベクトル 𝑣𝑣𝑡𝑡 を予測
21
クラスタリングと特徴量学習を同時最適化
(Yang, Parikh and Batra)
教師なし画像集合
CNN特徴抽出
(教師=クラスタ)
Recurrent neural network (RNN) で全体をモデル化
クラスタを
徐々に更新
クラスタ
Copyright©2014 NTT corp. All Rights Reserved.
クロスモーダル転移
• “Cross modal distillation for supervision transfer”
• “Learning with side information through modality hallucination”
• “Image style transfer using convolutional neural networks”
• “Large scale semi-supervised object detection using visual and semantic
knowledge transfer”
• “Synthesized classifiers for zero-shot learning”
• “Semi-supervised vocabulary-informed learning”
23
クロスモーダル転移
典型例 - Zero-shot learning
• 画像のラベルを予測する分類問題で,
予測したいラベルの学習データが1つもない.
[Frome+ NIPS13]
word2vec
CNN
CNN特徴から単語ベクトルを予測 単語ベクトルが類似する単語を
予測結果として出力
24
クロスモーダル転移が流行る周辺環境
• どのモーダルでもNN特徴表現が利用可能に
• マルチモーダルNNの発達
[Silberer+ ACL14]
[Srivastava+ JMLR14]
Copyright©2014 NTT corp. All Rights Reserved.
マルチモーダル特徴量学習
• “MDL-CW: A multimodal deep learning framework with cross weights”
• “Multi-view deep network for cross-view classification”
• “Visual Word2Vec: Learning visually grounded word embeddings using abstract
scenes”
26
モーダルごとに学習して最後に統合,
という固定観念を捨てる.
(Rastegar, Baghshah, Rabiee and Shojaee)
Stacked auto-encoderでpre-training
最終層を結合して
fine tuning
27
判別分析規準のマルチモーダル特徴量学習を
全部NNで実現.
(Kan, Shan and Chen)
クラスラベル
各モーダルからの入力
判別分析基準で損失を計算
28
画像を介して単語ベクトルの
学習を精緻化
(Kottur, Vedantam, Moura and Parikh)
単語系列を入力
画像特徴量を予測
画像を介すことでparaphrasingの判定も
Copyright©2014 NTT corp. All Rights Reserved.
クロスモーダル転移
• “Cross modal distillation for supervision transfer”
• “Learning with side information through modality hallucination”
• “Synthesized classifiers for zero-shot learning”
• “Semi-supervised vocabulary-informed learning”
• “Latent embeddings for zero-shot classification”
• “Image style transfer using convolutional neural networks”
• “Learning attributes equals multi-source domain generalization”
30
大量の教師付データで学習済のドメインから,
教師付データがほぼないドメインへモデル転移.
(Gupta, Hoffman and Malik)
転移の方法はあまり詳細に書かれていない
31
Depth networkの出力を模倣する
hallucination networkの導入.
(Hoffman, Gupta and Darrell)
灰色四角:
計算する損失
テスト時にdepthがなくても,
depthを見ているのと
似た効果が得られる.
32
Semantic空間での幾何関係を維持するように,
分類器のパラメータを多次元埋め込みで構成.
(Changpinyo, Chao, Gong and Sha)
分類器のパラメータ空間Attributes もしくは word2vec 空間
実在クラス仮想クラス実在クラス
仮想クラス
33
予測対象ラベルの学習データがないかもしれない
open-vocabulary learningの実現.
(Fu and Sigal)
画像特徴 𝑥𝑥 を単語ベクトル 𝑢𝑢 に変換する 𝑊𝑊 を求めたい.
自分の属するクラスの単語ベクトルが一番近くなるように変換したい.
34
画像特徴と単語ベクトルの関係性を
複数の「観点」から学習することを目指す.
(Xian, Akata, Sharma, Nguyen, Hein and Schiele)
画像特徴 𝑥𝑥 と単語ベクトル 𝑦𝑦 とのfeasibilityが最大になるクラスに分類.
通常: Feasibilityは単一パラメータの双線形変換で記述.
本論文: 複数パラメータによる双線形変換の
混合として記述.
35
(Gatys, Ecker and Bethge)
白色雑音で駆動
Styleだけ転移したい 中身だけ転移したい
Networkは実はどっちも同じ
フィルタ応答を
そのまま使う
フィルタ応答の
相関を使う
36
Attributesを用いた分類問題を
「ドメイン汎化」 [Muandet+ ICML13] として考え直す.
(Gan, Yang, Gong)
Copyright©2014 NTT corp. All Rights Reserved.
まとめ
38
ジュースで一番大事なこと
材料
作り方
飲み方
39
特徴量学習も同じです
データセット
学習方法
利用目的
• 目的に合わせたデータセットを用いる必要がある.
• 同じ手法を用いても,異なる教師データからは異なる学習結果が出る.
• 思うように結果が出ないのは,
本当に学習がうまくいっていないからでしょうか?
• データの使い方を工夫すると,今までできなかった
ことができるようになるかもしれない.
40

CVPR2016 reading - 特徴量学習とクロスモーダル転移について