Information-Theoretic Metric Learning
Upcoming SlideShare
Loading in...5
×
 

Information-Theoretic Metric Learning

on

  • 4,115 views

 

Statistics

Views

Total Views
4,115
Views on SlideShare
1,254
Embed Views
2,861

Actions

Likes
3
Downloads
16
Comments
0

8 Embeds 2,861

http://conditional.github.io 2840
http://localhost 10
http://cloud.feedly.com 3
http://www.feedspot.com 3
http://translate.googleusercontent.com 2
http://cache.yahoofs.jp 1
http://webcache.googleusercontent.com 1
http://digg.com 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Information-Theoretic Metric Learning Information-Theoretic Metric Learning Presentation Transcript

  • Informa(on-­‐Theore(c  Metric  Learning  Jason  V.  Davis,  Brian  Kulis,    Prateek  Jain,  Suvrit  Sra,  Inderjit  S.  Dhillon  (ICML  2007  best  paper) suzukake weekend  reading  group  #2  2013/04/20      紹介者  :  matsuda 1 13/04/20  17:42版
  • Metric  Learningとは何か [1    0    0    1] [2    0    0    1] ①同クラスの事例間は近いほうが良い  ②異クラスの事例間は遠いほうが良い ① ② ユークリッド距離 分類しやすい(・∀・) 距離空間を歪める マハラノビス距離 2
  • 別の例(Large  Margin  Nearest  Neighbor) hYp://www.cse.wustl.edu/~kilian/code/page21/page21.html より 3
  • 問題設定 •  マハラノビス距離を学習する  –  特徴量同士の距離を表す行列を学習する  –  カーネルでない事に注意(ただ,相互に関係はある(実は等価・・・))  •  カーネル  :  「データ間」の距離  •  マハラノビス  :  「特徴量間」の距離  •  何のために?  –  機械学習の前処理として組み込む  •  典型的な例  :  k-­‐NN  –  semi-­‐supervised  clustering  –  特徴選択の一般化とも言えそう  •  重み付け +  特徴量空間での回転 4 Prasanta  Chandra  Mahalanobis  1893 1972
  • 本論文のContribu(on •  Metric  Learning  を  LogDet  Divergence  の最適化問題として定式化  –  Bregman  Projec(onという手法に基づく効率的なアルゴリズムを導出  –  高速 (  O(d2)  d:次元数  ),おおむね高精度  •  カーネル学習との接続  –  実際には等価な問題であることを示す  •  拡張  (時間の都合上,ちょっと触れるだけ)  –  カーネル化  –  オンライン化  •  Regret  Boundも示している 5
  • マハラノビス距離とは x    :  データ点を表すベクトル  A  :  マハラノビス距離行列(正定値行列)  Aが単位行列であれば,ユークリッド距離と一致  1  0  0  1 2  0  0  1 2  1  1  1 6
  • 制約の表現 S    :  近いと分かっているデータ点ペアの集合  D  :  遠いと分かっているデータ点ペアの集合 これらの条件を満たすようなマハラノビス距離行列  A  を学習する 7
  • ユークリッド距離による正則化 •  Metric  Learningにおける過去の研究において  – ユークリッド距離は多くの場合,そこそこ上手くいく,ということが知られている  – ユークリッド距離からあまりかけ離れたくはない  •  そのため,単位行列(ユークリッド距離)で正則化をかけたい  •  どうやって?  A-­‐1  を共分散行列として持つ正規分布間の  KLダイバージェンスを考える この論文の  メインアイディア 8
  • ユークリッド距離による正則化 p(x;  A)  :  A-­‐1を共分散行列として持つ正規分布(平均は考えない) 単位行列 すると,解くべき最適化問題は以下のようになる 9
  • LogDet  divergenceの導入 さきほどの最適化問題は以下のように書ける 制約を満たす解が無い場合もある    => スラック変数  ξ  を導入    :  式  (4.5)   n  :  行列のサイズ 平均が等しい多変量正規分布間のKLダイバージェンス :  LogDet  Divergence xTAx  =  tr(AxxT)  で書き換えてるだけ 10
  • Bregman  Projec(onに基づく学習 •  [Kulis+,  ICML’06]によりカーネル学習で用いられた手法  •  Algorithm  1はスラック変数を考慮しているため複雑に見えるが,以下を繰り返しているだけ  1.  制約を一個ピックアップする  2.  制約を満たすように距離行列を修正する  計算量:    それぞれの射影に  O(d2),  c個の制約を一巡するのにはO(cd2)    関連研究で必要とされていた半正定値計画,  固有値分解等をとかなくて良い    収束保証はなされていないが,実験的には高速(後述) 11 制約の「方向」 更新幅
  • Bregman  Projec(on(イメージ) 制約1  d(xi,xj)  =  u 制約2  d(xi,xj)  =  l β  :制約を満たす最小の更新幅(閉じた形で求まる) 射影を繰り返すことで,すべての制約を満たすAに収束する※ 12 この図は清水さんのスライド hYp://www.r.dl.itc.u-­‐tokyo.ac.jp/study_ml/pukiwiki/index.php?schedule%2F2008-­‐07-­‐24  にインスパイアされています 制約1を満たす空間 制約2を満たす空間 ※制約が三つ以上ある場合は,すべての制約を満たす点は一般には存在しない(スラック変数の出番) ココでmin  Dld(At,At+1)を担保
  • カーネル学習との関連 X=   x1 x2 x3 x4 d次元 距離行列A ー行列K と書けば,見る方向が違うだけで問題は等価 Metric  Learning Kernel  Learning (Theorem  1:初等的に証明できる) 両者は等価な計算であるゆえ:  高次元少事例(or低次元多事例)  の場合は O(min{n,d}2)  で計算可能  [Jain+  JMLR  2012]  事例  13
  • 拡張(カーネル化/オンライン化) •  カーネル化 (Φ(・)  :  (高次元への)写像関数)  •  オンライン化  –  Algorithm  2 ( Regret  Boundも示されている  )  –  詳細は割愛  線形カーネル  (K  =  I) 学習された(距離行列のもとでの)カーネル 新たなデータ点に対するカーネルは以下の式で計算できる  (σ:  A  –  I  の要素) 14 とおけば,Algorithm1がそのまま使える
  • 実験結果(k-­‐NN) UCI  Dataset Cralify  Dataset (baseline) (baseline) ソフトウェアの自動サポートのための  データセット  Informa(on  Gainで20次元に次元削減 分類アルゴリズム:4-­‐NN  制約:      20  c2  ペア  (  c  :  クラス数  )    をランダムに選択×5  trial 15
  • 実験(速度,  クラスタリング) HMRF-­‐Kmeans  :  [Basu+  KDD’04]    Must-­‐link,  Cannnot-­‐link制約を隠れ状態として持つクラスタリング 16
  • まとめ /  感想 /  私見 •  Metric  Learningを,LogDetダイバージェンスの最適化として定式化  –  カーネル学習と等価であることを示した,拡張:カーネル化,オンライン化  •  盛りだくさんの内容!  –  カーネル学習と距離学習という,漠然と関係ありそうなものを明確に接続していて爽快  –  要素技術はカーネル学習[Kulis+  ICML’06]で使われているものの踏襲のようだ  •  私見(間違っている可能性高し!)  –  線形分離できない問題ができるようになるの?   •  → 単なる線形変換なのでならない. 適切にスケーリングされてない状況でerror  rate下げる効果はあるかも  –  前処理せずSVMにかけるのとどっちがいいの?   •  → 多くのケースでだいたい同じくらいらしい(k-­‐NNが異様に効くような状況除く)  [要出典]  –  マハラノビス距離行列A  の 非対角要素(回転)にはどんな意味があるの?   •  → どうなんでしょう・・・ カーネル行列Kの非対角要素には明らかに意味があるので,考えればわかるかも  –  そもそも今さらkNNって・・・   •  → 意外と強いっすよ.メモリに載れば+近傍探索が速ければ  –  どういう時に使う?   •  → 教師データが部分的にしか無い,学習されたMetricそのものを他の用途に使いたい状況など  –  そもそもそもそも,線形変換が意味を持つ状況が思いつかない・・・  •  → 分類器が非線形な場合(k-­‐NNなど)は意味があるはず. 分類器が線形な場合は・・・誰か教えてください.  17
  • Further  Reading •  “Metric  and  Kernel  Learning  Using  a  Linear  Transforma(on”  [Jain+,    JMLR’12]  –  本研究を含んだジャーナル,あんまり読んでない  •  “Distance  Metric  Learning:  A  Comprehensive  Survey”  [Yang,  2006]  –  サーベイ論文.ちょっと古いけど,基本的な考え方は分かりそう  •  “Learning  Low-­‐Rank  Kernel  Matrices”[Kulis+,  ICML’06]  –  同チームによるカーネル学習の論文,基本的なアイディアは同じ  –  IBM井出さんによる分かりやすい解説スライドあり  •  日本語で読めるもの  –  清水さんのスライド  –  イントロ的なところは首都大小町先生による解説もあり  –  “計量学習を用いた画像検索エンジンとアニメ顔類似検索v3について”  •  かっこいい!  •  自然言語処理への応用例  –  類義語獲得  [Shimizu+,  Coling’08]  –  Sen(ment  Analysis  における Domain  Adapta(on  [Dhillton+,  Coling’12]  –  語義曖昧性解消  [Sasaki  and  Shinnou,  SEMAPRO’12][佐々木,新納,  NLP’11] 18