SlideShare a Scribd company logo
1 of 29
A Near-linear Time Approximation
 for Angle-based Outlier Detection
in High-dimensional Data [KDD’12]




             by N. Pham & R. Pagh Univ. of Copenhagen

             発表者:数理情報学専攻 修士2年 山田直敬
                                                 1
発表の流れ
1. Outlier Detection in High-dimensional data
   - 高次元では次元の呪いによる性能悪化が発生する

2. Angle-based Outlier Detection (ABOD)
    - 距離や密度による手法よりも高次元でロバストな手法

3. A Near Linear Time Approximation for ABOD
    - ABODの計算量は O(dn3). 近似でこれを大幅に高速化
                             本論文のcontribution


                                                2
1.
Outlier Detection
in High dimensional data

                           3
次元の呪い
  図:次元数増加に伴う距離の同質化 [2]




                         次元数: 順に
                         2, 4,
                         20, 50
                         横軸 : マハラノビス距離の値
                         縦軸:観測頻度




・高次元化が進むと,距離の近接性が意味を成さなくなる.
・実際              となる. [1]

・データは非常にスパース. ほとんどの点が外れ値になる.          4
高次元データに対する外れ値検出手法
    図: 外れ値検知の代表的な手法 (出典 : 第一回授業の配布資料)




 ●次元の呪いにより, 距離やk-近傍を用いる手法は性能悪化
 ●次元についてスケールしない計算を含む(凸包, LOF etc...)
→ 次元の呪い & 計算の非効率化 を回避する手法が必要
                                   5
  アプローチ:ロバストな距離関数を定義 or 射影
2.
Angle-based Outlier Detection


                                6
Angle-Based Outlier Detection
                                 by Kriegel+ ’08 [1]
  発想
   ・角度は高次元においてマハラノビス距離よりもロバスト
          e.g. コサイン類似度は文書に対しても良く用いられる.

     ・外れ値では他の二点間との角度がどれも似ている
               図: 外れ値、正常値、境界点での角度の分布




                     縦軸:
                     角度(rad)

           Outlier Factorを角度の分散としてモデル化
                                                       7
出典: [3]
Angle-Based Outlier Detection(cont.)

・角度の分散をoutlier factorとしてモデル化する.
・点pにおいては




                              *
                          と書ける.
・一点のABODを求めるためにnC2 回角度を評価している.



・ABOD値が小さければ外れ値として検出する.
                                       8
ABOD vs. LOF (Local Outlier Factor)
  ・人工データによる実験. 5つの混合ガウス+10個のoutlier
  ・precision recallともにABODが上回る.




                                           9
出典: [1]
ABODの欠点
   ・全ての点でABODを求めるための計算量は O(dn3).
   ・データ数 n の増加に対してスケールしない.




                                   10
出典: [1]より見やすく編集
3.
A Near Linear Approximation for
Angle-based Outlier Detection
[main part]

                                  11
概要
• ABODの高速化.
• 角度の分散を直接計算するかわりに不偏推定
  量で評価する.
  – 不偏推定量: 期待値が真の値と一致するような統計
    量
  – 今回の設定では推定量の分散も小さいことが示さ
    れた.
• random projection, AMS sketchを利用.
• 並列化も容易. 計算量は”near linear”
  – O(tn(d + log n + s1s2))
  – t : random proj.の回数, s : sketchの回数
                                         12
Angle-based Outlier Factor
・先程同様,点p での角度を分散を外れ値のスコアに用いる.
定義 :
 Given: d 次元Euclid空間上の点集合S (|S |=n )と点p ∈S.
異なる適当な2点 a,b ∈ S {p }に対して, ベクトル a-p, b-p が
なす角を Oapb とする. このとき Oapbの分散をスコアとする.




  但し,

        mean of angle


                                      である.
                                          13
用いる手法
• Random Hyperplane Projection
  – ランダムな超平面でデータを2分割する.
  – MOA1 の不偏推定量を求める.


• AMS Sketch
  – モーメント統計量の近似を行う.
  – MOA2 を近似する


                                 14
Random Hyperplane Projection 1/2
・t 個のランダムベクトル               をとる.
・これらの各成分は独立に標準正規分布          に従う.
・それぞれの ri を法線に持つ超平面でデータを分割する.


           ri

       p




                                     15
Random Hyperplane Projection 1/2
・t 個のランダムベクトル               をとる.
・これらの各成分は独立に標準正規分布          に従う.
・それぞれの ri を法線に持つ超平面でデータを分割する.


           ri



                p




                                     16
Random Hyperplane Projection 1/2
・t 個のランダムベクトル                 をとる.
・これらの各成分は独立に標準正規分布            に従う.
・それぞれの ri を法線に持つ超平面にデータを分割する


             ri
         b

                  a
         p

                      この状況で角度を考えてみる
                                      17
Random Hyperplane Projection 2/2

・各i =1,...,t で ランダムベクトルri , 適当な二点a,b について
確率変数 Xapb(i) を次のように定義する.


                                    ri

・X が 1となるのは                    b

                かつ                       a
  a-p, b-p が超平面で分離              p
  されているとき のみ

・それが起こる確率は, 任意のi,a,b,pに対して

           =
                                             18
AMS Sketch 1/2
・高次元ベクトルとランダムビットの内積(Sketch)は
 2次のモーメント統計量を近似する性質を持つ.

・高次元ベクトル w = (               ) に対して
 各座標で独立*なランダムビットベクトル

 を取り内積を取ったもの                      を
 AMS Sketch という.

・           とすると                  .

    ここで、                 が成り立つ

                                      19
AMS Sketch 2/2
・ベクトルの外積 uv に対するSketchも次のように与えられる.

     2つのランダムビット              を用いて




     とする. すなわち, u,v のそれぞれのAMSスケッチの外積が
     外積 uv のスケッチである.


・       とすると             :フロベニウスノルム2

    このとき                     が成立.

                                    20
ABODの近似
・Random Hyperplane Projection における関係

           =                           を利用.

・                         の推定量 F1 は,




                                         超平面を
                                         跨ぐ回数

                           Lp 超平面の下(左)側の点
                                        21
                           Rp 超平面の上(右)側の点
ABODの近似
                                  ri
・|Lp||Rp| は超平面を跨ぐ回数
                              b

                                       a
                              p

・ t 回の平均をとることでより精度が高まる.




・ F1(p) はMOA1(p)の不偏推定量
・しかも分散も小さいことが示されている. (Chernoff bound)
・L,Rはsortで得る. F1 を求める計算量はO(t n (d+log n) )   22
ABODの近似
・MOA2の不偏推定量 F2 を求める.

 詳細はフクザツなので割愛




・分散が3/4 と F1 のように小さくはない
 → 何度か繰り返して平均をとることで精度を上げる.

・任意の精度ε> 0 を高確率 1-δ で達成するためには
 s1= 32π4/ε2 , s2 = O(log(1/δ)) として
 s1s2 回 F2を計算する必要がある.

・AMSはO(n). ここの計算量は O( tn s1s2 )       23
ABODの近似 擬似コード




・計算量 O( tn(d + log n + s1s2)) 特に O( t n s1s2 )が支配的
・t =O(log n) で十分. t回のprojectionは独立.並列化可能.
・s1s2も精度次第
                  → 並列化込みでnear linearを実現 !
                                                     24
人工データによる実験

       5000
1000




              ※ABODの実験と同じ人工データ
                            25
実データによる実験




・どれも100次元程度
・緑のFastVOAが提案手法, 青, 赤がナイーブな解

・ABODでPRが良いデータでFastVOAで劣化
・ABODがダメなデータにはそこそこの性能          26
実データによる実験




・CPU timeではかなり高速化を実現している (t=100)   27
まとめ 感想

・高次元において距離ベースでの外れ値検出が困難である
 という問題へのアプローチ
・比較的ロバストなAngle-based Outlier detectionに注目
 計算量をnear linear に改善
・手法がクール ( random projection, AMS sketch)
・不偏推定量を使っている. &
 精度の保証が理論的に示されていて良い.

・実験結果 precision-recallはいまひとつ…
・必要な精度を決めるノウハウが別途必要そう(ε,δ)
etc...

                                        28
References [年代順]
1. H.P. Kriegel, M.Schubert, & A. Zimek. Angle-based
   outlier detection in high-dimensional data. In KDD
   2008.

1. H.P. Kriegel, M. Schubert, & A. Zimek. Outlier
   detection techniques. In tutorial at KDD 2010.

1. N. Pham & R. Pagh. A Near-linear Time
   Approximation Algorithm for Angle-based Outlier
   Detection in High-dimensional Data. In KDD 2012.

                                                    29

More Related Content

What's hot

論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement LearningShunta Nomura
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine IntelligenceDeep Learning JP
 
Stochastic Variational Inference
Stochastic Variational InferenceStochastic Variational Inference
Stochastic Variational InferenceKaede Hayashi
 
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...Tomoyuki Hioki
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial NetworksARISE analytics
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...Deep Learning JP
 
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...Deep Learning JP
 
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
[DL輪読会]Recent Advances in Autoencoder-Based Representation LearningDeep Learning JP
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性Shiga University, RIKEN
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論Taiji Suzuki
 
[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networksDeep Learning JP
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMMMorpho, Inc.
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシンShinya Shimizu
 
探索と活用の戦略 ベイズ最適化と多腕バンディット
探索と活用の戦略 ベイズ最適化と多腕バンディット探索と活用の戦略 ベイズ最適化と多腕バンディット
探索と活用の戦略 ベイズ最適化と多腕バンディットH Okazaki
 
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?Deep Learning JP
 
条件付き確率場の推論と学習
条件付き確率場の推論と学習条件付き確率場の推論と学習
条件付き確率場の推論と学習Masaki Saito
 
顕著性マップの推定手法
顕著性マップの推定手法顕著性マップの推定手法
顕著性マップの推定手法Takao Yamanaka
 

What's hot (20)

論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
 
Stochastic Variational Inference
Stochastic Variational InferenceStochastic Variational Inference
Stochastic Variational Inference
 
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
 
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 
探索と活用の戦略 ベイズ最適化と多腕バンディット
探索と活用の戦略 ベイズ最適化と多腕バンディット探索と活用の戦略 ベイズ最適化と多腕バンディット
探索と活用の戦略 ベイズ最適化と多腕バンディット
 
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
 
条件付き確率場の推論と学習
条件付き確率場の推論と学習条件付き確率場の推論と学習
条件付き確率場の推論と学習
 
顕著性マップの推定手法
顕著性マップの推定手法顕著性マップの推定手法
顕著性マップの推定手法
 

Similar to Angle-Based Outlier Detection周辺の論文紹介

Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Taiji Suzuki
 
CMSI計算科学技術特論A (2015) 第10回 行列計算における高速アルゴリズム1
CMSI計算科学技術特論A (2015) 第10回 行列計算における高速アルゴリズム1CMSI計算科学技術特論A (2015) 第10回 行列計算における高速アルゴリズム1
CMSI計算科学技術特論A (2015) 第10回 行列計算における高速アルゴリズム1Computational Materials Science Initiative
 
El text.tokuron a(2019).yamamoto190620
El text.tokuron a(2019).yamamoto190620El text.tokuron a(2019).yamamoto190620
El text.tokuron a(2019).yamamoto190620RCCSRENKEI
 
Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)Kohta Ishikawa
 
Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル). .
 
第三回統計学勉強会@東大駒場
第三回統計学勉強会@東大駒場第三回統計学勉強会@東大駒場
第三回統計学勉強会@東大駒場Daisuke Yoneoka
 
GPUによる多倍長整数乗算の高速化手法の提案とその評価
GPUによる多倍長整数乗算の高速化手法の提案とその評価GPUによる多倍長整数乗算の高速化手法の提案とその評価
GPUによる多倍長整数乗算の高速化手法の提案とその評価Koji Kitano
 
Demosaicing(デモザイキング)
Demosaicing(デモザイキング)Demosaicing(デモザイキング)
Demosaicing(デモザイキング)Morpho, Inc.
 
Icml yomikai 07_16
Icml yomikai 07_16Icml yomikai 07_16
Icml yomikai 07_16Yo Ehara
 
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Yohei Sato
 
双方向パストレーシングレンダラedubpt解説
双方向パストレーシングレンダラedubpt解説双方向パストレーシングレンダラedubpt解説
双方向パストレーシングレンダラedubpt解説h013
 
K030 appstat201203 2variable
K030 appstat201203 2variableK030 appstat201203 2variable
K030 appstat201203 2variablet2tarumi
 
PRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in chargePRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in chargeJunpei Matsuda
 
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】Naoki Hayashi
 
論文解説:スマホカメラを用いたBRDFパラメータ取得技術(非DNN)「Two-Shot SVBRDF Capture for Stationary Mat...
論文解説:スマホカメラを用いたBRDFパラメータ取得技術(非DNN)「Two-Shot SVBRDF Capture for Stationary Mat...論文解説:スマホカメラを用いたBRDFパラメータ取得技術(非DNN)「Two-Shot SVBRDF Capture for Stationary Mat...
論文解説:スマホカメラを用いたBRDFパラメータ取得技術(非DNN)「Two-Shot SVBRDF Capture for Stationary Mat...Teppei Kurita
 

Similar to Angle-Based Outlier Detection周辺の論文紹介 (20)

Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
 
CMSI計算科学技術特論A (2015) 第10回 行列計算における高速アルゴリズム1
CMSI計算科学技術特論A (2015) 第10回 行列計算における高速アルゴリズム1CMSI計算科学技術特論A (2015) 第10回 行列計算における高速アルゴリズム1
CMSI計算科学技術特論A (2015) 第10回 行列計算における高速アルゴリズム1
 
El text.tokuron a(2019).yamamoto190620
El text.tokuron a(2019).yamamoto190620El text.tokuron a(2019).yamamoto190620
El text.tokuron a(2019).yamamoto190620
 
Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
 
PRML4.3
PRML4.3PRML4.3
PRML4.3
 
CMSI計算科学技術特論B(8) オーダーN法1
 CMSI計算科学技術特論B(8) オーダーN法1 CMSI計算科学技術特論B(8) オーダーN法1
CMSI計算科学技術特論B(8) オーダーN法1
 
Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)
 
ロマ数16 simizut
ロマ数16 simizutロマ数16 simizut
ロマ数16 simizut
 
第三回統計学勉強会@東大駒場
第三回統計学勉強会@東大駒場第三回統計学勉強会@東大駒場
第三回統計学勉強会@東大駒場
 
GPUによる多倍長整数乗算の高速化手法の提案とその評価
GPUによる多倍長整数乗算の高速化手法の提案とその評価GPUによる多倍長整数乗算の高速化手法の提案とその評価
GPUによる多倍長整数乗算の高速化手法の提案とその評価
 
Demosaicing(デモザイキング)
Demosaicing(デモザイキング)Demosaicing(デモザイキング)
Demosaicing(デモザイキング)
 
Icml yomikai 07_16
Icml yomikai 07_16Icml yomikai 07_16
Icml yomikai 07_16
 
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門
 
双方向パストレーシングレンダラedubpt解説
双方向パストレーシングレンダラedubpt解説双方向パストレーシングレンダラedubpt解説
双方向パストレーシングレンダラedubpt解説
 
K030 appstat201203 2variable
K030 appstat201203 2variableK030 appstat201203 2variable
K030 appstat201203 2variable
 
PRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in chargePRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in charge
 
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
 
論文解説:スマホカメラを用いたBRDFパラメータ取得技術(非DNN)「Two-Shot SVBRDF Capture for Stationary Mat...
論文解説:スマホカメラを用いたBRDFパラメータ取得技術(非DNN)「Two-Shot SVBRDF Capture for Stationary Mat...論文解説:スマホカメラを用いたBRDFパラメータ取得技術(非DNN)「Two-Shot SVBRDF Capture for Stationary Mat...
論文解説:スマホカメラを用いたBRDFパラメータ取得技術(非DNN)「Two-Shot SVBRDF Capture for Stationary Mat...
 
6 Info Theory
6 Info Theory6 Info Theory
6 Info Theory
 
Icp3.2 takmin
Icp3.2 takminIcp3.2 takmin
Icp3.2 takmin
 

Recently uploaded

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 

Recently uploaded (12)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

Angle-Based Outlier Detection周辺の論文紹介

  • 1. A Near-linear Time Approximation for Angle-based Outlier Detection in High-dimensional Data [KDD’12] by N. Pham & R. Pagh Univ. of Copenhagen 発表者:数理情報学専攻 修士2年 山田直敬 1
  • 2. 発表の流れ 1. Outlier Detection in High-dimensional data - 高次元では次元の呪いによる性能悪化が発生する 2. Angle-based Outlier Detection (ABOD) - 距離や密度による手法よりも高次元でロバストな手法 3. A Near Linear Time Approximation for ABOD - ABODの計算量は O(dn3). 近似でこれを大幅に高速化 本論文のcontribution 2
  • 3. 1. Outlier Detection in High dimensional data 3
  • 4. 次元の呪い 図:次元数増加に伴う距離の同質化 [2] 次元数: 順に 2, 4, 20, 50 横軸 : マハラノビス距離の値 縦軸:観測頻度 ・高次元化が進むと,距離の近接性が意味を成さなくなる. ・実際 となる. [1] ・データは非常にスパース. ほとんどの点が外れ値になる. 4
  • 5. 高次元データに対する外れ値検出手法 図: 外れ値検知の代表的な手法 (出典 : 第一回授業の配布資料) ●次元の呪いにより, 距離やk-近傍を用いる手法は性能悪化 ●次元についてスケールしない計算を含む(凸包, LOF etc...) → 次元の呪い & 計算の非効率化 を回避する手法が必要 5 アプローチ:ロバストな距離関数を定義 or 射影
  • 7. Angle-Based Outlier Detection by Kriegel+ ’08 [1] 発想 ・角度は高次元においてマハラノビス距離よりもロバスト e.g. コサイン類似度は文書に対しても良く用いられる. ・外れ値では他の二点間との角度がどれも似ている 図: 外れ値、正常値、境界点での角度の分布 縦軸: 角度(rad) Outlier Factorを角度の分散としてモデル化 7 出典: [3]
  • 8. Angle-Based Outlier Detection(cont.) ・角度の分散をoutlier factorとしてモデル化する. ・点pにおいては * と書ける. ・一点のABODを求めるためにnC2 回角度を評価している. ・ABOD値が小さければ外れ値として検出する. 8
  • 9. ABOD vs. LOF (Local Outlier Factor) ・人工データによる実験. 5つの混合ガウス+10個のoutlier ・precision recallともにABODが上回る. 9 出典: [1]
  • 10. ABODの欠点 ・全ての点でABODを求めるための計算量は O(dn3). ・データ数 n の増加に対してスケールしない. 10 出典: [1]より見やすく編集
  • 11. 3. A Near Linear Approximation for Angle-based Outlier Detection [main part] 11
  • 12. 概要 • ABODの高速化. • 角度の分散を直接計算するかわりに不偏推定 量で評価する. – 不偏推定量: 期待値が真の値と一致するような統計 量 – 今回の設定では推定量の分散も小さいことが示さ れた. • random projection, AMS sketchを利用. • 並列化も容易. 計算量は”near linear” – O(tn(d + log n + s1s2)) – t : random proj.の回数, s : sketchの回数 12
  • 13. Angle-based Outlier Factor ・先程同様,点p での角度を分散を外れ値のスコアに用いる. 定義 : Given: d 次元Euclid空間上の点集合S (|S |=n )と点p ∈S. 異なる適当な2点 a,b ∈ S {p }に対して, ベクトル a-p, b-p が なす角を Oapb とする. このとき Oapbの分散をスコアとする. 但し, mean of angle である. 13
  • 14. 用いる手法 • Random Hyperplane Projection – ランダムな超平面でデータを2分割する. – MOA1 の不偏推定量を求める. • AMS Sketch – モーメント統計量の近似を行う. – MOA2 を近似する 14
  • 15. Random Hyperplane Projection 1/2 ・t 個のランダムベクトル をとる. ・これらの各成分は独立に標準正規分布 に従う. ・それぞれの ri を法線に持つ超平面でデータを分割する. ri p 15
  • 16. Random Hyperplane Projection 1/2 ・t 個のランダムベクトル をとる. ・これらの各成分は独立に標準正規分布 に従う. ・それぞれの ri を法線に持つ超平面でデータを分割する. ri p 16
  • 17. Random Hyperplane Projection 1/2 ・t 個のランダムベクトル をとる. ・これらの各成分は独立に標準正規分布 に従う. ・それぞれの ri を法線に持つ超平面にデータを分割する ri b a p この状況で角度を考えてみる 17
  • 18. Random Hyperplane Projection 2/2 ・各i =1,...,t で ランダムベクトルri , 適当な二点a,b について 確率変数 Xapb(i) を次のように定義する. ri ・X が 1となるのは b かつ a a-p, b-p が超平面で分離 p されているとき のみ ・それが起こる確率は, 任意のi,a,b,pに対して = 18
  • 19. AMS Sketch 1/2 ・高次元ベクトルとランダムビットの内積(Sketch)は 2次のモーメント統計量を近似する性質を持つ. ・高次元ベクトル w = ( ) に対して 各座標で独立*なランダムビットベクトル を取り内積を取ったもの を AMS Sketch という. ・ とすると . ここで、 が成り立つ 19
  • 20. AMS Sketch 2/2 ・ベクトルの外積 uv に対するSketchも次のように与えられる. 2つのランダムビット を用いて とする. すなわち, u,v のそれぞれのAMSスケッチの外積が 外積 uv のスケッチである. ・ とすると :フロベニウスノルム2 このとき が成立. 20
  • 21. ABODの近似 ・Random Hyperplane Projection における関係 = を利用. ・ の推定量 F1 は, 超平面を 跨ぐ回数 Lp 超平面の下(左)側の点 21 Rp 超平面の上(右)側の点
  • 22. ABODの近似 ri ・|Lp||Rp| は超平面を跨ぐ回数 b a p ・ t 回の平均をとることでより精度が高まる. ・ F1(p) はMOA1(p)の不偏推定量 ・しかも分散も小さいことが示されている. (Chernoff bound) ・L,Rはsortで得る. F1 を求める計算量はO(t n (d+log n) ) 22
  • 23. ABODの近似 ・MOA2の不偏推定量 F2 を求める. 詳細はフクザツなので割愛 ・分散が3/4 と F1 のように小さくはない → 何度か繰り返して平均をとることで精度を上げる. ・任意の精度ε> 0 を高確率 1-δ で達成するためには s1= 32π4/ε2 , s2 = O(log(1/δ)) として s1s2 回 F2を計算する必要がある. ・AMSはO(n). ここの計算量は O( tn s1s2 ) 23
  • 24. ABODの近似 擬似コード ・計算量 O( tn(d + log n + s1s2)) 特に O( t n s1s2 )が支配的 ・t =O(log n) で十分. t回のprojectionは独立.並列化可能. ・s1s2も精度次第 → 並列化込みでnear linearを実現 ! 24
  • 25. 人工データによる実験 5000 1000 ※ABODの実験と同じ人工データ 25
  • 28. まとめ 感想 ・高次元において距離ベースでの外れ値検出が困難である という問題へのアプローチ ・比較的ロバストなAngle-based Outlier detectionに注目 計算量をnear linear に改善 ・手法がクール ( random projection, AMS sketch) ・不偏推定量を使っている. & 精度の保証が理論的に示されていて良い. ・実験結果 precision-recallはいまひとつ… ・必要な精度を決めるノウハウが別途必要そう(ε,δ) etc... 28
  • 29. References [年代順] 1. H.P. Kriegel, M.Schubert, & A. Zimek. Angle-based outlier detection in high-dimensional data. In KDD 2008. 1. H.P. Kriegel, M. Schubert, & A. Zimek. Outlier detection techniques. In tutorial at KDD 2010. 1. N. Pham & R. Pagh. A Near-linear Time Approximation Algorithm for Angle-based Outlier Detection in High-dimensional Data. In KDD 2012. 29