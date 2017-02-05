論文紹介 Scalable Nearest Neighbor Algorithms for High Dimensional Data [1] Keisuke Umezawa
Summary ● 最近傍探索アルゴリズムはおおまかに3種類 ○ Tree Based Algorithm ○ Hashing Based Algorithm ○ Graph Based Algorithm ● 性能が良かったのは以下の2つのア...
Agenda 1. 最近傍法の定義 2. 最近傍法のアルゴリズムの分類 3. 性能が良かったアルゴリズムを詳しく 4. 性能評価
最近傍探索の種類 ● 最近傍探索には3種類あるよ 1. nearest neighbor (NN) search 2. K-nearest neighbor (KNN) search 3. radius rearest neighbor (RN...
nearest neighbor (NN) ● 距離空間M上の点集合 P={p1, p2, ..., pn}と点q があった時、 Pに含まれるqに最も近い点を探すこと NN(q, P) = argminp∈P d(q, p)
k-nearest neighbor (KNN) ● 距離空間M上の点集合 P={p1, p2, ..., pn}と点q があった時、 Pに含まれるqに最も近い点K個を探すこと
Radius nearest neighbor (RNN) ● 距離空間M上の点集合 P={p1, p2, ..., pn}と点q があった時、 Pに含まれるqの半径r以内の点を探すこと
Agenda 1. 最近傍法の定義 2. 最近傍法のアルゴリズムの分類 3. 性能が良かったアルゴリズムを詳しく 4. 性能評価
最近傍探索アルゴリズム ● (近似)最近傍探索アルゴリズムには3種類あるよ 1. tree based algorithm a. k-d tree b. k-means tree 等 2. hashing based algorithm a. ...
k-d tree (tree based algorithm) ● 種類 ○ k-d tree ○ approximate k-d tree ○ randomized k-d tree ○ non-axis-aligned k-d tree
k-d tree (tree based algorithm) ● kd-tree ○ 最も良く知られたアルゴリズムの1つ ○ 各次元を巡回して中央値付近で分割 ● 長所 ○ 低次元ベクトルでは高性能 ● 短所 ○ 高次元になると全探索と
k-d tree (tree based algorithm) ● approximate kd-tree ○ 近似により高次元での性能を改善 ○ 誤差の指定方法が、"error bound"と"time bound"がある ● 長所 ○ k-...
k-d tree (tree based algorithm) ● randomized kd-tree ○ 乱数を用いて複数のk-d treeを生成し、並列に探索させる ● 長所 ○ 本論文で扱った中で、最も性能が高いものの1つ ● 短所 ○...
k-d tree (tree based algorithm) ● non-axis-aligned k-d tree ○ 軸と並行出ない方向に分割するk-d tree ○ PCAなどで分割方向を選択する ● 長所 ● 短所 ○ PCA等の計算...
k-means tree (tree based algorithm) ● k-means tree ○ k-meansで再帰的にクラスタリングすることでk分木を作成 ● 長所 ○ 高いprecisionが必要なときの性能が良い ● 短所 ○ ...
LSH (hash based algorithm) ● locally sensitive hashing (LSH) ○ 元の空間の距離情報を保持しながらhash(低次元化)する ○ 例：元のデータのcosine類似度で近い点をハミング距離...
k-NN graph (graph based algorithm) ● k-NN graph ○ 近傍点を繋いだgraph構造による探索 ● 長所 ○ ある論文ではrandomized k-d tree並の性能が 報告されている ● 短所 ○...
Agenda 1. 最近傍法の定義 2. 最近傍法のアルゴリズムの分類 3. 性能が良かったアルゴリズムを詳しく 4. 性能評価
性能が良かったアルゴリズムを詳しく ● 性能が良かったのは以下の2つのtree based algorithm ○ randomized k-d tree ○ priority search k-means tree (提案手法)
randomized k-d tree ● 乱数を用いて複数のk-d treeを生成し、並列に探索させる ● k-d treeとの違い ○ index時 ■ 通常：分散の最も大きい軸で分割する ■ 本手法：分散の大きい軸の上位5軸からランダムで...
randomized k-d tree ● 図を用いて直感的な説明 ○ q : クエリ, : 最近傍点 ● 左のtreeだけでは、木構造で表現すると2点が遠くなる
priority search k-means tree ● best-bin-firstアルゴリズムによりk-means treeの探索を高速化 ● index時 1. K個の領域に分割するようにk-meansを行う 2. 各領域に対して、 ...
priority search k-means tree ● search時 1. まだ探索していないクエリに最も近い領域を探す 2. クエリとその領域に含まれる全データの距離を計算し、 prioirty queueに挿入する 3. prioi...
計算量の比較 n:全データ数、d:次元数、T:k-d treeの数、 K:k-meansの分岐数、I:k-meansのIteration数 Algorithm 最近傍点の search index作成 データ追加 データ削除 randomize...
Agenda 1. 最近傍法の定義 2. 最近傍法のアルゴリズムの分類 3. 性能が良かったアルゴリズムを詳しく 4. 性能評価
Reference 1. Scalable nearest neighbor algorithms for high dimensional data (http://ieeexplore.ieee.org/stamp/stamp.jsp?ar...
EOP
Search Precision ● randomized k-d treeが最も性能が良い ● ある条件設定では、 k-means treeがrandomized k-d treeが 良いときもある
  5. 5. nearest neighbor (NN) ● 距離空間M上の点集合 P={p1, p2, ..., pn}と点q があった時、 Pに含まれるqに最も近い点を探すこと NN(q, P) = argminp∈P d(q, p)
  6. 6. k-nearest neighbor (KNN) ● 距離空間M上の点集合 P={p1, p2, ..., pn}と点q があった時、 Pに含まれるqに最も近い点K個を探すこと
  7. 7. Radius nearest neighbor (RNN) ● 距離空間M上の点集合 P={p1, p2, ..., pn}と点q があった時、 Pに含まれるqの半径r以内の点を探すこと
  9. 9. 最近傍探索アルゴリズム ● (近似)最近傍探索アルゴリズムには3種類あるよ 1. tree based algorithm a. k-d tree b. k-means tree 等 2. hashing based algorithm a. locally sensitive hashing (LSH) 等 3. graph based algorithm a. k-NN graph 等
  10. 10. 最近傍探索アルゴリズム ● (近似)最近傍探索アルゴリズムには3種類あるよ 1. tree based algorithm a. k-d tree b. k-means tree 等 2. hashing based algorithm a. locally sensitive hashing (LSH) 等 3. graph based algorithm a. k-NN graph 等
  11. 11. k-d tree (tree based algorithm) ● 種類 ○ k-d tree ○ approximate k-d tree ○ randomized k-d tree ○ non-axis-aligned k-d tree
  12. 12. k-d tree (tree based algorithm) ● kd-tree ○ 最も良く知られたアルゴリズムの1つ ○ 各次元を巡回して中央値付近で分割 ● 長所 ○ 低次元ベクトルでは高性能 ● 短所 ○ 高次元になると全探索と
  13. 13. k-d tree (tree based algorithm) ● approximate kd-tree ○ 近似により高次元での性能を改善 ○ 誤差の指定方法が、"error bound"と"time bound"がある ● 長所 ○ k-d treeより高次元での性能が高い ● 短所 ○ exactではない
  14. 14. k-d tree (tree based algorithm) ● randomized kd-tree ○ 乱数を用いて複数のk-d treeを生成し、並列に探索させる ● 長所 ○ 本論文で扱った中で、最も性能が高いものの1つ ● 短所 ○ 複数の木を作る必要がある。 ○ 確率の要素が含まれるので、同じデータでも木を作るごと
  15. 15. k-d tree (tree based algorithm) ● non-axis-aligned k-d tree ○ 軸と並行出ない方向に分割するk-d tree ○ PCAなどで分割方向を選択する ● 長所 ● 短所 ○ PCA等の計算があるため、計算速度は劣化する
  16. 16. k-means tree (tree based algorithm) ● k-means tree ○ k-meansで再帰的にクラスタリングすることでk分木を作成 ● 長所 ○ 高いprecisionが必要なときの性能が良い ● 短所 ○ index作成時に階層ごとに k-meansをするため時間がかかる
  17. 17. LSH (hash based algorithm) ● locally sensitive hashing (LSH) ○ 元の空間の距離情報を保持しながらhash(低次元化)する ○ 例：元のデータのcosine類似度で近い点をハミング距離で 近いように変換する ● 長所 ○ 数学的に性能が保証されている ○ 多くのプロジェクトで使われた実績がある ● 短所 ○ tree basedに比べて性能が悪い
  18. 18. k-NN graph (graph based algorithm) ● k-NN graph ○ 近傍点を繋いだgraph構造による探索 ● 長所 ○ ある論文ではrandomized k-d tree並の性能が 報告されている ● 短所 ○ index(graph構造)作成に時間がかかる
  20. 20. 性能が良かったアルゴリズムを詳しく ● 性能が良かったのは以下の2つのtree based algorithm ○ randomized k-d tree ○ priority search k-means tree (提案手法)
  21. 21. randomized k-d tree ● 乱数を用いて複数のk-d treeを生成し、並列に探索させる ● k-d treeとの違い ○ index時 ■ 通常：分散の最も大きい軸で分割する ■ 本手法：分散の大きい軸の上位5軸からランダムで選択 ○ search時 ■ 通常：1つの木を探索する
  22. 22. randomized k-d tree ● 図を用いて直感的な説明 ○ q : クエリ, : 最近傍点 ● 左のtreeだけでは、木構造で表現すると2点が遠くなる
  23. 23. priority search k-means tree ● best-bin-firstアルゴリズムによりk-means treeの探索を高速化 ● index時 1. K個の領域に分割するようにk-meansを行う 2. 各領域に対して、 a. データ数がK個以下の場合、 操作終了 b. データ数がK個より大きい場合、 K=2の場合
  24. 24. priority search k-means tree ● search時 1. まだ探索していないクエリに最も近い領域を探す 2. クエリとその領域に含まれる全データの距離を計算し、 prioirty queueに挿入する 3. prioirty queue内のデータ数が、 a. k以上の場合、探索終了 b. kより小さい場合、1に戻る k=3の場合、紫->青と探索
  25. 25. 計算量の比較 n:全データ数、d:次元数、T:k-d treeの数、 K:k-meansの分岐数、I:k-meansのIteration数 Algorithm 最近傍点の search index作成 データ追加 データ削除 randomized k-d tree O(log n) O(Tn log n) O(T log n) O(T log n) priority k- means tree O(d logK n) O(IdKn logK n) ？ ？
  27. 27. Search Precision ● randomized k-d treeが最も性能が良い ● 次点でk-means tree
  30. 30. Search Precision ● randomized k-d treeが最も性能が良い ● ある条件設定では、 k-means treeがrandomized k-d treeが 良いときもある

