SlideShare a Scribd company logo
1 of 12
Download to read offline
Session 22: Similarity Joins
担当: 白川(大阪大学)
【ICDE2014勉強会】
まずはじめに…
 Similarity Joinとはなんぞや?
 2つのデータ集合の中から類似するデータペアを全部見つけるタスク
 Self Similarity JoinとかSimilarity Self-Joinというのもあるが?
 1つのデータ集合の中から類似するデータペアを全て見つけるタスク
 やってることは似たようなもの
2 Session 22: Similarity Joins 担当:白川(大阪大学)
データ集合
A D
A H
A R
B C
B Q
類似度θ
以上のペア
Self Similarity Joinの例 ・・・
該当する
ペアを
全て列挙
Session 22: Similarity Joins の論文
DE140108.PDF
L2AP: Fast Cosine Similarity Search with Prefix
L-2 Norm Bounds
David C. Anastasiu, George Karypis
DE140143.PDF
PHiDJ: Parallel Similarity Self-Join for
High-Dimensional Vector Data with MapReduce
Sergej Fries, Brigitte Boden, Grzegorz Stepien, Thomas Seidl
DE140387.PDF
Melody-Join: Efficient Earth Mover’s Distance
Similarity Joins Using MapReduce
Jin Huang, Rui Zhang, Rajkumar Buyya, Jian Chen
3 Session 22: Similarity Joins 担当:白川(大阪大学)
研究背景とか
4 Session 22: Similarity Joins 担当:白川(大阪大学)
L2AP: Fast Cosine Similarity Search with Prefix L-2 Norm Bounds
d1 d2 d3 dm
v1 0.1 0 0.2 … 0
v2 0.2 0 0.1 … 0
v3 0 0.1 0 … 0.3
…
vn 0.3 0.1 0 … 0
{v1, v2}, {v2, vn}, …
コサイン
類似度が
θ以上
d1 → {v1, 0.1},{v2, 0.2},…,{vn, 0.3}
d2 → {v3, 0.1},…,{vn, 0.1}
d3 → {v1, 0.2},{v2, 0.1},…
…
転置索引
 超高次元かつ疎なベクトル集合を対象とし,コサイン類似度が
閾値θ以上のベクトルペアを全て見つけたい
 計算量がO(n2m2),ただしnはベクトル数,mは次元数
 よくあるやり方:転置索引を作って非零成分にのみアクセス
 ベクトルが正規化されていればdot(非零成分同士の積)で計算可能
 AllPairs [Bayardo, WWW07]
 動的索引や,見込みのないベクトルペアの早期切り捨てを行う手法
 MMJoin [Lee, DEXA10]:
切り捨てをより早期に行う拡張手法を提案
 走査中のベクトルの未走査部分を 𝑥′
として
𝑑𝑜𝑡 𝑥′, 𝑦 ≤
1
2
𝑥′ 2 +
1
2
で類似度を推測
 提案手法:L2AP*1
 コーシー=シュワルツの不等式を利用して切り捨てをさらに早期に!
 類似度の推測値 𝑑𝑜𝑡 𝑥′, 𝑦 ≤ 𝑥′ は必ず既存手法より正確
 証明: 𝑥′ − 1 2 ≥ 0 ⇒
1
2
𝑥′ 2 +
1
2
≥ 𝑥′ より,
L2APによる推測値のほうが必ずドットプロダクトの真の値に近い!
行列
提案手法
5 Session 22: Similarity Joins 担当:白川(大阪大学)
L2AP: Fast Cosine Similarity Search with Prefix L-2 Norm Bounds
(1)インデックスを動的に生成
(2)逆から走査,インデックスを用いて
類似度計算,閾値を超える見込みが
なくなったら走査を中断
各ベクトル順に(1)(2)の処理
yは正規化されているのでノルムが1
*1 ソフトウェア http://www-users.cs.umn.edu/~dragos/l2ap/
評価
 6つの実データを使って評価
nnz: 行列全体での非零成分数
mrl: 1行の平均非零成分数
mcl: 1列の平均非零成分数
 閾値 t を変えてもたいていの場合
L2APが最速!
 インデックスサイズや途中結果のデータ
サイズも減っていたので省スペース!
 BayesLSH [Satuluri, VLDB12] などの
近似手法と比べた場合でも多くの場合
L2APが勝っていた!(詳しくは論文参照)
6 Session 22: Similarity Joins 担当:白川(大阪大学)
L2AP: Fast Cosine Similarity Search with Prefix L-2 Norm Bounds
(論文より)
(論文より)
研究背景とか
 高次元なベクトル集合を対象とし,距離がε以下の
ベクトルペアを,MapReduceを使って全て見つけたい
 MR-DSJ [Seidl, BTW13]:グリッドベースの手法(同じ研究グル―プによる成果)
 d次元のベクトルをd次元のグリッドに配置,Reducerが各セルを担当
 近くのグリッドに位置するベクトル間のみ距離を計算
 緯度経度で距離計算とかなら問題ないけど,高次元だと隣接セルの数が
指数関数的に増加してしまう!
→ 通信コスト増大!
7 Session 22: Similarity Joins 担当:白川(大阪大学)
PHiDJ: Parallel Similarity Self-Join for High-Dimensional Vector Data with MapReduce
BTW:ドイツのデータベースの会議
濃い緑のセルを担当するReducerは
矢印で示したセル間を担当
2次元の場合
(論文より)
提案手法
 高次元空間をk個の次元グループに分けてMR-DSJを実行
 各次元グループでの
結果を最後に集約
 次元グループ数は次元数に
対して線形なのでだいぶマシ!
 各次元グループに対しては,よりタイトな閾値 𝜀 𝑘 = 𝜀
𝑚
𝑘 を
使うことで候補のペアを減らせる
 Q: そんなことしたら解を見逃すケース(=偽陰性)も発生するのでは?
A: ありえない,なぜなら別の次元グループの出力として得られるから
 グリッドが均等だと一部のセルにデータが偏る(MR-DSJでも問題だった)
 データが少ないところは数が均等になるよう広い範囲を担当させる
(これは本研究とは独立した問題だから詳細は省く,みたいなこと書いてて簡単な説明しかなかった…)
8 Session 22: Similarity Joins 担当:白川(大阪大学)
PHiDJ: Parallel Similarity Self-Join for High-Dimensional Vector Data with MapReduce
(論文より)
L𝑚-norm距離の場合
評価
 2次元~20次元の疑似データ&
10次元のMIRFLICKR*1データ(右図2つ)
(もっと高次元なデータでの結果が見たかった…)
 8次元ぐらいから効果が出る
 Theta-join [Okcan, SIGMOD11]より高速
(もっとも,この手法は任意のJoinが可能だが)
 MR-SimJoin [Silva, Cloud-I12]と比較(左下図)
 Flickr以外では倍ぐらい速かったが,
肝心の実データで負けるのはどうなの…
9 Session 22: Similarity Joins 担当:白川(大阪大学)
PHiDJ: Parallel Similarity Self-Join for High-Dimensional Vector Data with MapReduce
(論文より)
*1 http://press.liacs.nl/mirflickr
(論文より)(論文より)
Cloud-I 2012:VLDB 2012のワークショップ
研究背景とか
 1~3次元程度のヒストグラムの集合を対象とし,EMDがε以下
のヒストグラムペアを, MapReduceを使って全て見つけたい
 EMD (Earth Mover‘s Distance):一方のヒストグラムから他方のヒスト
グラムになるまでに要する値の総移動コスト(文字列の編集距離に似てる)
 画像検索 [Ruzon, IEEE TPAMI01],ジェスチャ認識 [Ren, ACM MM11],重複
検出 [Xu, CVPR08],確率データマイニング[Xu, VLDBJ12]など幅広い応用
10 Session 22: Similarity Joins 担当:白川(大阪大学)
Melody-Join: Efficient Earth Mover’s Distance Similarity Joins Using MapReduce
Σ(移動させる値
×属性間の距離)
ha hb
EMD(ha, hb)
=1×1+2×1=3
類似画像判別(発表スライドより)
提案手法
 ハフ空間*1に移し[Ruttenberg, VLDB12],近そうなペアのみ計算
これを3回のMapReduceジョブで並列処理させ,Similarity Join化
 1回目で各ヒストグラムをハフ空間に写像
 2回目でハフ空間の各セルについてLower
Bound(LB)に使うエラー値Cを算出
(実際の累積頻度とNormal Distributionによる回帰の誤差より算出)
 3回目で各ヒストグラムごと,各セルごとに,
A)自分の位置するセルならネイティブレコード
B)それ以外のセルでかつLBがε以下ならゲストレコード
として,ヒストグラムとセルの組をMap
 3回目のReducerが各セルを担当,ネイティブ→ネイティブ,ゲストのEMD計算
11 Session 22: Similarity Joins 担当:白川(大阪大学)
Melody-Join: Efficient Earth Mover’s Distance Similarity Joins Using MapReduce
処理の流れ(論文より)
いや説明全然分からないんだけど
とにかく,画像処理とかでよく使われるハフ空間に移すことでEMDが近そうなペア
を効率的に見つけられるので,それをMapReduceに対応させた,という感じです
*1 長さrと角度θの組の集合で表現された空間
http://ja.wikipedia.org/wiki/%E3%83%8F%E3%83%95%E5%A4%89%E6%8F%9B
ここまでの処理で近そうなペアとして残った
評価
 5つの実データセットで評価
COREL*1:Color (CC), Layout (CL)
MIRFLICKR:Vertical (MV), Horizontal (MH), Slash (MS)
(このスライドではMVの結果のみ表示)
 MR-SimJoin [Silva, SIGMOD12, Demo]と比較
 画像の数(cardinality)やEMDの閾値を変えても提案手法が常勝
12 Session 22: Similarity Joins 担当:白川(大阪大学)
Melody-Join: Efficient Earth Mover’s Distance Similarity Joins Using MapReduce
*1 http://archive.ics.uci.edu/ml/datasets/Corel+Image+Features
1つ前の論文に出てきた[Silva, Cloud-I12]と同じ手法
(論文より)(論文より)
写像関数:3種類
グリッド:4×4セル
Hadoopインスタンス:48
その他セッティング

More Related Content

Similar to ICDE2014 Session 22 Similarity Joins

A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...Ace12358
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
CMSI計算科学技術特論A(8) 高速化チューニングとその関連技術1
CMSI計算科学技術特論A(8) 高速化チューニングとその関連技術1CMSI計算科学技術特論A(8) 高速化チューニングとその関連技術1
CMSI計算科学技術特論A(8) 高速化チューニングとその関連技術1Computational Materials Science Initiative
 
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...Ace12358
 
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析Yohei Sato
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
PHPとMongoDBで学ぶ次世代データストア
PHPとMongoDBで学ぶ次世代データストアPHPとMongoDBで学ぶ次世代データストア
PHPとMongoDBで学ぶ次世代データストアTakuya Sato
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
 
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリングRyomaBise1
 
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編Toshi Harada
 
知って得するWebで便利なpostgre sqlの3つの機能
知って得するWebで便利なpostgre sqlの3つの機能知って得するWebで便利なpostgre sqlの3つの機能
知って得するWebで便利なpostgre sqlの3つの機能Soudai Sone
 
DS Exercise Course 4
DS Exercise Course 4DS Exercise Course 4
DS Exercise Course 4大貴 末廣
 
多変量解析の一般化
多変量解析の一般化多変量解析の一般化
多変量解析の一般化Akisato Kimura
 
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介Masayoshi Kondo
 
Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Masayoshi Kondo
 
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)YoheiOkuyama
 
Semi-supervised Active Learning Survey
Semi-supervised Active Learning SurveySemi-supervised Active Learning Survey
Semi-supervised Active Learning SurveyYo Ehara
 

Similar to ICDE2014 Session 22 Similarity Joins (20)

A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
CMSI計算科学技術特論A(8) 高速化チューニングとその関連技術1
CMSI計算科学技術特論A(8) 高速化チューニングとその関連技術1CMSI計算科学技術特論A(8) 高速化チューニングとその関連技術1
CMSI計算科学技術特論A(8) 高速化チューニングとその関連技術1
 
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
 
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
Swim_2013_02_19_jpn
Swim_2013_02_19_jpnSwim_2013_02_19_jpn
Swim_2013_02_19_jpn
 
Pfi last seminar
Pfi last seminarPfi last seminar
Pfi last seminar
 
PHPとMongoDBで学ぶ次世代データストア
PHPとMongoDBで学ぶ次世代データストアPHPとMongoDBで学ぶ次世代データストア
PHPとMongoDBで学ぶ次世代データストア
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
 
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
 
知って得するWebで便利なpostgre sqlの3つの機能
知って得するWebで便利なpostgre sqlの3つの機能知って得するWebで便利なpostgre sqlの3つの機能
知って得するWebで便利なpostgre sqlの3つの機能
 
DS Exercise Course 4
DS Exercise Course 4DS Exercise Course 4
DS Exercise Course 4
 
多変量解析の一般化
多変量解析の一般化多変量解析の一般化
多変量解析の一般化
 
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
 
Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介
 
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
 
Semi-supervised Active Learning Survey
Semi-supervised Active Learning SurveySemi-supervised Active Learning Survey
Semi-supervised Active Learning Survey
 
2016word embbed
2016word embbed2016word embbed
2016word embbed
 

Recently uploaded

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 

Recently uploaded (14)

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 

ICDE2014 Session 22 Similarity Joins

  • 1. Session 22: Similarity Joins 担当: 白川(大阪大学) 【ICDE2014勉強会】
  • 2. まずはじめに…  Similarity Joinとはなんぞや?  2つのデータ集合の中から類似するデータペアを全部見つけるタスク  Self Similarity JoinとかSimilarity Self-Joinというのもあるが?  1つのデータ集合の中から類似するデータペアを全て見つけるタスク  やってることは似たようなもの 2 Session 22: Similarity Joins 担当:白川(大阪大学) データ集合 A D A H A R B C B Q 類似度θ 以上のペア Self Similarity Joinの例 ・・・ 該当する ペアを 全て列挙
  • 3. Session 22: Similarity Joins の論文 DE140108.PDF L2AP: Fast Cosine Similarity Search with Prefix L-2 Norm Bounds David C. Anastasiu, George Karypis DE140143.PDF PHiDJ: Parallel Similarity Self-Join for High-Dimensional Vector Data with MapReduce Sergej Fries, Brigitte Boden, Grzegorz Stepien, Thomas Seidl DE140387.PDF Melody-Join: Efficient Earth Mover’s Distance Similarity Joins Using MapReduce Jin Huang, Rui Zhang, Rajkumar Buyya, Jian Chen 3 Session 22: Similarity Joins 担当:白川(大阪大学)
  • 4. 研究背景とか 4 Session 22: Similarity Joins 担当:白川(大阪大学) L2AP: Fast Cosine Similarity Search with Prefix L-2 Norm Bounds d1 d2 d3 dm v1 0.1 0 0.2 … 0 v2 0.2 0 0.1 … 0 v3 0 0.1 0 … 0.3 … vn 0.3 0.1 0 … 0 {v1, v2}, {v2, vn}, … コサイン 類似度が θ以上 d1 → {v1, 0.1},{v2, 0.2},…,{vn, 0.3} d2 → {v3, 0.1},…,{vn, 0.1} d3 → {v1, 0.2},{v2, 0.1},… … 転置索引  超高次元かつ疎なベクトル集合を対象とし,コサイン類似度が 閾値θ以上のベクトルペアを全て見つけたい  計算量がO(n2m2),ただしnはベクトル数,mは次元数  よくあるやり方:転置索引を作って非零成分にのみアクセス  ベクトルが正規化されていればdot(非零成分同士の積)で計算可能
  • 5.  AllPairs [Bayardo, WWW07]  動的索引や,見込みのないベクトルペアの早期切り捨てを行う手法  MMJoin [Lee, DEXA10]: 切り捨てをより早期に行う拡張手法を提案  走査中のベクトルの未走査部分を 𝑥′ として 𝑑𝑜𝑡 𝑥′, 𝑦 ≤ 1 2 𝑥′ 2 + 1 2 で類似度を推測  提案手法:L2AP*1  コーシー=シュワルツの不等式を利用して切り捨てをさらに早期に!  類似度の推測値 𝑑𝑜𝑡 𝑥′, 𝑦 ≤ 𝑥′ は必ず既存手法より正確  証明: 𝑥′ − 1 2 ≥ 0 ⇒ 1 2 𝑥′ 2 + 1 2 ≥ 𝑥′ より, L2APによる推測値のほうが必ずドットプロダクトの真の値に近い! 行列 提案手法 5 Session 22: Similarity Joins 担当:白川(大阪大学) L2AP: Fast Cosine Similarity Search with Prefix L-2 Norm Bounds (1)インデックスを動的に生成 (2)逆から走査,インデックスを用いて 類似度計算,閾値を超える見込みが なくなったら走査を中断 各ベクトル順に(1)(2)の処理 yは正規化されているのでノルムが1 *1 ソフトウェア http://www-users.cs.umn.edu/~dragos/l2ap/
  • 6. 評価  6つの実データを使って評価 nnz: 行列全体での非零成分数 mrl: 1行の平均非零成分数 mcl: 1列の平均非零成分数  閾値 t を変えてもたいていの場合 L2APが最速!  インデックスサイズや途中結果のデータ サイズも減っていたので省スペース!  BayesLSH [Satuluri, VLDB12] などの 近似手法と比べた場合でも多くの場合 L2APが勝っていた!(詳しくは論文参照) 6 Session 22: Similarity Joins 担当:白川(大阪大学) L2AP: Fast Cosine Similarity Search with Prefix L-2 Norm Bounds (論文より) (論文より)
  • 7. 研究背景とか  高次元なベクトル集合を対象とし,距離がε以下の ベクトルペアを,MapReduceを使って全て見つけたい  MR-DSJ [Seidl, BTW13]:グリッドベースの手法(同じ研究グル―プによる成果)  d次元のベクトルをd次元のグリッドに配置,Reducerが各セルを担当  近くのグリッドに位置するベクトル間のみ距離を計算  緯度経度で距離計算とかなら問題ないけど,高次元だと隣接セルの数が 指数関数的に増加してしまう! → 通信コスト増大! 7 Session 22: Similarity Joins 担当:白川(大阪大学) PHiDJ: Parallel Similarity Self-Join for High-Dimensional Vector Data with MapReduce BTW:ドイツのデータベースの会議 濃い緑のセルを担当するReducerは 矢印で示したセル間を担当 2次元の場合 (論文より)
  • 8. 提案手法  高次元空間をk個の次元グループに分けてMR-DSJを実行  各次元グループでの 結果を最後に集約  次元グループ数は次元数に 対して線形なのでだいぶマシ!  各次元グループに対しては,よりタイトな閾値 𝜀 𝑘 = 𝜀 𝑚 𝑘 を 使うことで候補のペアを減らせる  Q: そんなことしたら解を見逃すケース(=偽陰性)も発生するのでは? A: ありえない,なぜなら別の次元グループの出力として得られるから  グリッドが均等だと一部のセルにデータが偏る(MR-DSJでも問題だった)  データが少ないところは数が均等になるよう広い範囲を担当させる (これは本研究とは独立した問題だから詳細は省く,みたいなこと書いてて簡単な説明しかなかった…) 8 Session 22: Similarity Joins 担当:白川(大阪大学) PHiDJ: Parallel Similarity Self-Join for High-Dimensional Vector Data with MapReduce (論文より) L𝑚-norm距離の場合
  • 9. 評価  2次元~20次元の疑似データ& 10次元のMIRFLICKR*1データ(右図2つ) (もっと高次元なデータでの結果が見たかった…)  8次元ぐらいから効果が出る  Theta-join [Okcan, SIGMOD11]より高速 (もっとも,この手法は任意のJoinが可能だが)  MR-SimJoin [Silva, Cloud-I12]と比較(左下図)  Flickr以外では倍ぐらい速かったが, 肝心の実データで負けるのはどうなの… 9 Session 22: Similarity Joins 担当:白川(大阪大学) PHiDJ: Parallel Similarity Self-Join for High-Dimensional Vector Data with MapReduce (論文より) *1 http://press.liacs.nl/mirflickr (論文より)(論文より) Cloud-I 2012:VLDB 2012のワークショップ
  • 10. 研究背景とか  1~3次元程度のヒストグラムの集合を対象とし,EMDがε以下 のヒストグラムペアを, MapReduceを使って全て見つけたい  EMD (Earth Mover‘s Distance):一方のヒストグラムから他方のヒスト グラムになるまでに要する値の総移動コスト(文字列の編集距離に似てる)  画像検索 [Ruzon, IEEE TPAMI01],ジェスチャ認識 [Ren, ACM MM11],重複 検出 [Xu, CVPR08],確率データマイニング[Xu, VLDBJ12]など幅広い応用 10 Session 22: Similarity Joins 担当:白川(大阪大学) Melody-Join: Efficient Earth Mover’s Distance Similarity Joins Using MapReduce Σ(移動させる値 ×属性間の距離) ha hb EMD(ha, hb) =1×1+2×1=3 類似画像判別(発表スライドより)
  • 11. 提案手法  ハフ空間*1に移し[Ruttenberg, VLDB12],近そうなペアのみ計算 これを3回のMapReduceジョブで並列処理させ,Similarity Join化  1回目で各ヒストグラムをハフ空間に写像  2回目でハフ空間の各セルについてLower Bound(LB)に使うエラー値Cを算出 (実際の累積頻度とNormal Distributionによる回帰の誤差より算出)  3回目で各ヒストグラムごと,各セルごとに, A)自分の位置するセルならネイティブレコード B)それ以外のセルでかつLBがε以下ならゲストレコード として,ヒストグラムとセルの組をMap  3回目のReducerが各セルを担当,ネイティブ→ネイティブ,ゲストのEMD計算 11 Session 22: Similarity Joins 担当:白川(大阪大学) Melody-Join: Efficient Earth Mover’s Distance Similarity Joins Using MapReduce 処理の流れ(論文より) いや説明全然分からないんだけど とにかく,画像処理とかでよく使われるハフ空間に移すことでEMDが近そうなペア を効率的に見つけられるので,それをMapReduceに対応させた,という感じです *1 長さrと角度θの組の集合で表現された空間 http://ja.wikipedia.org/wiki/%E3%83%8F%E3%83%95%E5%A4%89%E6%8F%9B ここまでの処理で近そうなペアとして残った
  • 12. 評価  5つの実データセットで評価 COREL*1:Color (CC), Layout (CL) MIRFLICKR:Vertical (MV), Horizontal (MH), Slash (MS) (このスライドではMVの結果のみ表示)  MR-SimJoin [Silva, SIGMOD12, Demo]と比較  画像の数(cardinality)やEMDの閾値を変えても提案手法が常勝 12 Session 22: Similarity Joins 担当:白川(大阪大学) Melody-Join: Efficient Earth Mover’s Distance Similarity Joins Using MapReduce *1 http://archive.ics.uci.edu/ml/datasets/Corel+Image+Features 1つ前の論文に出てきた[Silva, Cloud-I12]と同じ手法 (論文より)(論文より) 写像関数:3種類 グリッド:4×4セル Hadoopインスタンス:48 その他セッティング