[読会]P qk means-_ billion-scale clustering for product-quantized codes

論文紹介
PQk-means: Billion-scale Clustering for Product-
quantized Codes
Yusuke Matsui et al., ACMMM 2017

Table of Contents
概要
モチベーション
貢献
アルゴリズム
実験

概要 - モチベーション
データ分析においてデータのクラスタリングは最も基礎的で重要な処理の一つ
しかし標準的なクラスタリング手法であるk-meansは実行速度が遅いしメモリ消
費量が多い
バニラk-meansの技術的な課題はクラスタ中心の更新計算が遅い
新しいクラスタの中心を直接計算してるから
単純なブルートフォース更新法では可能性のある候補をすべて評価しな
ければならず時間がかかる
まだユークリッド空間のk-meansで疲弊してるの？直積量子化コード(Product-
quantized Codes)に圧縮して写像先の空間で処理すれば解決するけど？

概要 - 貢献
高次元データでも高速かつ省メモリでクラスタリングを実行可能なPQk-meansを
提案
クラスタ数10^5, 128次元の10億個SIFTベクトルのクラスタリングを32GBの
RAMを用いて14時間で達成
バニラk-meansクラスタリングではデータを表現するだけで512GBの
RAMが必要とか草
スパース投票(sparse voting)と呼ばれる高速な手法を開発
これがこの論文の画期的な点
クラスタリング後に元のベクトルを近似的に再構成することができる
Bkmeans [14]やIQ-means [2]のような既存の大規模クラスタリング手法ではで
きない
評価実験で強くデータを圧縮（一個のベクトルを32 bitに圧縮）してもバニラk-
meansに近い精度を達成できることを確認

概要 - k-meansとPQk-meansの例
PQk-meansの方が5.3倍もメモリ効率が良い

概要 - 比較手法の概要

アルゴリズム - Notations
#cluster:
#sample:
feature vectors (N D-dimensional vectors):
cluster centers:
assignment function:
#codeword:
#subvector:
PQ coded feature vector:
histogram:
K
N
X = {x ∈
n R }
D
n=1
N
{μ ∈
k R }
D
k=1
K
a(n)
L
M
x
ˉ
h

アルゴリズム - 背景
直積量子化(Product quantization for encoding)
入力ベクトルをショートコードにエンコードする（詳細は参考文献18参照）
次元の入力ベクトルを個の離散サブベクトルに分割
各次元のサブベクトルに対して事前に学習した個のコードワードの
中から最も近いコードワードを決定しそのインデックス（を記
録
は個の整数のタプルであるとしてエンコードされる（式(2)）
x ↦ =
x
ˉ [ , … , ] ∈
x
ˉ1
x
ˉM T
{1, … , L} (2)
M
D x ∈ RD
M
D/M L
{1, 2, … , L}
x M ( )
x
ˉ

個目ののサブベクトルはに量子化される
エンコードはk-means使ってる
code
は bitで表現される
各コードをバイトで表現するためにに設定される事が多い
1byte = 8bit
データの次元数やサンプルサイズによる制限あり
各毎に距離を計算
各は次元にコードされているので距離行列は
ここでは部分空間の番目と番目のコードワードの間の二乗距離
これでとの間の距離が簡単に求められる
つまり
m x x
ˉm
x
ˉ Mlog
L
2
M L = 256
m(∈ {1, … , M})
m L A ∈
m
RL×L
A
i,j
m
m i j L
x
1 x
2
d(x
, x
) ∼
1 2 d
(
,
)
SD x
ˉ1 x
ˉ2

まとめると式(3)
d
(
,
) =
SD x
ˉ1 x
ˉ2
2
d
(
,
) =
m=1
∑
M
SD
m
x
ˉ1
m
x
ˉ2
m 2
A
(3)
m=1
∑
M

,
x
ˉ1
m
x
ˉ2
m
m
二乗距離はルックアップテーブルを用いて結果の和をとることで効率的に計算す
ることができる
この計算コストはのみ
O(M)

アルゴリズム - PQK-MEANS CLUSTERING
定式化（これを最小化する）
E(
, … ,
) =
μ
ˉ1 μ
ˉK d
(
,
) (4)
N
1
n=1
∑
N
SD x
ˉn μ
ˉa(n)
ここで
=
x
ˉn [
, … ,
] ∈
x
ˉn
1
x
ˉn
M T
{1, … , L}M
=
μ
ˉk [
, … ,
] ∈
μ
ˉk
1
μ
ˉk
M T
{1, … , L}M
Assignment stepとUpdate stepを繰り返すのはバニラk-meansと同じ

Assignment step
a(n) = argmin
d (
,
) (5)
k∈{1,…,K} SD x
ˉn μ
ˉk
2
式(5)を計算するにはPQ linear scan[18]とPQTable[23]の2つの方法が存在する
PQ linear scanは各に対して個の中心のうち最も近いものを式(3)を
用いて線形に取り出すだけ
計算コストは
PQTableはハッシュテーブルベースのルックアップテーブル作って引いてくる
クラスタ数( )が小さい場合PQTableのハッシュ化の計算コストはPQ linear scanの
場合よりも大きくなる
この論文ではPQ linear scanとPQTable両方の手法を数回評価し速い方を選択して
実験結果としてる（他の手法でもフェアに同じように評価）

x
ˉn K {
}
μ
ˉk k=1
K
O(KM)
K

Update step
Assignment stepの後にクラスタ内の誤差の合計が最小になるように各クラスタ中
心を更新
PQコードから平均PQコードを計算する方法は知られていない
本論文ではクラスタ内の各PQコードへの対称距離(SD)の合計を最小化するも
のと定義
これを計算する場合ナイーブな方法は遅すぎるのでスパース投票(Sparse voting)を
開発
スパース投票法はナイーブ法よりも10倍から50倍効率的

Update step
ナイーブ法
定義
←
μ
ˉk
m
argmin d
(
, l) (6)
l∈{1,…,L}
n=1
∑
N
k
SD
m
x
ˉn
m 2
ここで ,
計算コストは
{
}
x
ˉn n=1
N
k
N ∼
k N/K
O(LN
)
k

Update step
スパース投票法
ヒストグラム( )を計算することで式(6)の計算を効率的
にやる
は内でコードの出現頻度
ヒストグラムを計算するコストは
そして式(6)がこうなる
←
μ
ˉk
m
argmin
v
, where [v
, … , v
] =
l∈{1,…,L} l 1 L
⊤
A h (8)
m
式(8)の計算コストは
h = [h
, … , h
] ∈
1 L
⊤
NL
h
l {
}
x
ˉn
m
n=1
N
k
l
O(N
)
k
O(L )
2

Update step
スパース投票法
更にがスパースであれば計算コストは
ここではの非ゼロ要素
スパース投票法全体の計算コストは
の時スパース投票法の方が早い
クラスタリングの特性上各クラスタ内のPQコードは類似しているのでもスパー
スになりスパース投票法の仮定を満たす
h O(L∣∣h∣∣
)
0
∣∣h∣∣ ∈
0 {0, … , L} h
O(N +
k L∣∣h∣∣
)
0
N/K >
∣∣h
∣∣ ∼
L−1
L
0 ∣∣h
∣∣
0
h

アルゴリズム - 疑似アルゴリズム

実験 - 共通事項
使用マシン
3.0 GHz Intel Xeon CPUs (4 cores, 8 threads) and 128 GB of RAM
公平に比較するためにsingle-threadで計算
large-scaleの実験(Sec. 5.6)だけmultithreadで計算

比較手法
バニラk-meansクラスタリング[22]
Bk-means[14]
ITQ回転行列使った
B = 32, 64, 128
IQ-means [2]
Ak-means[31]
k-meansの高速化版で
KDツリーを用いて割り当てステップを高速化したもの

データセット
ILSVRC2012
BIGANN
YFCC
Deep1B

#test: クラスタリングアルゴリズムを適用した入力ベクトル数
#train: 直積量子化、ITQのための回転行列の学習に用いたベクトル数
画像からAlexNet, GoogLeNet, SIFTで特徴量を作成したものを使ってクラスタリン
グ
エンコードは前処理として扱った（時間に含めない）
Error: クラスタ中心との距離の合計

データセット詳細

実験 - Naïve vs Sparse voting

実験 - vs All with ILSVRC_1000C

実験 - vs Bk-means with YFCC100M (large scale)

実験 - with SIFT1B and Deep1B

[読会]P qk means-_ billion-scale clustering for product-quantized codes

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [読会]P qk means-_ billion-scale clustering for product-quantized codes

Similar to [読会]P qk means-_ billion-scale clustering for product-quantized codes (20)

More from shima o

More from shima o (20)

[読会]P qk means-_ billion-scale clustering for product-quantized codes