論文紹介&実験

名古屋大学大学院工学研究科
応用物理学専攻
張研究室
森下真伍
2018/6/11 張研 1
文献紹介
𝑘-means : A revisit

1. クラスタリング
2. 𝑘-meansのイメージ
3. 利点と課題
4. 目的関数
5. アルゴリズム
6. 数値実験例
7. 結論
8. 付録
2018/6/11 張研 2
目次

クラスタリング
クラスタリングとは
• データの集合を部分集合に分けること．Webなどのデータ分
析に用いられる最も重要な分類法の一つ．
• 教師なし機械学習．
クラスタリングは階層的，非階層的で分けられる．
非階層的クラスタリングの𝑘-means法についての論文．
2018/6/11 張研 3
階層クラスタリング非階層クラスタリング

𝑘-meansのイメージ
2018/6/11 張研 4
• 最初のクラスタの重心を適当に決める．
サンプルデータ
重心

2018/6/11 張研 5
• 各サンプルを最も近いクラスタの重心に割り当てる．

2018/6/11 張研 6
• 割り当てたサンプルをもとに新たな重心をもとめる．

2018/6/11 張研 7
• 再度，各サンプルを最も近いクラスタの重心に割り当
てる．

2018/6/11 張研 8
• 割り当てたサンプルをもとに新たな重心をもとめる．

2018/6/11 張研 9
• 割り当てて，重心を更新する，を繰り返す．

2018/6/11 張研 10
• 重心が移動しなくなったら，クラスタリング完了．

利点と課題
• シンプルなアルゴリズム
様々な分野のデータに対してクラスタリングが可能．
• 初期値への依存性
重心の初期値によって，クラスタリング結果が異なる．
• サンプルデータの次元の大きさ
Webなどの大規模なデータの処理に時間がかかる．
2018/6/11 張研 11
𝑘-meansの利点
𝑘-meansの課題

最近の研究
• D. Arthurらの研究
重心の初期値を慎重に決定する方法, 𝑘-means++を提案．
(参考文献:D. Arthur , S. Vassilvitskii , k -means++: the advantages of careful seeding)
クラスタリング結果は安定するが，初期値を決定する際に
繰り替えし計算が必要で，余計な計算コストがかかる．
この論文では，目的関数の差をとることで初期値の決定が
不要なアルゴリズムを提案する．
2018/6/11 張研 12

𝑘-meansの目的関数
𝑘 : クラスタ数，𝑛 : サンプル数
𝒄1, … , 𝒄 𝑘 ∈ ℝ 𝑑 : クラスタの重心
𝒙1, … , 𝒙 𝑛 ∈ ℝ 𝑑
: サンプル
𝑆1, … , 𝑆 𝑘 : クラスタに所属するサンプルの集合
𝑘-meansですべてのサンプルを𝑘個のクラスタに分類すると
いうことは，目的関数
𝐼 ≔ ෍
𝑟=1
𝑘
෍
𝒙 𝑖∈𝑆 𝑟
∥ 𝒄 𝑟 − 𝒙𝑖 ∥2
を最小にする𝒄1, … , 𝒄 𝑘を探すことである．
2018/6/11 張研 13
目的関数
記号

目的関数
𝒅 𝑟 ≔ σ 𝒙 𝑖∈𝑆 𝑟
𝒙𝑖 (𝒅1, … , 𝒅 𝑘 ∈ ℝ 𝑑
)
𝒄 𝑟 ≔
σ 𝒙 𝑖∈𝑆 𝑟
𝒙 𝑖
𝑛 𝑟
𝐼 = σ 𝑟=1
𝑘 σ 𝒙 𝑖∈𝑆 𝑟
∥ 𝒄 𝑟 − 𝒙𝑖 ∥2
= σ 𝑟=1
𝑘
(σ 𝒙 𝑖∈𝑆 𝑟
𝒙𝑖 ⋅ 𝒙𝑖 + 𝑛 𝑟 𝒄 𝑟 ⋅ 𝒄 𝑟 − 2 σ 𝒙 𝑖∈𝑆 𝑟
𝒙 𝑟 ⋅ 𝒄 𝑟)
= σ 𝑟=1
𝑘 σ 𝒙 𝑖∈𝑆 𝑟
𝒙𝑖 ⋅ 𝒙𝑖 − σ 𝑟=1
𝑘 𝒅 𝑟⋅𝒅 𝒓
𝒏 𝑟
= 𝐸 − σ𝑖=1
𝒏 𝑟
2018/6/11 張研 14
記号
目的関数

目的関数
最小化すべき目的関数𝐼は
𝐼 = 𝐸 − σ𝑖=1
𝒏 𝑟
𝐸は定数であるから， 𝐼∗
≔ σ𝑖=1
𝒏 𝑟
とすると，
min
𝒄1,…,𝒄 𝑘
𝐼 ֞ max
𝒏1,…,𝒏 𝑘
𝐼∗
である．
max
𝒏1,…,𝒏 𝑘
𝐼∗
を次の方法で求める．
2018/6/11 張研 15

目的関数の差
ここで，ある一つのサンプル𝒙𝑖の所属する集合を𝑆 𝑢から𝑆 𝑣
に変更させた場合を仮定する．
このとき目的関数の差∆𝐼∗ 𝒙𝑖 は
∆𝐼∗ 𝒙𝑖 ≔
𝒅 𝑣 + 𝒙𝑖 ⋅ 𝒅 𝑣 + 𝒙𝑖
𝑛 𝑣 + 1
+
𝒅 𝑢 − 𝒙𝑖 ⋅ 𝒅 𝑢 − 𝒙𝑖
𝑛 𝑢 − 1
−
𝒅 𝑣 ⋅ 𝒅 𝑣
𝑛 𝑣
−
𝒅 𝑢 ⋅ 𝒅 𝑢
𝑛 𝑢
と表すことができる．
さらに，𝑆 𝑣への変更が∆𝐼∗
𝒙𝑖 を最大にすると仮定する．
∆𝐼∗ 𝒙𝑖 > 0の時，より大きな𝐼∗が存在する．
2018/6/11 張研 16

アルゴリズム
この論文で提案する新たなアルゴリズム．
2018/6/11 張研 17
1: Input: matrix 𝑋 𝑑×𝑛 = 𝒙1, 𝒙2, … , 𝒙 𝑛
2: Output: 𝑆1, … , 𝑆𝑟
3: Assign 𝒙1, 𝒙2, … , 𝒙 𝑛 with a random cluaster label
4: Calclate 𝒅1, … , 𝒅 𝑘
5: while not convergence do
6: for each 𝒙1, 𝒙2, … , 𝒙 𝑛 (in random order) do
7: Seek 𝑆 𝑣 that maximizes ∆𝐼∗
𝒙𝑖
8: if ∆𝐼∗ 𝒙𝑖 > 0 then
9: Move 𝒙𝑖 from current cluster to 𝑆 𝑣
10: end if
11: end for
12: end while

数値実験例
2018/6/11 張研 18
• 二次元のデータをクラスタリングする．
• 各サンプルが属する最初の集合をランダムに決める．
• アルゴリズムの5～12の試行回数を𝑖とする．
(1)𝑖 = 0 (2)𝑖 = 1 (1)𝑖 = 10
各サンプルがランダムに分類された状態から一回の試行で
ほぼ予想したクラスタリング結果が得られた．
10回の試行でよりコンパクトなクラスタリングが行われる．

結論
𝑘 -meansの目的関数を変形しその差をとることによって，
クラスタの中心を求めなくてもクラスタリングが可能なア
ルゴリズムを提案．
従来の𝑘-meansでの課題であった初期の重心設定が不要に
なることが，二次元のデータでのクラスタリングで確認で
きた．
2018/6/11 張研 19

付録
2018/6/11 張研 20
𝑘-meansと，この論文で紹介されている新たなアルゴリ
ズムを使ったクラスタリング𝑘-means#を実行させてみた．
正規分布に基づいて，三か所にクラスタを生成し，合計
570個のサンプルを3つのクラスタに分類．

付録
2018/6/11 張研 21
• 𝑘-means
(1)𝑖 = 0 (1) 𝑖 =1 (1) 𝑖 = 3
(1)𝑖 = 0 (1)𝑖 =1 (1) 𝑖 = 3

付録
2018/6/11 張研 22
• 𝑘-means#
(1) 𝑖 = 0 (1) 𝑖 =1 (1) 𝑖 = 3
(1) 𝑖 = 0 (1) 𝑖 =1 (1) 𝑖 = 3

論文紹介&実験

Recommended

Recommended

More Related Content

Similar to 論文紹介&実験

Similar to 論文紹介&実験 (20)

論文紹介&実験