SlideShare a Scribd company logo
1 of 22
Download to read offline
名古屋大学大学院工学研究科
応用物理学専攻
張研究室
森下真伍
2018/6/11 張研 1
文献紹介
𝑘-means : A revisit
1. クラスタリング
2. 𝑘-meansのイメージ
3. 利点と課題
4. 目的関数
5. アルゴリズム
6. 数値実験例
7. 結論
8. 付録
2018/6/11 張研 2
目次
クラスタリング
クラスタリングとは
• データの集合を部分集合に分けること.Webなどのデータ分
析に用いられる最も重要な分類法の一つ.
• 教師なし機械学習.
クラスタリングは階層的,非階層的で分けられる.
非階層的クラスタリングの𝑘-means法についての論文.
2018/6/11 張研 3
階層クラスタリング 非階層クラスタリング
𝑘-meansのイメージ
2018/6/11 張研 4
• 最初のクラスタの重心を適当に決める.
サンプルデータ
重心
𝑘-meansのイメージ
2018/6/11 張研 5
• 各サンプルを最も近いクラスタの重心に割り当てる.
𝑘-meansのイメージ
2018/6/11 張研 6
• 割り当てたサンプルをもとに新たな重心をもとめる.
𝑘-meansのイメージ
2018/6/11 張研 7
• 再度,各サンプルを最も近いクラスタの重心に割り当
てる.
𝑘-meansのイメージ
2018/6/11 張研 8
• 割り当てたサンプルをもとに新たな重心をもとめる.
𝑘-meansのイメージ
2018/6/11 張研 9
• 割り当てて,重心を更新する,を繰り返す.
𝑘-meansのイメージ
2018/6/11 張研 10
• 重心が移動しなくなったら,クラスタリング完了.
利点と課題
• シンプルなアルゴリズム
様々な分野のデータに対してクラスタリングが可能.
• 初期値への依存性
重心の初期値によって,クラスタリング結果が異なる.
• サンプルデータの次元の大きさ
Webなどの大規模なデータの処理に時間がかかる.
2018/6/11 張研 11
𝑘-meansの利点
𝑘-meansの課題
最近の研究
• D. Arthurらの研究
重心の初期値を慎重に決定する方法, 𝑘-means++を提案.
(参考文献:D. Arthur , S. Vassilvitskii , k -means++: the advantages of careful seeding)
クラスタリング結果は安定するが,初期値を決定する際に
繰り替えし計算が必要で,余計な計算コストがかかる.
この論文では,目的関数の差をとることで初期値の決定が
不要なアルゴリズムを提案する.
2018/6/11 張研 12
𝑘-meansの目的関数
𝑘 : クラスタ数,𝑛 : サンプル数
𝒄1, … , 𝒄 𝑘 ∈ ℝ 𝑑 : クラスタの重心
𝒙1, … , 𝒙 𝑛 ∈ ℝ 𝑑
: サンプル
𝑆1, … , 𝑆 𝑘 : クラスタに所属するサンプルの集合
𝑘-meansですべてのサンプルを𝑘個のクラスタに分類すると
いうことは,目的関数
𝐼 ≔ ෍
𝑟=1
𝑘
෍
𝒙 𝑖∈𝑆 𝑟
∥ 𝒄 𝑟 − 𝒙𝑖 ∥2
を最小にする𝒄1, … , 𝒄 𝑘を探すことである.
2018/6/11 張研 13
目的関数
記号
目的関数
𝒅 𝑟 ≔ σ 𝒙 𝑖∈𝑆 𝑟
𝒙𝑖 (𝒅1, … , 𝒅 𝑘 ∈ ℝ 𝑑
)
𝒄 𝑟 ≔
σ 𝒙 𝑖∈𝑆 𝑟
𝒙 𝑖
𝑛 𝑟
𝐼 = σ 𝑟=1
𝑘 σ 𝒙 𝑖∈𝑆 𝑟
∥ 𝒄 𝑟 − 𝒙𝑖 ∥2
= σ 𝑟=1
𝑘
(σ 𝒙 𝑖∈𝑆 𝑟
𝒙𝑖 ⋅ 𝒙𝑖 + 𝑛 𝑟 𝒄 𝑟 ⋅ 𝒄 𝑟 − 2 σ 𝒙 𝑖∈𝑆 𝑟
𝒙 𝑟 ⋅ 𝒄 𝑟)
= σ 𝑟=1
𝑘 σ 𝒙 𝑖∈𝑆 𝑟
𝒙𝑖 ⋅ 𝒙𝑖 − σ 𝑟=1
𝑘 𝒅 𝑟⋅𝒅 𝒓
𝒏 𝑟
= 𝐸 − σ𝑖=1
𝑘 𝒅 𝑟⋅𝒅 𝒓
𝒏 𝑟
2018/6/11 張研 14
記号
目的関数
目的関数
最小化すべき目的関数𝐼は
𝐼 = 𝐸 − σ𝑖=1
𝑘 𝒅 𝑟⋅𝒅 𝒓
𝒏 𝑟
𝐸は定数であるから, 𝐼∗
≔ σ𝑖=1
𝑘 𝒅 𝑟⋅𝒅 𝒓
𝒏 𝑟
とすると,
min
𝒄1,…,𝒄 𝑘
𝐼 ֞ max
𝒏1,…,𝒏 𝑘
𝐼∗
である.
max
𝒏1,…,𝒏 𝑘
𝐼∗
を次の方法で求める.
2018/6/11 張研 15
目的関数の差
ここで,ある一つのサンプル𝒙𝑖の所属する集合を𝑆 𝑢から𝑆 𝑣
に変更させた場合を仮定する.
このとき目的関数の差∆𝐼∗ 𝒙𝑖 は
∆𝐼∗ 𝒙𝑖 ≔
𝒅 𝑣 + 𝒙𝑖 ⋅ 𝒅 𝑣 + 𝒙𝑖
𝑛 𝑣 + 1
+
𝒅 𝑢 − 𝒙𝑖 ⋅ 𝒅 𝑢 − 𝒙𝑖
𝑛 𝑢 − 1
−
𝒅 𝑣 ⋅ 𝒅 𝑣
𝑛 𝑣
−
𝒅 𝑢 ⋅ 𝒅 𝑢
𝑛 𝑢
と表すことができる.
さらに,𝑆 𝑣への変更が∆𝐼∗
𝒙𝑖 を最大にすると仮定する.
∆𝐼∗ 𝒙𝑖 > 0の時,より大きな𝐼∗が存在する.
2018/6/11 張研 16
アルゴリズム
この論文で提案する新たなアルゴリズム.
2018/6/11 張研 17
1: Input: matrix 𝑋 𝑑×𝑛 = 𝒙1, 𝒙2, … , 𝒙 𝑛
2: Output: 𝑆1, … , 𝑆𝑟
3: Assign 𝒙1, 𝒙2, … , 𝒙 𝑛 with a random cluaster label
4: Calclate 𝒅1, … , 𝒅 𝑘
5: while not convergence do
6: for each 𝒙1, 𝒙2, … , 𝒙 𝑛 (in random order) do
7: Seek 𝑆 𝑣 that maximizes ∆𝐼∗
𝒙𝑖
8: if ∆𝐼∗ 𝒙𝑖 > 0 then
9: Move 𝒙𝑖 from current cluster to 𝑆 𝑣
10: end if
11: end for
12: end while
数値実験例
2018/6/11 張研 18
• 二次元のデータをクラスタリングする.
• 各サンプルが属する最初の集合をランダムに決める.
• アルゴリズムの5~12の試行回数を𝑖とする.
(1)𝑖 = 0 (2)𝑖 = 1 (1)𝑖 = 10
各サンプルがランダムに分類された状態から一回の試行で
ほぼ予想したクラスタリング結果が得られた.
10回の試行でよりコンパクトなクラスタリングが行われる.
結論
𝑘 -meansの目的関数を変形しその差をとることによって,
クラスタの中心を求めなくてもクラスタリングが可能なア
ルゴリズムを提案.
従来の𝑘-meansでの課題であった初期の重心設定が不要に
なることが,二次元のデータでのクラスタリングで確認で
きた.
2018/6/11 張研 19
付録
2018/6/11 張研 20
𝑘-meansと,この論文で紹介されている新たなアルゴリ
ズムを使ったクラスタリング𝑘-means#を実行させてみた.
正規分布に基づいて,三か所にクラスタを生成し,合計
570個のサンプルを3つのクラスタに分類.
付録
2018/6/11 張研 21
• 𝑘-means
(1)𝑖 = 0 (1) 𝑖 =1 (1) 𝑖 = 3
(1)𝑖 = 0 (1)𝑖 =1 (1) 𝑖 = 3
付録
2018/6/11 張研 22
• 𝑘-means#
(1) 𝑖 = 0 (1) 𝑖 =1 (1) 𝑖 = 3
(1) 𝑖 = 0 (1) 𝑖 =1 (1) 𝑖 = 3

More Related Content

Similar to 論文紹介&実験

第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項tomitomi3 tomitomi3
 
劣モジュラ最適化と機械学習 3章
劣モジュラ最適化と機械学習 3章劣モジュラ最適化と機械学習 3章
劣モジュラ最適化と機械学習 3章Hakky St
 
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてPlot Hong
 
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析hnisiji
 
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布sleipnir002
 
データ解析12 k平均法
データ解析12 k平均法データ解析12 k平均法
データ解析12 k平均法Hirotaka Hachiya
 
カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足ke beck
 
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
[The Elements of Statistical Learning]Chapter18: High Dimensional ProblemsYu Otsuka
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習Kenta Ishii
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】Naoki Hayashi
 
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...Improving Coreference Resolution by Learning Entity-Level Distributed Represe...
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...Yuichiroh Matsubayashi
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions Deep Learning JP
 
クラスタリングについて
クラスタリングについてクラスタリングについて
クラスタリングについてArien Kakkowara
 
情報幾何勉強会 EMアルゴリズム
情報幾何勉強会 EMアルゴリズム 情報幾何勉強会 EMアルゴリズム
情報幾何勉強会 EMアルゴリズム Shinagawa Seitaro
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
Risk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesRisk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesKei Nakagawa
 
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )aich_08_
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...Eiji Uchibe
 
20160716 ICML paper reading, Learning to Generate with Memory
20160716 ICML paper reading, Learning to Generate with Memory20160716 ICML paper reading, Learning to Generate with Memory
20160716 ICML paper reading, Learning to Generate with MemoryShinagawa Seitaro
 

Similar to 論文紹介&実験 (20)

第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
 
劣モジュラ最適化と機械学習 3章
劣モジュラ最適化と機械学習 3章劣モジュラ最適化と機械学習 3章
劣モジュラ最適化と機械学習 3章
 
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向について
 
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
 
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布
 
データ解析12 k平均法
データ解析12 k平均法データ解析12 k平均法
データ解析12 k平均法
 
カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足
 
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...Improving Coreference Resolution by Learning Entity-Level Distributed Represe...
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
クラスタリングについて
クラスタリングについてクラスタリングについて
クラスタリングについて
 
情報幾何勉強会 EMアルゴリズム
情報幾何勉強会 EMアルゴリズム 情報幾何勉強会 EMアルゴリズム
情報幾何勉強会 EMアルゴリズム
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
Risk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesRisk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matrices
 
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
 
20160716 ICML paper reading, Learning to Generate with Memory
20160716 ICML paper reading, Learning to Generate with Memory20160716 ICML paper reading, Learning to Generate with Memory
20160716 ICML paper reading, Learning to Generate with Memory
 
PRML s1
PRML s1PRML s1
PRML s1
 

論文紹介&実験