SlideShare a Scribd company logo
1 of 44
機械学習基礎
分類とクラスタリング
クラスタリング編
本シリーズの目的
とりあえずデータを持ってきた
機械学習を使って何かやろう
 目的を決めて問題を設定する
 問題に対して適切な手法を決定する
万能感!
↑ができるようになる
今回の範囲
クラスタリング
 凝集型クラスタリング
 k-meansクラスタリング
 混合正規分布によるクラスタリング
 (補足) EMアルゴリズム
分類
 規則ベース手法
 ナイーブベイズ手法
 SVM
 対数線形モデル
今回はクラスタリングについて!
クラスタリングと
分類
クラスタリングと分類の違い
データをいくつかのグループにまとめるのがクラスタリング
あらかじめ決まったグループに分けることを分類
クラスタリングはいくつのグループができて、どんな意味を
もっているのかは予め明確でない
クラスタリングと分類の違い
例)ある製品に関する“お客様の声”が大量に集まったのでこれ
を分析したい。が、これを1つ1つ全て読むのには時間がか
かってしまう
クラスタリング or 分類して解決してみる
グループ1
グループ2
グループ3 グループ4
類似する文書でまとめる
クラスタリング
類似した不満・要望をまとめて
そのグループ少数のみを読む
各グループ少量読む
修理希望 良かった点
各カテゴリに分ける
バグ報告 要望
分類
読む人を複数人用意して
カテゴリ分けしてすべて読む
クラスタリング
クラスタリングの種類
凝集型クラスタリング
k-meansクラスタリング
混合正規分布によるクラスタリング
特に凝集型とk-meansは大したことやってない
凝集型クラスタリング
単純に似ているもの同士をくっつけて適当なグループにまと
まったら終わる
最初に全ての事例に全て異なるクラスタを与え、事例同士の
類似度を定義して、一番高い値のクラスタを結合していく
適当なクラスタ数になったので終了。
繋ぎ方
単連結法
完全連結法
重心法
完全連結法はクラスタが長く伸びた鎖のようになるのを
嫌い、単連結法はそれをお構いなしに融合する
重心法はその中間
類似度関数
(2点間の距離とか角度とか)
k-means
k-平均法(means)
とりあえず適当にk個に分けて、もう少しうまく分けられるよ
うなら調整していく
クラスタ数kは自分で設定する
適当に代表ベクトルを決める(k=2)
近い事例をそのクラスタへ
クラスタ内の事例の平均を代表ベクトルとする
近い事例をそのクラスタへ
クラスタ内の事例の平均を代表ベクトルとする
近い事例をそのクラスタへ
クラスタ内の事例の平均を代表ベクトルとする
全事例が属するクラスタに変更がなかったため終了
混合正規分布によるクラスタリング
k-meansだと、2つのクラスタの中間付近であってもきっち
りどちらかに配属されてしまう
近い事例をそのクラスタへ
これ→
混合正規分布によるクラスタリング
k-meansだと、2つのクラスタの中間付近であってもきっち
りどちらかに配属されてしまう
→ 代表ベクトルを再計算するときに、各事例は確率で寄与す
ることにする
A B
a b c
AグループにP(CA|c)だけ寄与
BグループにP(CB|c)だけ寄与
a b c
Bグループのみに全て寄与
BグループAグループ
k-means
混合正規分布
混合正規分布によるクラスタリング
つまり、『各事例は、各クラスタにおいて正規分布している』
という仮定においてクラスタリングする
複数の正規分布が現れ
ているので、
混合正規分布という
混合正規分布によるクラスタリング
k-meansで代表ベクトルmcを再計算するとき、
これを正規分布ではこうする
↑クラスタcの事後確率
(xi がクラスタcに属する確率)
↑P(c) :クラスタcの事前確率
(クラスタcの出現する確率)
混合正規分布によるクラスタリング
各クラスタ内で正規分布しているので、各事例の事後確率は、
と表される
ここで標準偏差σは既知であり、かつクラスタ内で変わらない
ものとする
mcはクラスタcにおける平均ベクトルである
混合正規分布によるクラスタリング
このとき、クラスタcの事後確率は、
なので、
混合正規分布によるクラスタリング
このとき、クラスタcの事後確率は、
なので、
混合正規分布によるクラスタリング
Q. P(c)ってどうするのよ?
A. 適当に決める
P(c)はクラスタの事前分布
つまり、あるクラスタcが出現する確率はどうすればいいのか?
全てのクラスタが等しい確率で出現するとすると、
P(c)=1/k(kはクラスタ数)
混合正規分布によるクラスタリング
収束条件は?
k-meansは各事例が属するクラスタが変わらなければ収束する
が、混合正規分布によるクラスタリングでは、P(c|x i)の値が微
小に変化し続ける
なので収束条件としてパラメータの変化の値が非常に小さく
なったら収束とみなす
例えば、 が小さくなったら収束
補足
EMアルゴリズム
EMアルゴリズム
実はさっきの混合正規分布によるクラスタリングはEMアルゴ
リズムというより一般的な枠組みに基いている
普通に最尤推定できないパラメータを2つのステップにわけ
て逐次的に求めていくだけ
そんなに難しいことはやってない
EMアルゴリズム
観測値をxi、ciとする
あるパラメータθがわからないから最尤推定するよ!
観測値ciが欠損してる、または未知である場合
→推定できない!(解析的に求まらない)
EMアルゴリズム
じゃあciの期待値を考える
これならいけそうだけど重み(確率)wcが分からん
→逐次的に計算させて前回のθを使って、その時cである確率
wcを求める
cの同時確率が分からないから
cの取りうる値全部について計算する
EMアルゴリズム
つまり、
と、置き換えることができて、
となるθを逐次的に求めていき、収束したθが最適解!
↓Q関数:Q(θ;θ’)
EMアルゴリズム
EMアルゴリズム
EMアルゴリズム
まとめると、
EMアルゴリズムは不完全データに対して尤度が大きくなるよ
うにパラメータを決定するアルゴリズム
多変数確率分布において、観測されたデータに欠損した変数
が含まれている場合、または未知な変数が隠れていると仮定
した場合に有効である
混合正規分布は欠損変数ciがクラスタで、θが平均ベクトルの
場合にEMアルゴリズムを適用したもの
参考
自然言語処理シリーズ 1
言語処理のための機械学習入門
奥村学 東工大教授 工博 監修
高村大也 東工大准教授 博士(工学)著

More Related Content

What's hot

Convolutionl Neural Network 入門
Convolutionl Neural Network 入門Convolutionl Neural Network 入門
Convolutionl Neural Network 入門
maruyama097
 
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム
裕樹 奥田
 

What's hot (20)

階層的クラスタリング入門の入門
階層的クラスタリング入門の入門階層的クラスタリング入門の入門
階層的クラスタリング入門の入門
 
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)
 
適切なクラスタ数を機械的に求める手法の紹介
適切なクラスタ数を機械的に求める手法の紹介適切なクラスタ数を機械的に求める手法の紹介
適切なクラスタ数を機械的に求める手法の紹介
 
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
 
反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか
 
わかパタ 1章
わかパタ 1章わかパタ 1章
わかパタ 1章
 
Kaggle meetup #3 instacart 2nd place solution
Kaggle meetup #3 instacart 2nd place solutionKaggle meetup #3 instacart 2nd place solution
Kaggle meetup #3 instacart 2nd place solution
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討
微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討
微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討
 
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎
 
10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
Convolutionl Neural Network 入門
Convolutionl Neural Network 入門Convolutionl Neural Network 入門
Convolutionl Neural Network 入門
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
機械学習をこれから始める人が読んでおきたい 特徴選択の有名論文紹介
機械学習をこれから始める人が読んでおきたい 特徴選択の有名論文紹介機械学習をこれから始める人が読んでおきたい 特徴選択の有名論文紹介
機械学習をこれから始める人が読んでおきたい 特徴選択の有名論文紹介
 
ぞくパタ最終回: 13章「共クラスタリング」
ぞくパタ最終回: 13章「共クラスタリング」ぞくパタ最終回: 13章「共クラスタリング」
ぞくパタ最終回: 13章「共クラスタリング」
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム
 
協調フィルタリングを利用した推薦システム構築
協調フィルタリングを利用した推薦システム構築協調フィルタリングを利用した推薦システム構築
協調フィルタリングを利用した推薦システム構築
 
クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料
 

Viewers also liked

ベイズ基本0425
ベイズ基本0425ベイズ基本0425
ベイズ基本0425
asato kuno
 
Machine learning for biginner
Machine learning for biginnerMachine learning for biginner
Machine learning for biginner
Atsushi Hayakawa
 
Zansa アト テクノロシ-ー業界の分析という仕事について http://zansa.info/materials-11.html
Zansa アト テクノロシ-ー業界の分析という仕事について http://zansa.info/materials-11.htmlZansa アト テクノロシ-ー業界の分析という仕事について http://zansa.info/materials-11.html
Zansa アト テクノロシ-ー業界の分析という仕事について http://zansa.info/materials-11.html
Zansa
 
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定ナイーブベイズによる言語判定
ナイーブベイズによる言語判定
Shuyo Nakatani
 

Viewers also liked (20)

機械学習基礎(2)(パラメータ推定)
機械学習基礎(2)(パラメータ推定)機械学習基礎(2)(パラメータ推定)
機械学習基礎(2)(パラメータ推定)
 
機械学習基礎(1)(基礎知識編-最適化問題)
機械学習基礎(1)(基礎知識編-最適化問題)機械学習基礎(1)(基礎知識編-最適化問題)
機械学習基礎(1)(基礎知識編-最適化問題)
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
はじパタ 10章 クラスタリング 前半
はじパタ 10章 クラスタリング 前半はじパタ 10章 クラスタリング 前半
はじパタ 10章 クラスタリング 前半
 
春期インターンシップについて(レキサス)
春期インターンシップについて(レキサス)春期インターンシップについて(レキサス)
春期インターンシップについて(レキサス)
 
第17回コンピュータビジョン勉強会@関東
第17回コンピュータビジョン勉強会@関東第17回コンピュータビジョン勉強会@関東
第17回コンピュータビジョン勉強会@関東
 
ベイズ推定でパラメータリスクを捉える&優れたサンプラーとしてのMCMC
ベイズ推定でパラメータリスクを捉える&優れたサンプラーとしてのMCMCベイズ推定でパラメータリスクを捉える&優れたサンプラーとしてのMCMC
ベイズ推定でパラメータリスクを捉える&優れたサンプラーとしてのMCMC
 
ベイズ基本0425
ベイズ基本0425ベイズ基本0425
ベイズ基本0425
 
スペクトラル・クラスタリング
スペクトラル・クラスタリングスペクトラル・クラスタリング
スペクトラル・クラスタリング
 
社内勉強会-ナイーブベイジアンフィルタの実装
社内勉強会-ナイーブベイジアンフィルタの実装社内勉強会-ナイーブベイジアンフィルタの実装
社内勉強会-ナイーブベイジアンフィルタの実装
 
Machine learning for biginner
Machine learning for biginnerMachine learning for biginner
Machine learning for biginner
 
Webサービスを分類してみた
Webサービスを分類してみたWebサービスを分類してみた
Webサービスを分類してみた
 
機械学習技術の紹介
機械学習技術の紹介機械学習技術の紹介
機械学習技術の紹介
 
Zansa アト テクノロシ-ー業界の分析という仕事について http://zansa.info/materials-11.html
Zansa アト テクノロシ-ー業界の分析という仕事について http://zansa.info/materials-11.htmlZansa アト テクノロシ-ー業界の分析という仕事について http://zansa.info/materials-11.html
Zansa アト テクノロシ-ー業界の分析という仕事について http://zansa.info/materials-11.html
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 
ラーメンと自然言語処理
ラーメンと自然言語処理ラーメンと自然言語処理
ラーメンと自然言語処理
 
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定ナイーブベイズによる言語判定
ナイーブベイズによる言語判定
 
合コンで学ぶベイズ推定
合コンで学ぶベイズ推定合コンで学ぶベイズ推定
合コンで学ぶベイズ推定
 
いいからベイズ推定してみる
いいからベイズ推定してみるいいからベイズ推定してみる
いいからベイズ推定してみる
 
クラシックな機械学習の入門 2.ベイズ統計に基づく推論
クラシックな機械学習の入門 2.ベイズ統計に基づく推論クラシックな機械学習の入門 2.ベイズ統計に基づく推論
クラシックな機械学習の入門 2.ベイズ統計に基づく推論
 

Recently uploaded

Recently uploaded (10)

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 

機械学習基礎(3)(クラスタリング編)

Editor's Notes

  1. 入力:不完全データD\\ \theta の初期値は無作為に決める\\ until\quad 収束\\ \quad Eステップ:任意のx_{ i },c_{ i }についてP(c|x_{ i };\theta' )を計算\\ \quad Mステップ:\theta^{max}=arg\max Q(\theta;\theta')\\ \quad \theta'=\theta^{max}\\ end\quad until