Unigram Mixtures
の話
@fmkz___
教師あり学習とは?
教師なし学習とは?
教師あり学習でのラベルを潜在変
数として推定するのが
教師なし学習
•  教師あり学習: p(y¦x)
•  教師なし学習: p(x) = Σyp(x¦y)p(y)
K-means
h"p://tech.nitoyon.com/ja/blog/2009/04/09/kmeans-­‐visualise/
•  距離の中心を計算して
•  最も近いクラスに割り当てて
•  を繰り返す
EMアルゴリズム
•  EMアルゴリズムは観測データの対数尤度
を、E stepとM stepの繰り返しにより
最大化するアルゴリズム
スパムとハムの話に戻る
•  教師あり学習
–  事前にスパムとハムに分類していた

•  これをラベルを付与してない状態から2つ
のグループに分割できないか?
–  教師なし学習
Unigram Mixtures
アルゴリズム
•  このスライドが詳しい
–  http://www.ism.ac.jp/ daichi/
lectures/ISM-2012-TopicModelsdaichi.pdf
実装
•  R
–  https://github.com/ariddell/
mixture-of-unigrams

•  C
–  http://www.ism.ac.jp/ daichi/
lectures/H24-TopicModels.html
デモ
本当はいつものようにeしずおかのブログ
のデータを分類するつもりだったのだけど
読書が急がしくてやる暇なかったw
まとめ
•  入門機械学習のナイーブベイズの応用とし
てUnigram Mixturesの紹介とデモを
しました

Unigram mixtures