More Related Content Similar to 第七回統計学勉強会@東大駒場
Similar to 第七回統計学勉強会@東大駒場 (20) More from Daisuke Yoneoka
More from Daisuke Yoneoka (19) 第七回統計学勉強会@東大駒場5. Notations 1
• 教師付き学習 (supervised learning) と、教師無
し学習 (unsupervised learning)
– 入力データが与えられたとき、これに対する出力を
正しく予測することが目的→教師あり
– 入力データだけが与えられ何らかの基準で最適化→教
師なし
• クラスター分析、主成分分析、ベクトル量子化、自己組織化
マップ、強化学習
6. Notations 2
• 回帰問題
– Def: 実数値を予測する教師つき学習
• 分類問題
– Def: 離散的な出力を持つ条件付き確率分布を推定する問題
• わかりやすく言えば、
– 出力 実数値∈R 「回帰」
– 離散値、出力の取りうる集合か : 2クラ
ス分類:+1 と -1 の2値や多クラス分類:{1,2, ...,C}のC通り
「分類」
8. クラスタリング1: k-means
• K-meansとは。。。
– クラスタ数kを指定してクラスタする方法
• Input: データセットx、クラスタ数k
1. 初期化:データからランダムにk個選びクラスタ重心に
する(境界上はランダムに配分)
2. クラスタ決定: 最も近い重心のクラスタをそのデー
タのクラスタとし、全データに関して計算
3. 重心再計算:2で決定したクラスタ毎に重心を計算。
これを収束するまで繰り返す。
9. 注意点
• 長所
– 速い
• 短所
– Kの決定が恣意的になっちゃう
• →x-means、ギャップ統計量、カーネル主成分分析
– 暗黙の分散均一仮定
10. クラスタリング2: Fisher判別分
析
• 判別分析とは。。。
– 「どの群に属しているかが分かっている標本があるとき
に,まだ分類されていない標本がどちらの群に属するかを
推定する手法」
• 以下のJ(w)を最大化
• フィッシャー:分散だけに着目
T
w VB w
J ( w) T
w Vw w
• w:固有ベクトル
• 共分散(χ2乗)/共分散(χ2乗) ~ F分布
• VBはクラス間分散、VWはクラス内分散
15. ニューラルネットワークとは
• 様々なモデル
– 多層パーセプトロン ⇒ 今日はこれに注目
– 自己組織化マップ
– 動径基底関数ネットワーク
– 学習ベクトル量子化
• とりあえず多層パーセプトロン
• 判別分析では3層が多く用いられる(らし
い)
16. ニューラルネットワークの線形モ
デル
• 回帰問題
• クラス分類問題
f()の返り値はクラスラベルy=1,2,…G
• :非線形活性化関数
13/02/12 機械学習勉強会@本郷キャンパス 16
18. サポートベクターマシーン
(SVM)
• SVMとは。。。
– データを+1,-1に分ける超平面の推定をする際
に、マージン(学習データから超平面までの
最短距離)を最大化する超平面が良いとする
方法
21. 決定木
• 決定木とは、データの特徴量を用いた簡単なルールで分
岐を作り、特徴空間を分割することを通じて判別や回帰
を行うモデルのこと
• CART(代表的なアルゴリズム)
1. 木の構築:何らかの基準を満たすまで、予め定義しておいたコス
ト(GINI係数やエントロピー)に基づいて特徴空間を2分割する手
続きを繰り返す
2. 剪定(pruning):構築された木の深さが深いほど複雑なデータを扱
うことができるが、過学習の可能性がある。そこで、過学習を防
ぐため、予め定めておいたパラメータによってモデルの複雑度を
制御すること
21
22. 決定木の不安定性
• 決定木の問題点
– 結果の分散が大きく、データが少し変わっただけで構築され
る木の構造や判別ルールが大きく変わってしまう。
– あとで出るバギングやブースティングで木の安定性を測って
いる。
22
23. 集団学習(アンサンブル学習)
• アンサンブル学習とは。。。
– 弱学習器を複数組み合わせて精度を向上させる手法
• バギング : 要はBootstrap
・adabag (R packages)
・ipred(R packages)
• ブースティング : 新しい弱学習器を追加する際に、逐次
的に重みを変えていく(誤差とかで修正していく)
・ada (R packages)
・adabag (R packages)
26. ブースティング特徴
• バギングの各試行を独立じゃなくする
• 弱学習器を追加する際、逐次的に学習させる。
• 並列化が困難
• 2値判別・・・アダブースト、Uブースト
• 多値判別・・・アダブーストM1、M2