2014年3月29日
Tokyo.R LT
「カーネルとSVM」
@tetsuroito
2014年3月29日土曜日
自己紹介
名前           バックボーン
伊藤 徹郎       経済・ファイナンス
twitter ID R歴
@tetsuroito 2年くらい
所属
株式会社ALBERT データ分析部
最近辛いこと
色々な納期
2014年3月29日土曜日
なんで今更SVM?
・数年前まで機械学習の花形を謳歌してた
・ランダムフォレストの出現により影が薄く
・Deeplearningに由来するニューラルネットワーク
 復権により、さらに影が薄く
2014年3月29日土曜日
SVMはこんな状態?
from ターミネーター2 ラストシーンより
そんなSVMに今一度、光を当てたいと思った!
2014年3月29日土曜日
本日のLTメニュー
1、カーネル法について
2、SVM(サポートベクターマシーン)
2014年3月29日土曜日
カーネル法?
このおじさんではありません
2014年3月29日土曜日
カーネル法
ムーアの法則よろしく、多種多様なデータの
蓄積が可能となった現代
多くの特徴量を持たせた複雑で高次元データを
解析したいニーズが増大
複雑なデータA,Bという集合があった時、それらの間の関係をk(A,B)という実数値関数に
よって要約し、すべてを数値の世界に落とし込んで処理する 法。
2014年3月29日土曜日
例えば
上記のような分類問題は図の黒線のような境界を求める
線形判別問題
2014年3月29日土曜日
線形判別問題の限界
線形判別問題では上記の問題は解けません
2014年3月29日土曜日
カーネルで高次元に飛ばす
2次元→3次元に飛ばすことで線形判別が可能に
2014年3月29日土曜日
カーネルの種類
線形カーネル
多項式カーネル
※lは実数、pは自然数
RBFカーネル
(ガウシアンカーネル)
シグモイドカーネル
2014年3月29日土曜日
SVMとは?
教師あり学習を用いる識別手法の1つ
パターン認識や回帰分析に適用できる
機械学習の中で精度が高かった‥
アルゴリズム自体はシンプルだが、ブラックボックス
と言われていることも‥
けっこう計算量が多い(次元の呪い)
2014年3月29日土曜日
SVMとは?
t = +1
t = -1
ある2クラスのデータ
これを識別する境界を
求めたい
上記の場合だと、色々な境界線を引く事ができちゃう
2014年3月29日土曜日
SVMとは?
識別境界
マージン
t = +1
t = -1
識別境界から再近傍サンプルまでのマージン(距離)を
最大化させるような識別境界を求める
2014年3月29日土曜日
RでカーネルSVMをやる
kernlabパッケージ内のksvm関数を使用
ksvm(formula,data,kernel=”rbfdot”,kpar=list(sigma=0.1)
type=,cross=2)
Formula:式の設定
data:対象データ
kernel:カーネルの指定
(デフォルトはガウシアン:rbfdot)
kpar:カーネルのパラメータ
type:分類と回帰の指定
cross:クロスバリデーション
2014年3月29日土曜日
こんな感じのアウトプット
library(MASS)のPima.trというデータセットの分類
過学習に注意してパラメータチュー二ング!
2014年3月29日土曜日
SVM
2014年3月29日土曜日
おわり!
ご清聴ありがとうございました
2014年3月29日土曜日

20140329 tokyo r lt 「カーネルとsvm」