『言語処理のための機械学習入門』4章
Upcoming SlideShare
Loading in...5
×
 

『言語処理のための機械学習入門』4章

on

  • 2,781 views

 

Statistics

Views

Total Views
2,781
Views on SlideShare
2,678
Embed Views
103

Actions

Likes
2
Downloads
20
Comments
0

2 Embeds 103

http://mj89sp3sau2k7lj1eg3k40hkeppguj6j-a-sites-opensocial.googleusercontent.com 102
https://confluence.excite.ad.jp 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

『言語処理のための機械学習入門』4章 『言語処理のための機械学習入門』4章 Presentation Transcript

  • 『言語処理のための機械学習入門』 第4章 分類 梶原 智之
  • 4.1 分類クラスタリング → 似ているものをグループ化する → どんなクラスタができるか前もってわからない分類 → あらかじめ決まったグループに分けること → 分けたグループをクラスあるいはカテゴリと呼ぶ分類 (classification , categorization)クラス (class)カテゴリ (category)
  • 4.1 分類・人間が分類規則(classification rule)を書く →人間の知識や直感を規則にする →規則ベース手法(rule-based method)・データから自動的に分類器を構築する →教師付き学習(supervised learning)学習:データを用いてなんらかのモデルや処理方法を導くこと教師付き学習:ラベル付きデータ(labeled data)を用いて行う学習ラベル付きデータ:下のようなデータ集合 事例 ラベル、クラスラベル ラベル付き訓練事例
  • 4.2 ナイーブベイズ分類器ナイーブベイズ分類器 (naive bayes classifier) 確率に基づいた分類器 事例 d に対して P (c|d) が最大となるクラス c ∈ C 出力する P (c|d) を求めるために「ベイズの定理」を用いる この式の右辺を最大にするが、分母はクラスに依存しないので、 右辺の分子を最大にするクラスを考える。 → 多変数ベルヌーイモデル ・ 多項モデル
  • 4.2.1 多変数ベルヌーイモデル多変数ベルヌーイモデル (multivariate Bernoulli model) ナイーブベイズ分類器の多変数ベルヌーイモデルV:語彙(単語の集合)w:語彙Vに含まれる各単語ベルヌーイ分布に従う確率変数Xw,cを考える 各確率変数はwが事例内で出現するときに1となるpw,c:P(Xw,c=1)P(c)=pc:クラスcであるような文書が生成する確率δw,d:単語wが文書dに出現したとき1となる クラスcに対して各単語wが生起するかどうかを表す確率
  • 4.2.1 多変数ベルヌーイモデル多変数ベルヌーイモデルのパラメータ推定 パラメータ推定には文書数を用い、 単語の頻度そのものは使われない
  • 4.2.2 多項モデル多変数ベルヌーイモデル →各単語が起こるか起こらないかをモデル化 単語wが文書dで生起したか否かという情報で文書を表現 ある単語が生起しなかったということを積極的に取り入れる多項モデル (multinomial model) →文書中の各位置についてどんな単語が起こるかをモデル化 単語wが文書dで生起した回数が分類に影響を与える 生起しなかった単語は相手にせず、生起した単語だけに着目
  • 4.2.2 多項モデルナイーブベイズ分類器の多項モデルV:語彙(単語の集合)w:語彙Vに含まれる各単語qw,c:クラスcnP(c)=pc:クラスcであるような文書が生成する確率nw,d:単語wが文書dに出現した回数
  • 4.2.2 多項モデル多項モデルのパラメータ推定(最尤推定)
  • 4.2.3 最尤推定の問題点例題4.1~例題4.8は重要なので各自で確認しておいてください最尤推定の問題点 ある単語がデータにたまたま出現しなかったからといって その確率を0としてしまうことは非常に危険である →MAP推定MAP推定 (maximum a posteriori estimation) ディリクレ分布を用いて確率分布を均す (パラメータの値が0や1から遠ざかり、極端な値でなくなる) →スムージング(smoothing)
  • 4.3 サポートベクトルましnサポートベクトルマシン (support vector machine : SVM) 非常に高い分類性能を持つ線形二値分類器 →クラス数が2つであるような問題に用いられる (カーネル法と組み合わせることで非線形な分類も可能) ・ 正クラス(positive class) より興味を持っているクラスを正クラスとする 正クラスに属する事例を正例(positive example)と呼ぶ ・ 負クラス(negative class) 負クラスに属する事例を負例(negative example)と呼ぶ
  • 4.3 サポートベクトルマシン訓練データ x:事例の素性ベクトル(事例ベクトル) y:事例のクラスラベル(正例:+1 , 負例:-1) w:分離平面の方向ベクトル f(x)≧0 → 正クラス b:切片 f(x)<0 → 負クラス
  • 4.3 サポートベクトルマシン分離平面 (separating plane) 訓練データを分類する平面 よい分離平面とは? →マージン最大化 (margin maximization) 「どちらのクラスからもなるべく遠い位置で分ける」 分離平面のマージン(margin):最も近い訓練事例への距離
  • 4.3.1 多値分類器への拡張サポートベクトルマシンは二値分類器である →クラス数が3以上である多値分類問題へも適用したい →one-versus-rest法 ・ ペアワイズ法one-versus-rest method 各クラスについて1つの分離平面をつくる n 個のクラスに対して n 個の分離平面をSVMで求めるpairwise method クラス対ごとに、どちらのクラスであるかを分ける平面をつくる n 個のクラスに対して n(n-1)/2 個の分離平面をSVMで求める