SlideShare a Scribd company logo
1 of 11
Download to read offline
SVMチュートリアル
小平 知範
1
SVMを使うまでの流れ
1. データをSVM用に変換(dat)
2. スケール調整を行う。
3. RBFカーネルの利用
4. 交差検定を用いて最適なパラメータCとγを発見
5. 最適なパラメータを用いて訓練データにたいして
モデル生成を行う
2
http://www.slideshare.net/sleepy_yoshi/svm-13435949?
ref=http://d.hatena.ne.jp/sleepy_yoshi/20120624/p1引用:
1.データをSVM用に変換
• 左端に、適合度
• 次にクエリID
• 最後に素性の列挙
3
2.スケール調整
• スケール調整をする理由

 値の範囲が大きい素性に傾くから

 基本的にカーネル関数では、素性ベクトルの内積
をもちいるため、、情報落ち誤差が発生するから
• スケール調整を行う際、の注意点は、圧縮率を同じ
にする。
4
3.RBFカーネル
• RBFカーネルを使う理由

 線形カーネルと同等の性能を示すことができる。

 調整すべきカーネルパラメータが一つ(γ)
5
4.交差検定でパラメータ

を決める• 決めるもの

SVMのマージンCと、RBFカーネルのパラメータγ
• テストデータは本来未知のデータ

訓練データの一部をテストデータとし、交差検定
• グリッド探索で見つける。

 Cとγを値を変えていって、網羅的に探索

 指数列増加列を使うといいらしい
• グリッド探索の利点

 並列可能、網羅的なので安心
6
SVM-Rankの使い方
• インストール

1、サイトからダウンロード

2、解凍して、makeコマンド入力

3、作ったものをPATHのあるとこに移動させる
• コマンド

ー学習

 svm_rank_learn -c 3 trainfile modelfile

ー予測

 svm_rank_classify testfile modelfile output
参考URL:http://ktsukuda.net/tool/svm-rank/
7
トレーニングデータ
• 各行がクエリに検索
されたドキュメント
• 行の先頭の数字は

クエリとの適合度
• qidはクエリのID、

素性:値で並ぶ
8
テストデータと予測結果
• トレーニングデータ同様の並び。
• 予測結果
9
オプション
• Learning Options:

-c float -> マージンの値(default 0.01)

-p [1, 2] -> L1正則化(slack), L2正則化(squared)

-o [1, 2] -> スケール調整 1: slack 2: margin

-l [0…] -> 損失関数:間違った推定をした時の損失
       0: zero/one to use
• スケール調整:

 基本的にカーネル関数では、素性ベクトルの内積を用
いるため、スケール調整しないと情報落ち誤差が発生
10
オプション
• Kernel Options

-t int -> カーネル関数のタイプ

0: 線形カーネル(default)

1: 多項式カーネル 

    2: RBFカーネル 

    3: シグモイドカーネル 

4: 自分で定義した、カーネル
11

More Related Content

More from Kodaira Tomonori

[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築Kodaira Tomonori
 
Noise or additional information? Leveraging crowdsource annotation item agree...
Noise or additional information? Leveraging crowdsource annotation item agree...Noise or additional information? Leveraging crowdsource annotation item agree...
Noise or additional information? Leveraging crowdsource annotation item agree...Kodaira Tomonori
 
語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセット改良[ブースター]語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセット改良[ブースター]Kodaira Tomonori
 
語彙平易化システム評価のためのデータセットの改良[ポスター]
語彙平易化システム評価のためのデータセットの改良[ポスター]語彙平易化システム評価のためのデータセットの改良[ポスター]
語彙平易化システム評価のためのデータセットの改良[ポスター]Kodaira Tomonori
 
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...Kodaira Tomonori
 
WordNet-Based Lexical Simplification of Document
WordNet-Based Lexical Simplification of DocumentWordNet-Based Lexical Simplification of Document
WordNet-Based Lexical Simplification of DocumentKodaira Tomonori
 
文レベルの機械翻訳評価尺度に関する調査
文レベルの機械翻訳評価尺度に関する調査文レベルの機械翻訳評価尺度に関する調査
文レベルの機械翻訳評価尺度に関する調査Kodaira Tomonori
 
Simp lex rankng based on contextual and psycholinguistic features
Simp lex rankng based on contextual and psycholinguistic featuresSimp lex rankng based on contextual and psycholinguistic features
Simp lex rankng based on contextual and psycholinguistic featuresKodaira Tomonori
 
Aligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipediaAligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipediaKodaira Tomonori
 
日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築Kodaira Tomonori
 
Improving text simplification language modeling using unsimplified text data
Improving text simplification language modeling using unsimplified text dataImproving text simplification language modeling using unsimplified text data
Improving text simplification language modeling using unsimplified text dataKodaira Tomonori
 
言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価Kodaira Tomonori
 
聾者向け文章読解支援における構文的言い換えの効果について
聾者向け文章読解支援における構文的言い換えの効果について聾者向け文章読解支援における構文的言い換えの効果について
聾者向け文章読解支援における構文的言い換えの効果についてKodaira Tomonori
 
国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化Kodaira Tomonori
 

More from Kodaira Tomonori (14)

[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
 
Noise or additional information? Leveraging crowdsource annotation item agree...
Noise or additional information? Leveraging crowdsource annotation item agree...Noise or additional information? Leveraging crowdsource annotation item agree...
Noise or additional information? Leveraging crowdsource annotation item agree...
 
語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセット改良[ブースター]語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセット改良[ブースター]
 
語彙平易化システム評価のためのデータセットの改良[ポスター]
語彙平易化システム評価のためのデータセットの改良[ポスター]語彙平易化システム評価のためのデータセットの改良[ポスター]
語彙平易化システム評価のためのデータセットの改良[ポスター]
 
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
 
WordNet-Based Lexical Simplification of Document
WordNet-Based Lexical Simplification of DocumentWordNet-Based Lexical Simplification of Document
WordNet-Based Lexical Simplification of Document
 
文レベルの機械翻訳評価尺度に関する調査
文レベルの機械翻訳評価尺度に関する調査文レベルの機械翻訳評価尺度に関する調査
文レベルの機械翻訳評価尺度に関する調査
 
Simp lex rankng based on contextual and psycholinguistic features
Simp lex rankng based on contextual and psycholinguistic featuresSimp lex rankng based on contextual and psycholinguistic features
Simp lex rankng based on contextual and psycholinguistic features
 
Aligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipediaAligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipedia
 
日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築
 
Improving text simplification language modeling using unsimplified text data
Improving text simplification language modeling using unsimplified text dataImproving text simplification language modeling using unsimplified text data
Improving text simplification language modeling using unsimplified text data
 
言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価
 
聾者向け文章読解支援における構文的言い換えの効果について
聾者向け文章読解支援における構文的言い換えの効果について聾者向け文章読解支援における構文的言い換えの効果について
聾者向け文章読解支援における構文的言い換えの効果について
 
国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化
 

ランキングSvmチュートリアル