ランキングSvmチュートリアル

•

4 likes•2,980 views

Kodaira Tomonori

ランキングSVMチュートリアル参考スライド：http://www.slideshare.net/sleepy_yoshi/svm-13435949?ref=http://d.hatena.ne.jp/sleepy_yoshi/20120624/p1 参考URL：http://ktsukuda.net/tool/svm-rank/

SVMチュートリアル
小平知範
1

SVMを使うまでの流れ
1. データをSVM用に変換（dat)
2. スケール調整を行う。
3. RBFカーネルの利用
4. 交差検定を用いて最適なパラメータCとγを発見
5. 最適なパラメータを用いて訓練データにたいして
モデル生成を行う
2
http://www.slideshare.net/sleepy_yoshi/svm-13435949?
ref=http://d.hatena.ne.jp/sleepy_yoshi/20120624/p1引用：

1.データをSVM用に変換
• 左端に、適合度
• 次にクエリID
• 最後に素性の列挙
3

２.スケール調整
• スケール調整をする理由 
値の範囲が大きい素性に傾くから 
基本的にカーネル関数では、素性ベクトルの内積
をもちいるため、、情報落ち誤差が発生するから
• スケール調整を行う際、の注意点は、圧縮率を同じ
にする。
4

3.RBFカーネル
• RBFカーネルを使う理由 
線形カーネルと同等の性能を示すことができる。 
調整すべきカーネルパラメータが一つ(γ)
5

４.交差検定でパラメータ 
を決める• 決めるもの 
SVMのマージンCと、RBFカーネルのパラメータγ
• テストデータは本来未知のデータ 
訓練データの一部をテストデータとし、交差検定
• グリッド探索で見つける。 
Cとγを値を変えていって、網羅的に探索 
指数列増加列を使うといいらしい
• グリッド探索の利点 
並列可能、網羅的なので安心
6

SVM-Rankの使い方
• インストール 
１、サイトからダウンロード 
２、解凍して、makeコマンド入力 
3、作ったものをPATHのあるとこに移動させる
• コマンド 
ー学習 
svm_rank_learn -c 3 trainfile modelfile 
ー予測 
svm_rank_classify testfile modelfile output
参考URL:http://ktsukuda.net/tool/svm-rank/
7

トレーニングデータ
• 各行がクエリに検索
されたドキュメント
• 行の先頭の数字は 
クエリとの適合度
• qidはクエリのID、 
素性:値で並ぶ
8

テストデータと予測結果
• トレーニングデータ同様の並び。
• 予測結果
9

オプション
• Learning Options: 
-c ﬂoat -> マージンの値(default 0.01) 
-p [1, 2] -> L１正則化(slack), L２正則化(squared) 
-o [1, 2] -> スケール調整 1: slack 2: margin 
-l [0…] -> 損失関数：間違った推定をした時の損失
0: zero/one to use
• スケール調整： 
基本的にカーネル関数では、素性ベクトルの内積を用
いるため、スケール調整しないと情報落ち誤差が発生
10

オプション
• Kernel Options 
-t int -> カーネル関数のタイプ 
0: 線形カーネル（default) 
1: 多項式カーネル  
2: RBFカーネル  
3: シグモイドカーネル  
4: 自分で定義した、カーネル
11

Recommended

Deep recurrent generative decoder for abstractive text summarization

Deep recurrent generative decoder for abstractive text summarization

Deep recurrent generative decoder for abstractive text summarizationKodaira Tomonori

Selective encoding for abstractive sentence summarization

Selective encoding for abstractive sentence summarization

Selective encoding for abstractive sentence summarizationKodaira Tomonori

Abstractive Text Summarization @Retrieva seminar

Abstractive Text Summarization @Retrieva seminar

Abstractive Text Summarization @Retrieva seminarKodaira Tomonori

AttSum: Joint Learning of Focusing and Summarization with Neural Attention

AttSum: Joint Learning of Focusing and Summarization with Neural Attention

AttSum: Joint Learning of Focusing and Summarization with Neural AttentionKodaira Tomonori

障害情報レポートに対する同時関連文章圧縮

障害情報レポートに対する同時関連文章圧縮

障害情報レポートに対する同時関連文章圧縮Kodaira Tomonori

Neural Summarization by Extracting Sentences and Words

Neural Summarization by Extracting Sentences and Words

Neural Summarization by Extracting Sentences and WordsKodaira Tomonori

Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification

Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification

Poster: Controlled and Balanced Dataset for Japanese Lexical SimplificationKodaira Tomonori

[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...

[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...

[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...Kodaira Tomonori

Recommended

Deep recurrent generative decoder for abstractive text summarization

Deep recurrent generative decoder for abstractive text summarization

Deep recurrent generative decoder for abstractive text summarizationKodaira Tomonori

Selective encoding for abstractive sentence summarization

Selective encoding for abstractive sentence summarization

Selective encoding for abstractive sentence summarizationKodaira Tomonori

Abstractive Text Summarization @Retrieva seminar

Abstractive Text Summarization @Retrieva seminar

Abstractive Text Summarization @Retrieva seminarKodaira Tomonori

AttSum: Joint Learning of Focusing and Summarization with Neural Attention

AttSum: Joint Learning of Focusing and Summarization with Neural Attention

AttSum: Joint Learning of Focusing and Summarization with Neural AttentionKodaira Tomonori

障害情報レポートに対する同時関連文章圧縮

障害情報レポートに対する同時関連文章圧縮

障害情報レポートに対する同時関連文章圧縮Kodaira Tomonori

Neural Summarization by Extracting Sentences and Words

Neural Summarization by Extracting Sentences and Words

Neural Summarization by Extracting Sentences and WordsKodaira Tomonori

Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification

Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification

Poster: Controlled and Balanced Dataset for Japanese Lexical SimplificationKodaira Tomonori

[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...

[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...

[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...Kodaira Tomonori

[ポスター]均衡コーパスを用いた語彙平易化データセットの構築

[ポスター]均衡コーパスを用いた語彙平易化データセットの構築

[ポスター]均衡コーパスを用いた語彙平易化データセットの構築Kodaira Tomonori

Noise or additional information? Leveraging crowdsource annotation item agree...

Noise or additional information? Leveraging crowdsource annotation item agree...

Noise or additional information? Leveraging crowdsource annotation item agree...Kodaira Tomonori

語彙平易化システム評価のためのデータセット改良[ブースター]

語彙平易化システム評価のためのデータセット改良[ブースター]

語彙平易化システム評価のためのデータセット改良[ブースター]Kodaira Tomonori

語彙平易化システム評価のためのデータセットの改良[ポスター]

語彙平易化システム評価のためのデータセットの改良[ポスター]

語彙平易化システム評価のためのデータセットの改良[ポスター]Kodaira Tomonori

PPDB 2.0: Better paraphrase ranking,  fine-grained entailment relations, word...

PPDB 2.0: Better paraphrase ranking,  fine-grained entailment relations, word...

PPDB 2.0: Better paraphrase ranking,  fine-grained entailment relations, word...Kodaira Tomonori

WordNet-Based Lexical Simplification of Document

WordNet-Based Lexical Simplification of Document

WordNet-Based Lexical Simplification of DocumentKodaira Tomonori

文レベルの機械翻訳評価尺度に関する調査

文レベルの機械翻訳評価尺度に関する調査

文レベルの機械翻訳評価尺度に関する調査Kodaira Tomonori

Simp lex rankng based on contextual and psycholinguistic features

Simp lex rankng based on contextual and psycholinguistic features

Simp lex rankng based on contextual and psycholinguistic featuresKodaira Tomonori

Aligning sentences from standard wikipedia to simple wikipedia

Aligning sentences from standard wikipedia to simple wikipedia

Aligning sentences from standard wikipedia to simple wikipediaKodaira Tomonori

日本語の語彙平易化評価セットの構築

日本語の語彙平易化評価セットの構築

日本語の語彙平易化評価セットの構築Kodaira Tomonori

Improving text simplification language modeling using unsimplified text data

Improving text simplification language modeling using unsimplified text data

Improving text simplification language modeling using unsimplified text dataKodaira Tomonori

言い換えを用いたテキスト要約の自動評価

言い換えを用いたテキスト要約の自動評価

言い換えを用いたテキスト要約の自動評価Kodaira Tomonori

聾者向け文章読解支援における構文的言い換えの効果について

聾者向け文章読解支援における構文的言い換えの効果について

聾者向け文章読解支援における構文的言い換えの効果についてKodaira Tomonori

国語辞典を使った放送ニュースの名詞の平易化

国語辞典を使った放送ニュースの名詞の平易化

国語辞典を使った放送ニュースの名詞の平易化Kodaira Tomonori

More Related Content

More from Kodaira Tomonori

[ポスター]均衡コーパスを用いた語彙平易化データセットの構築

[ポスター]均衡コーパスを用いた語彙平易化データセットの構築

[ポスター]均衡コーパスを用いた語彙平易化データセットの構築Kodaira Tomonori

Noise or additional information? Leveraging crowdsource annotation item agree...

Noise or additional information? Leveraging crowdsource annotation item agree...

Noise or additional information? Leveraging crowdsource annotation item agree...Kodaira Tomonori

語彙平易化システム評価のためのデータセット改良[ブースター]

語彙平易化システム評価のためのデータセット改良[ブースター]

語彙平易化システム評価のためのデータセット改良[ブースター]Kodaira Tomonori

語彙平易化システム評価のためのデータセットの改良[ポスター]

語彙平易化システム評価のためのデータセットの改良[ポスター]

語彙平易化システム評価のためのデータセットの改良[ポスター]Kodaira Tomonori

PPDB 2.0: Better paraphrase ranking,  fine-grained entailment relations, word...

PPDB 2.0: Better paraphrase ranking,  fine-grained entailment relations, word...

PPDB 2.0: Better paraphrase ranking,  fine-grained entailment relations, word...Kodaira Tomonori

WordNet-Based Lexical Simplification of Document

WordNet-Based Lexical Simplification of Document

WordNet-Based Lexical Simplification of DocumentKodaira Tomonori

文レベルの機械翻訳評価尺度に関する調査

文レベルの機械翻訳評価尺度に関する調査

文レベルの機械翻訳評価尺度に関する調査Kodaira Tomonori

Simp lex rankng based on contextual and psycholinguistic features

Simp lex rankng based on contextual and psycholinguistic features

Simp lex rankng based on contextual and psycholinguistic featuresKodaira Tomonori

Aligning sentences from standard wikipedia to simple wikipedia

Aligning sentences from standard wikipedia to simple wikipedia

Aligning sentences from standard wikipedia to simple wikipediaKodaira Tomonori

日本語の語彙平易化評価セットの構築

日本語の語彙平易化評価セットの構築

日本語の語彙平易化評価セットの構築Kodaira Tomonori

Improving text simplification language modeling using unsimplified text data

Improving text simplification language modeling using unsimplified text data

Improving text simplification language modeling using unsimplified text dataKodaira Tomonori

言い換えを用いたテキスト要約の自動評価

言い換えを用いたテキスト要約の自動評価

言い換えを用いたテキスト要約の自動評価Kodaira Tomonori

聾者向け文章読解支援における構文的言い換えの効果について

聾者向け文章読解支援における構文的言い換えの効果について

聾者向け文章読解支援における構文的言い換えの効果についてKodaira Tomonori

国語辞典を使った放送ニュースの名詞の平易化

国語辞典を使った放送ニュースの名詞の平易化

国語辞典を使った放送ニュースの名詞の平易化Kodaira Tomonori

More from Kodaira Tomonori (14)

[ポスター]均衡コーパスを用いた語彙平易化データセットの構築

[ポスター]均衡コーパスを用いた語彙平易化データセットの構築

[ポスター]均衡コーパスを用いた語彙平易化データセットの構築

Noise or additional information? Leveraging crowdsource annotation item agree...

Noise or additional information? Leveraging crowdsource annotation item agree...

Noise or additional information? Leveraging crowdsource annotation item agree...

語彙平易化システム評価のためのデータセット改良[ブースター]

語彙平易化システム評価のためのデータセット改良[ブースター]

語彙平易化システム評価のためのデータセット改良[ブースター]

語彙平易化システム評価のためのデータセットの改良[ポスター]

語彙平易化システム評価のためのデータセットの改良[ポスター]

語彙平易化システム評価のためのデータセットの改良[ポスター]

PPDB 2.0: Better paraphrase ranking,  fine-grained entailment relations, word...

PPDB 2.0: Better paraphrase ranking,  fine-grained entailment relations, word...

PPDB 2.0: Better paraphrase ranking,  fine-grained entailment relations, word...

WordNet-Based Lexical Simplification of Document

WordNet-Based Lexical Simplification of Document

WordNet-Based Lexical Simplification of Document

文レベルの機械翻訳評価尺度に関する調査

文レベルの機械翻訳評価尺度に関する調査

文レベルの機械翻訳評価尺度に関する調査

Simp lex rankng based on contextual and psycholinguistic features

Simp lex rankng based on contextual and psycholinguistic features

Simp lex rankng based on contextual and psycholinguistic features

Aligning sentences from standard wikipedia to simple wikipedia

Aligning sentences from standard wikipedia to simple wikipedia

Aligning sentences from standard wikipedia to simple wikipedia

日本語の語彙平易化評価セットの構築

日本語の語彙平易化評価セットの構築

日本語の語彙平易化評価セットの構築

Improving text simplification language modeling using unsimplified text data

Improving text simplification language modeling using unsimplified text data

Improving text simplification language modeling using unsimplified text data

言い換えを用いたテキスト要約の自動評価

言い換えを用いたテキスト要約の自動評価

言い換えを用いたテキスト要約の自動評価

聾者向け文章読解支援における構文的言い換えの効果について

聾者向け文章読解支援における構文的言い換えの効果について

聾者向け文章読解支援における構文的言い換えの効果について

国語辞典を使った放送ニュースの名詞の平易化

国語辞典を使った放送ニュースの名詞の平易化

国語辞典を使った放送ニュースの名詞の平易化

ランキングSvmチュートリアル

1. SVMチュートリアル小平知範 1

2. SVMを使うまでの流れ 1. データをSVM用に変換（dat) 2. スケール調整を行う。 3. RBFカーネルの利用 4. 交差検定を用いて最適なパラメータCとγを発見 5. 最適なパラメータを用いて訓練データにたいしてモデル生成を行う 2 http://www.slideshare.net/sleepy_yoshi/svm-13435949? ref=http://d.hatena.ne.jp/sleepy_yoshi/20120624/p1引用：

3. 1.データをSVM用に変換 • 左端に、適合度 • 次にクエリID • 最後に素性の列挙 3

4. ２.スケール調整 • スケール調整をする理由  値の範囲が大きい素性に傾くから  基本的にカーネル関数では、素性ベクトルの内積をもちいるため、、情報落ち誤差が発生するから • スケール調整を行う際、の注意点は、圧縮率を同じにする。 4

5. 3.RBFカーネル • RBFカーネルを使う理由  線形カーネルと同等の性能を示すことができる。  調整すべきカーネルパラメータが一つ(γ) 5

6. ４.交差検定でパラメータ  を決める• 決めるもの  SVMのマージンCと、RBFカーネルのパラメータγ • テストデータは本来未知のデータ  訓練データの一部をテストデータとし、交差検定 • グリッド探索で見つける。  Cとγを値を変えていって、網羅的に探索  指数列増加列を使うといいらしい • グリッド探索の利点  並列可能、網羅的なので安心 6

7. SVM-Rankの使い方 • インストール  １、サイトからダウンロード  ２、解凍して、makeコマンド入力  3、作ったものをPATHのあるとこに移動させる • コマンド  ー学習  svm_rank_learn -c 3 trainfile modelfile  ー予測  svm_rank_classify testfile modelfile output 参考URL:http://ktsukuda.net/tool/svm-rank/ 7

8. トレーニングデータ • 各行がクエリに検索されたドキュメント • 行の先頭の数字は  クエリとの適合度 • qidはクエリのID、  素性:値で並ぶ 8

9. テストデータと予測結果 • トレーニングデータ同様の並び。 • 予測結果 9

10. オプション • Learning Options:  -c ﬂoat -> マージンの値(default 0.01)  -p [1, 2] -> L１正則化(slack), L２正則化(squared)  -o [1, 2] -> スケール調整 1: slack 2: margin  -l [0…] -> 損失関数：間違った推定をした時の損失 0: zero/one to use • スケール調整：  基本的にカーネル関数では、素性ベクトルの内積を用いるため、スケール調整しないと情報落ち誤差が発生 10

11. オプション • Kernel Options  -t int -> カーネル関数のタイプ  0: 線形カーネル（default)  1: 多項式カーネル   2: RBFカーネル   3: シグモイドカーネル   4: 自分で定義した、カーネル 11