Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
今日からできる構造学習	
(主に構造化パーセプトロンについて)	
id:syou6162
自己紹介	
•  id:syou6162	
•  ブックマークのエンジニア	
•  前職は自然言語処理や機械学習の研究	
– 4年間ひたすらclojureを書いていた	
•  アイコンは卓球のラケット	
– 8年くらいやっていました
今日の目標	=>	構造化パーセプトロン
でできることを広げよう!	
•  機械学習のライブラリが充実。参入のハードル
は低下	
–  ただし、それは解きたい問題が単純な場合が多い	
–  ただの分類問題	
•  単純な分類問題だけでは解けない問...
対象にしている人	
•  機械学習よく聞くけど、Pythonのライブラリばっ
かりで、Perlでは厳しそうと思っている人	
•  Courseraで機械学習勉強して、自分でロジステッ
ク回帰くらいまでは使えるようになった。でも、分
類問題以外は...
目次	
•  機械学習の問題の種類	
•  構造学習とは何か	
•  線形識別器について	
•  パーセプトロンについて	
– 平均化	
•  コードを見ながら具体例	
•  発展的話題
目次	
•  機械学習の問題の種類	
•  構造学習とは何か	
•  線形識別器について	
•  パーセプトロンについて	
– 平均化	
•  コードを見ながら具体例	
•  発展的話題
機械学習の問題の種類	
•  教師なし学習	
–  クラスタリング(k-means、LDAなど)	
–  密度予測(言語モデル、異常値検出。word2vecはこっち)	
•  教師あり学習	
–  (回帰問題)	
–  二値分類	
–  多値分...
教師あり学習	
•  二値分類	
–  スパム分類	
•  多値分類	
–  はてなブックマークのカテゴリ分類	
•  構造予測	
–  形態素解析(mecabとか)	[Kudo2004]	
–  単語の係り受け解析(cabochaとか)	
[...
例:	Webページランキング	
•  キーワードとの
マッチング率	
•  サイトの重要度	
•  最終更新日	
•  などを加味して
ランキングを決
めたい
例:	係り受け解析	
h8p://www.seas.upenn.edu/~strctlrn/bib/PDF/nonprojec;veHLT-EMNLP2005.pdf	より引用	
•  どの単語(品詞)がどの単語(品詞)と結び付きやすいか	
•...
例:	二部グラフマッチング	
合コンマッチング問題…???	
A君	 B君	 C君	
Xさん	 Yさん	 Zさん	
•  共通の趣味..?	
•  年上/年下…?	
•  年収…?
例:	二部グラフマッチング:	
機械翻訳(単語アライメント)	
h8p://www.phontron.com/slides/alagin2014-align.pdf	より引用	
英語の単語と日本語の単語が	
対になるスコア(確率値)が表の中身
Q: 多値分類で独立に解くのはダメ?	
•  A:	解けるけど、精度がぐっと落ちます	
•  入力だけでなく出力の構造も特徴量に組み込んで精度を
上げることができるのが構造学習のメリット	
–  品詞タグ付けの例[Liang2008]	
•  ...
目次	
•  機械学習の問題の種類	
•  構造学習とは何か	
•  線形識別器について	
•  パーセプトロンについて	
– 平均化	
•  コードを見ながら具体例	
•  発展的話題
線形識別器	
•  入力xと出力ラベルy∈Yについて考える	
•  xとyに対してに対して特徴量ベクトルfx,y∈RMを
作る	
•  重みベクトルw∈RMを用意	
•  スコア関数を特徴量ベクトルと重みベクトルの内
積で定義	
–  s(x,...
分かりやすく言うと…?(文書分類の例)	
入力:	Webページ	x	 ワールドカップの速報Webページ	
	
特徴ベクトルは	
(1)エンタメ &&	本文にサッカーが含まれているか	
(2)経済 &&	本文にサッカーが含まれているか	
(3)エ...
分かりやすく言うと…?(文書分類の例)	
スコア:	s(x,	エンタメ;	w)	=	wTfx,エンタメ =	6	
スコア:	s(x,	経済;	w)	=	wTfx,経済	=	2	
スコアが最大の	
「エンタメ」が入力xの
カテゴリと判定される!	...
線形識別器(再掲)	
•  入力xと出力ラベルy∈Yについて考える	
•  xとyに対してに対して特徴量ベクトルfx,y∈RMを
作る	
•  重みベクトルw∈RMを用意	
•  スコア関数を特徴量ベクトルと重みベクトルの内
積で定義	
–  ...
線形でいいの???	
•  こんなに簡単でいいのか	
•  NLPやIRでよく使われる教師あり学習の手法
はほとんど線形	
– カーネルを使わないSVMやロジステック回帰、条
件付き確率場(CRF)など	
– これらは重みベクトルの学習の方法が...
目次	
•  機械学習の問題の種類	
•  構造学習とは何か	
•  線形識別器について	
•  パーセプトロンについて	
– 平均化	
•  コードを見ながら具体例	
•  発展的話題	
重みベクトルwがあれば	
構造学習できることは分かった...
パーセプトロンについて	
•  線形識別器の中で以下のような重みベクトル
を更新する方法のこと	
•  訓練事例(x,	y)に対して、現在の重みベクトル
wで予測。予測したものをy*とする	
•  y	=	y*の場合は更新しない。そうでない場合...
こんなのでいいのか?!	
•  雑なことしかしてないけど、うまく行くのか?!	
•  証明がちゃんとされている[Collins	2002]	
–  訓練事例が線形識別器で分類可能な場合、有限回
の重みベクトルwの更新で全ての訓練事例を分類で
き...
平均化	
•  そのままでもそこそこの性能はでるが、精度
が安定しない問題がある	
•  評価の時にはitera;on毎の重みベクトルを平
均化(wfinal	=	Σi	wi	/	T)して使うと安定していい
精度が出ることが知られている[Coll...
構造化パーセプトロンを勧める理由	
•  広いクラスの問題に適用可能!	
–  文書分類から合コン(???)まで	
•  実装するのが超簡単	
–  今の重みベクトルwを使って予測する(y*	=	argmax…)	
–  正解yと予測したものy...
目次	
•  機械学習の問題の種類	
•  構造学習とは何か	
•  線形識別器について	
•  パーセプトロンについて	
– 平均化	
•  コードを見ながら具体例	
•  発展的話題
日本語の品詞タグ付けで試す	
h8ps://github.com/syou6162/
structured_perceptron
学習部分(1)	
my $weight = {};!
my $cum_weight = {};!
my $n = 1;!
for my $iter ( 0 .. 10 ) {!
print "Iter: $itern";!
for my $go...
学習部分(2)	
sub update_weight {!
my ( $weight, $cum_weight, $sentence, $predict_sentence, $n,
$pos_labels ) = @_;!
my $gold_f...
どう特徴量に組み込むか?	
sub	extract_features	{	
				my	(	$sentence,	$index,	$pos_prev,	$pos_next	)	=	@_;	
				my	$features	=	List::R...
argmaxはどうやるか?	
文頭から文末まで品詞を	
選択するグラフ上のスコアを
最大にするパスを選択する
問題と見なせる	
クラスラベルYは指数個存在するが、argmaxを選ぶのは動的計画法で	
単語数に線形時間で可能(ビタビアルゴリズム)...
実験(バッチ学習との比較)	
手法	 精度(Accuracy)	
構造化パーセプトロン	 94.4%	
構造化パーセプトロン(平均化)	 95.5%	
CRF++(バッチ学習)	 95.9%	
LSTM(流行りの深層学習)	 間に合わず…	
•...
目次	
•  機械学習の問題の種類	
•  構造学習とは何か	
•  線形識別器について	
•  パーセプトロンについて	
– 平均化	
•  コードを見ながら具体例	
•  発展的話題
時間があれば発展的話題(1)	
•  ミニバッチ学習[Zhao2013]	
–  パーセプトロンはオンライン学習。精度に関してはバッチ
学習のほうが高いことが多い	
– mini-batchにしても収束保証。学習も早くなり、精度
も向上	
• ...
時間があれば発展的話題(2)	
•  様々なパーセプトロンの亜種	
–  (K-best)	MIRA[McDonald2005]	
–  Passive	aggressive	perceptron[Crammer2006]	
–  Confide...
まとめ:		
構造化パーセプトロンを勧める理由	
•  広いクラスの問題に適用可能	
•  実装するのが超簡単	
•  様々な亜種でさらに精度向上できる	
•  PerlにはPythonほど機械学習のライブラリは揃っ
ていないが、構造化パーセプ...
おまけ	
•  NLPの人は新しいアルゴリズムができると係り
受け解析でベンチマークを取るのが好き	
•  自分もいくつか構造化パーセプトロンを使っ
た係り受け解析器を実装してます	
– h8ps://github.com/syou6162/
...
参考資料(1)	
•  日本語入力を支える技術	by	tkngさん	
–  h8ps://www.amazon.co.jp/dp/4774149934	
•  GramさんのNLPチュートリアル	
–  h8p://www.phontron.c...
参考資料(2)	
•  [He2008]C.	He,	C.	Wang,	YX.	Zhong	and	RF.	Li.	A	Survey	on	Learning	to	Rank.	Proceedings	of	
the	Seventh	Intern...
参考資料(3)	
•  [Crammer2006]Koby	Crammer,	Ofer	Dekel,	Joseph	Keshet,	Shai	Shalev-Shwartz,	and	Yoram	
Singer.	2006.	Online	Pas...
Upcoming SlideShare
Loading in …5
×

今日からできる構造学習(主に構造化パーセプトロンについて)

12,908 views

Published on

はてなの社内勉強会で話した構造学習についてのスライドです。

Published in: Data & Analytics

今日からできる構造学習(主に構造化パーセプトロンについて)

  1. 1. 今日からできる構造学習 (主に構造化パーセプトロンについて) id:syou6162
  2. 2. 自己紹介 •  id:syou6162 •  ブックマークのエンジニア •  前職は自然言語処理や機械学習の研究 – 4年間ひたすらclojureを書いていた •  アイコンは卓球のラケット – 8年くらいやっていました
  3. 3. 今日の目標 => 構造化パーセプトロン でできることを広げよう! •  機械学習のライブラリが充実。参入のハードル は低下 –  ただし、それは解きたい問題が単純な場合が多い –  ただの分類問題 •  単純な分類問題だけでは解けない問題も多い •  構造学習が扱えると、やれることがぐっと増える •  構造学習を簡単に扱える方法を紹介 •  簡単なサンプルも書いてみた(品詞タグ付け) –  h8p://;nyurl.com/struct-perceptron
  4. 4. 対象にしている人 •  機械学習よく聞くけど、Pythonのライブラリばっ かりで、Perlでは厳しそうと思っている人 •  Courseraで機械学習勉強して、自分でロジステッ ク回帰くらいまでは使えるようになった。でも、分 類問題以外はどう解いていいか分からない •  機械学習で新しいサービスを作ってみたい。でも、 ただただ分類するだけじゃ面白くないじゃん •  宗教上の理由で深層学習を使えない人
  5. 5. 目次 •  機械学習の問題の種類 •  構造学習とは何か •  線形識別器について •  パーセプトロンについて – 平均化 •  コードを見ながら具体例 •  発展的話題
  6. 6. 目次 •  機械学習の問題の種類 •  構造学習とは何か •  線形識別器について •  パーセプトロンについて – 平均化 •  コードを見ながら具体例 •  発展的話題
  7. 7. 機械学習の問題の種類 •  教師なし学習 –  クラスタリング(k-means、LDAなど) –  密度予測(言語モデル、異常値検出。word2vecはこっち) •  教師あり学習 –  (回帰問題) –  二値分類 –  多値分類 –  構造予測 •  強化学習 –  alphaGo、対話処理 –  どういう行動がベストかは分からないが、何かアクション をしたときに報酬が与えられる
  8. 8. 教師あり学習 •  二値分類 –  スパム分類 •  多値分類 –  はてなブックマークのカテゴリ分類 •  構造予測 –  形態素解析(mecabとか) [Kudo2004] –  単語の係り受け解析(cabochaとか) [Kudo2002,McDonald2005] –  Webページのランキング(Learning to rank) [He2008] –  二部グラフマッチング •  機械翻訳[Taskar2005] •  (合コンのマッチング問題…?) 二値分類、多値分類: 出力がスカラー 構造学習: 出力がスカラーではなく 構造を持つオブジェクト
  9. 9. 例: Webページランキング •  キーワードとの マッチング率 •  サイトの重要度 •  最終更新日 •  などを加味して ランキングを決 めたい
  10. 10. 例: 係り受け解析 h8p://www.seas.upenn.edu/~strctlrn/bib/PDF/nonprojec;veHLT-EMNLP2005.pdf より引用 •  どの単語(品詞)がどの単語(品詞)と結び付きやすいか •  兄弟にはどんな単語がいるのか •  単語間の距離はどれくらいあるか •  などを加味して、構文木を出力したい
  11. 11. 例: 二部グラフマッチング 合コンマッチング問題…??? A君 B君 C君 Xさん Yさん Zさん •  共通の趣味..? •  年上/年下…? •  年収…?
  12. 12. 例: 二部グラフマッチング: 機械翻訳(単語アライメント) h8p://www.phontron.com/slides/alagin2014-align.pdf より引用 英語の単語と日本語の単語が 対になるスコア(確率値)が表の中身
  13. 13. Q: 多値分類で独立に解くのはダメ? •  A: 解けるけど、精度がぐっと落ちます •  入力だけでなく出力の構造も特徴量に組み込んで精度を 上げることができるのが構造学習のメリット –  品詞タグ付けの例[Liang2008] •  構造学習 =>精度: 95.0% •  多値分類で独立に解く => 精度: 91.7% •  タスクが難しくなるほど差は広がる はてな が 上場 名詞 格助詞 (文頭) (文末)
  14. 14. 目次 •  機械学習の問題の種類 •  構造学習とは何か •  線形識別器について •  パーセプトロンについて – 平均化 •  コードを見ながら具体例 •  発展的話題
  15. 15. 線形識別器 •  入力xと出力ラベルy∈Yについて考える •  xとyに対してに対して特徴量ベクトルfx,y∈RMを 作る •  重みベクトルw∈RMを用意 •  スコア関数を特徴量ベクトルと重みベクトルの内 積で定義 –  s(x,y; w) := wT fx,y •  スコア関数が最大となる出力ラベルを出力として 取る –  y* = arg maxy∈Y s(x,y; w)
  16. 16. 分かりやすく言うと…?(文書分類の例) 入力: Webページ x ワールドカップの速報Webページ 特徴ベクトルは (1)エンタメ && 本文にサッカーが含まれているか (2)経済 && 本文にサッカーが含まれているか (3)エンタメ && タグにサッカーが含まれているか (4)経済 && タグにサッカーが含まれているか を表現している(こういうのが数万次元くらいあるイメージ)。 出力ラベル集合: Y = {エンタメ, 経済} 重みベクトル: 特徴ベクトル: 特徴ベクトル: w= [3, 1, 3, 2]T fx,エンタメ = [1, 0, 1, 0]T fx,経済 = [0, 0, 0, 1]T
  17. 17. 分かりやすく言うと…?(文書分類の例) スコア: s(x, エンタメ; w) = wTfx,エンタメ = 6 スコア: s(x, 経済; w) = wTfx,経済 = 2 スコアが最大の 「エンタメ」が入力xの カテゴリと判定される! 入力: Webページ x ワールドカップの速報Webページ 出力ラベル集合: Y = {エンタメ, 経済} 重みベクトル: 特徴ベクトル: 特徴ベクトル: w= [3, 1, 3, 2]T fx,エンタメ = [1, 0, 1, 0]T fx,経済 = [0, 0, 0, 1]T
  18. 18. 線形識別器(再掲) •  入力xと出力ラベルy∈Yについて考える •  xとyに対してに対して特徴量ベクトルfx,y∈RMを 作る •  重みベクトルw∈RMを用意 •  スコア関数を特徴量ベクトルと重みベクトルの内 積で定義 –  s(x,y; w) := wT fx,y •  スコア関数が最大となる出力ラベルを出力として 取る –  y* = arg maxy∈Y s(x,y; w) 多値分類は全てのクラスのスコアを計算。 構造学習では、動的計画法や貪欲法、 ビームサーチなどを使うことが多い。
  19. 19. 線形でいいの??? •  こんなに簡単でいいのか •  NLPやIRでよく使われる教師あり学習の手法 はほとんど線形 – カーネルを使わないSVMやロジステック回帰、条 件付き確率場(CRF)など – これらは重みベクトルの学習の方法が違うだけ •  深層学習で非線形性がもてはやされている が、NLPやIRの分野では線形なモデルとそれ ほど精度が変わらない
  20. 20. 目次 •  機械学習の問題の種類 •  構造学習とは何か •  線形識別器について •  パーセプトロンについて – 平均化 •  コードを見ながら具体例 •  発展的話題 重みベクトルwがあれば 構造学習できることは分かった。 だけど、重みベクトルwってどう やって決めればいいんだろう?
  21. 21. パーセプトロンについて •  線形識別器の中で以下のような重みベクトル を更新する方法のこと •  訓練事例(x, y)に対して、現在の重みベクトル wで予測。予測したものをy*とする •  y = y*の場合は更新しない。そうでない場合は 以下の更新則で重みベクトルを更新 – w* = w + fx,y – fx,y* – 正解の特徴量ベクトルを足して、予測したものの特徴量ベクトルを引く – ただそれだけ!!!
  22. 22. こんなのでいいのか?! •  雑なことしかしてないけど、うまく行くのか?! •  証明がちゃんとされている[Collins 2002] –  訓練事例が線形識別器で分類可能な場合、有限回 の重みベクトルwの更新で全ての訓練事例を分類で きるパラメータを見つけられる •  線形識別器で分類可能でない場合でも、多くの 訓練事例を(びっくりするほど)正しく分類できる •  非線形だと分類できることもあるけど、非線形だ と、学習がそもそもうまく行かないことが多い
  23. 23. 平均化 •  そのままでもそこそこの性能はでるが、精度 が安定しない問題がある •  評価の時にはitera;on毎の重みベクトルを平 均化(wfinal = Σi wi / T)して使うと安定していい 精度が出ることが知られている[Collins 2002] – ナイーブにitera;on毎の重みベクトルを持つと大 変。以下のp26に解決方法 – h8p://www.ss.cs.tut.ac.jp/nlp2011/ nlp2010_tutorial_okanohara.pdf
  24. 24. 構造化パーセプトロンを勧める理由 •  広いクラスの問題に適用可能! –  文書分類から合コン(???)まで •  実装するのが超簡単 –  今の重みベクトルwを使って予測する(y* = argmax…) –  正解yと予測したものy*が異なっていたら –  現在の重みベクトルwに –  正解の特徴量fx,yを足して –  予測した特徴量fx,y*を引くだけ
  25. 25. 目次 •  機械学習の問題の種類 •  構造学習とは何か •  線形識別器について •  パーセプトロンについて – 平均化 •  コードを見ながら具体例 •  発展的話題
  26. 26. 日本語の品詞タグ付けで試す h8ps://github.com/syou6162/ structured_perceptron
  27. 27. 学習部分(1) my $weight = {};! my $cum_weight = {};! my $n = 1;! for my $iter ( 0 .. 10 ) {! print "Iter: $itern";! for my $gold ( List::Util::shuffle @$train_data) {! my $predict = argmax($gold, $weight, $pos_labels);! if (pos_labels_str($gold) ne pos_labels_str($predict)) {! update_weight( $weight, $cum_weight, $gold, $predict, $n, $pos_labels );! $n++;! }! }! }! データの偏りがあると学習が うまく進まないのでシャッフルする
  28. 28. 学習部分(2) sub update_weight {! my ( $weight, $cum_weight, $sentence, $predict_sentence, $n, $pos_labels ) = @_;! my $gold_features = get_features($sentence);! my $predict_features = get_features($predict_sentence);! ! for my $feature (@$gold_features) {! $weight->{$feature} += 1;! $cum_weight->{$feature} += $n;! }! for my $feature (@$predict_features) {! $weight->{$feature} -= 1;! $cum_weight->{$feature} -= $n;! }! }! 正解の特徴量fx,y($gold_features)と 予測の特徴量fx,y*($predict_features)を それぞれ取ってくる 正解の特徴量は足す、 予測の特徴量は引く!
  29. 29. どう特徴量に組み込むか? sub extract_features { my ( $sentence, $index, $pos_prev, $pos_next ) = @_; my $features = List::Rubyish->new; my $w = $index < $sentence->size ? $sentence->[$index]->{w} : "EOS"; my $w_prev = $index - 1 >= 0 ? $sentence->[$index - 1]->{w} : ""; my $w_next = $index + 1 < $sentence->size ? $sentence->[$index + 1]->{w} : ""; $features->push( "transi;on_feature:" . $pos_prev . "+" . $pos_next ); $features->push( "emission_feature:" . $pos_next . "+" . $w ); $features->push( "emission_feature_prev:" . $pos_next . "+" . $w_prev ); $features->push( "emission_feature_next:" . $pos_next . "+" . $w_next ); $features; } wt-1 wt Wt+1 pt-1 pt 使う素性は以下の2種類 (1) 現在の品詞ptと直前の品詞 pt-1(transi;on_feature) (2) 現在の品詞ptと周辺の単語 (wt-1,wt,wt+1)の素性(emission_feature)
  30. 30. argmaxはどうやるか? 文頭から文末まで品詞を 選択するグラフ上のスコアを 最大にするパスを選択する 問題と見なせる クラスラベルYは指数個存在するが、argmaxを選ぶのは動的計画法で 単語数に線形時間で可能(ビタビアルゴリズム) はてな が 上場 名詞 格助詞 (文頭) (文末) コードではforward関数である文頭から ノードまでの最適なスコアを埋めていき、 backword関数で文末から 最適なパスを逆向きに辿っている
  31. 31. 実験(バッチ学習との比較) 手法 精度(Accuracy) 構造化パーセプトロン 94.4% 構造化パーセプトロン(平均化) 95.5% CRF++(バッチ学習) 95.9% LSTM(流行りの深層学習) 間に合わず… •  日本語の品詞タグ付けデータ – h8ps://github.com/neubig/nlptutorial •  学習用818文、テスト用84文
  32. 32. 目次 •  機械学習の問題の種類 •  構造学習とは何か •  線形識別器について •  パーセプトロンについて – 平均化 •  コードを見ながら具体例 •  発展的話題
  33. 33. 時間があれば発展的話題(1) •  ミニバッチ学習[Zhao2013] –  パーセプトロンはオンライン学習。精度に関してはバッチ 学習のほうが高いことが多い – mini-batchにしても収束保証。学習も早くなり、精度 も向上 •  Max-viola;on perceptron[Huang2012] •  argmaxが厳密解ではなく何らかの近似(例えばビー ムサーチ)を使った場合にも収束性を保証。ビーム サーチを使う場合には、ほぼ必須の方法 •  精度79%が92%になったりすることもある(係り受け 解析)
  34. 34. 時間があれば発展的話題(2) •  様々なパーセプトロンの亜種 –  (K-best) MIRA[McDonald2005] –  Passive aggressive perceptron[Crammer2006] –  Confidence weighted perceptron[Dredze2008] –  基本的にどれも解の更新の比率を変えるもの •  L1正則化[Duchi2009] –  構造学習は特徴量が高次元になりがち •  数百万次元とか普通にある –  重みベクトルをコンパクトに。省メモリ化 –  精度とトレードオフだが、ほぼ精度を落とさず重みベクト ルの次元を1/100にできる場合も
  35. 35. まとめ: 構造化パーセプトロンを勧める理由 •  広いクラスの問題に適用可能 •  実装するのが超簡単 •  様々な亜種でさらに精度向上できる •  PerlにはPythonほど機械学習のライブラリは揃っ ていないが、構造化パーセプトロンで幅広い機 械学習の問題を扱える! •  はてなには面白いデータがたくさんあるので、構 造化パーセプトロンで色々遊んでみよう!
  36. 36. おまけ •  NLPの人は新しいアルゴリズムができると係り 受け解析でベンチマークを取るのが好き •  自分もいくつか構造化パーセプトロンを使っ た係り受け解析器を実装してます – h8ps://github.com/syou6162/ simple_shi|_reduce_parsing – h8ps://github.com/syou6162/mst-clj – PerlじゃなくてClojure
  37. 37. 参考資料(1) •  日本語入力を支える技術 by tkngさん –  h8ps://www.amazon.co.jp/dp/4774149934 •  GramさんのNLPチュートリアル –  h8p://www.phontron.com/teaching.php •  [Huang2012]Liang Huang, Suphan Fayong, and Yang Guo. 2012. Structured perceptron with inexact search. In Proceedings of the 2012 Conference of the North American Chapter of the Associa8on for Computa8onal Linguis8cs: Human Language Technologies (NAACL HLT '12). Associa;on for Computa;onal Linguis;cs, Stroudsburg, PA, USA, 142-151. •  [Zhao2013]K. Zhao and L. Huang. Minibatch and paralleliza;on for online large margin structured learn- ing. In NAACL, pages 370–379, 2013. •  [Collins 2002]Michael Collins. 2002. Discrimina;ve training methods for hidden Markov models: theory and experiments with perceptron algorithms. In Proceedings of the ACL-02 conference on Empirical methods in natural language processing - Volume 10 (EMNLP '02), Vol. 10. Associa;on for Computa;onal Linguis;cs, Stroudsburg, PA, USA, 1-8. •  [Taskar2005]Ben Taskar, Simon Lacoste-Julien, and Dan Klein. 2005. A discrimina;ve matching approach to word alignment. In Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing (HLT '05). Associa;on for Computa;onal Linguis;cs, Stroudsburg, PA, USA, 73-80.
  38. 38. 参考資料(2) •  [He2008]C. He, C. Wang, YX. Zhong and RF. Li. A Survey on Learning to Rank. Proceedings of the Seventh Interna;onal Conference on Machine Learning and Cyberne;cs, Kunming, 12-15 July 2008. •  [McDonald2005]Ryan McDonald, Koby Crammer, and Fernando Pereira. 2005. Online large- margin training of dependency parsers. In Proceedings of the 43rd Annual Mee8ng on Associa8on for Computa8onal Linguis8cs (ACL '05). Associa;on for Computa;onal Linguis;cs, Stroudsburg, PA, USA, 91-98. •  [Kudo2004]Taku Kudo, Kaoru Yamamoto, and Yuji Matsumoto. 2004. Applying condi;onal random fields to Japanese morphological analysis. In Proceedings of the Conference on Emprical Methods in Natural Language Processing (EMNLP 2004), volume 2004. •  [Kudo2002]Taku Kudo and Yuji Matsumoto. 2002. Japanese dependency analysis using cascaded chunking. In proceedings of the 6th conference on Natural language learning - Volume 20 (COLING-02), Vol. 20. Associa;on for Computa;onal Linguis;cs, Stroudsburg, PA, USA, 1-7. •  [Liang2008]Percy Liang, Hal Daumé, III, and Dan Klein. 2008. Structure compila;on: trading structure for features. In Proceedings of the 25th interna;onal conference on Machine learning (ICML '08). ACM, New York, NY, USA, 592-599.
  39. 39. 参考資料(3) •  [Crammer2006]Koby Crammer, Ofer Dekel, Joseph Keshet, Shai Shalev-Shwartz, and Yoram Singer. 2006. Online Passive-Aggressive Algorithms. J. Mach. Learn. Res. 7 (December 2006), 551-585. •  [Dredze2008]Mark Dredze, Koby Crammer, and Fernando Pereira. 2008. Confidence- weighted linear classifica;on. In Proceedings of the 25th interna;onal conference on Machine learning (ICML '08). ACM, New York, NY, USA, 264-271. •  [Duchi2009]John Duchi and Yoram Singer. 2009. Efficient Online and Batch Learning Using Forward Backward Spli‚ng. J. Mach. Learn. Res. 10 (December 2009), 2899-2934.

×