SlideShare a Scribd company logo
1 of 19
Download to read offline
Komachi Lab ACL reading 2014/8/1 
Fast and Robust Neural Network 
Joint Model for Statistical Machine 
Translation 
Jacob Devlin, Rabih Zbib, Zhongqiang Huang, Thomas 
Lamar, Richard Schwartz and John Makhoul 
Introducing by Yoshiaki Kitagawa
論文の概要 
• 最近の研究では機械翻訳にNNLM(Neural Network 
Language Model)を用いた手法が成功している 
• この論文ではNNLMとともにソース言語の 
context windowを追加し拡張したNNJM(Neural 
NetWork Joint Model)を紹介する 
• また2つのアイディアによって計算量を10000 
倍に! 
– Self-normalization, Pre-Computing the hidden layer 
– これによりback-off LMと同じくらいのスピードを実 
現P-01
論文のKeyword 
• NNJM(Neural Network Joint Model) 
– NNLMとは、式の説明、NNの構造 
• Self-normalization 
–正規化に関する工夫 
• Pre-Computing the hidden laye 
-隠れ層計算に関する工夫
NNJM(Neural NetWork Joint Model) 
• NNLMにソース言語の情報を入れたもの 
– OpenMT12ではBLEUが3.0上がった 
– Chiang’s(2007)のオリジナルのシンプルなベー 
スラインと比べるとBLEUが6.3上がった 
→問題はないのか?
NNJM(Neural NetWork Joint Model) 
• こんなに情報を増やしたらスパースで扱 
いきれないのでは? 
– NNで学習しているので大丈夫 
• 情報量を増やしているので計算に時間が 
かかりそう 
–今回の論文のアイディアで計算量は少なくな 
る
NNJMの式を見てみる 
合わせて書くと 
ここがJoinされて 
る! 
ターゲットの単語のソース言語を中心と 
するm-word のwindow(全部でm個!!)
具体例 
ターゲットのワードが” the”であると 
き 
対応するソース言語の中心となる単語(今でいう” money”)はいくつか 
のヒューリスティックに基づく考えから決定する(3つの場合分け) 
vector for target word “ the” , using a3-word target history and a5-word = 5). Here, “ the” inherits itsaffiliation from“money” because this The number in each box denotes the index of the word in the context consistent across samples, but the absolute ordering does not affect results.
NNの構造 
• 3 target word + 11 source word = 14 word を 
入力とする 
• それぞれの単語を192次元のベクトルに 
変換 
• 隠れ層は2つで次元は512次元 
– tanhで非線形変換 
• 出力層 
– Soft-maxで確率に
NNの構造図 
http://www.slideshare.net/YusukeOda1/acl-37075866
denotes the index of the word in the context vector. This 
Self-normalizerを考えたきっか 
absolute ordering does not affect results. 
け 
likelihood as: 
• 出力層はsoft-max 
log(P (x)) = log 
eUr (x) 
Z(x) 
= Ur (x)− log(Z(x)) 
Z(x) = ⌃ |V | 
r 0=1eUr 0(x) 
着眼点はこ 
wherex isthesample,U istheraw output layer 
scores, • Z(x)r のis 計the 算にoutput 時間layer がかかrow る 
corresponding to 
the observed target word, andZ(x) is thesoftmax 
normalizer. 
If we could guarantee that were al-ways 
! 
– log(Z(x))=0 ⇒ Z(x)=1 になってくれれば…! 
– log(P(x))=Ur(x) としたい! 
こ!
Self-normalizer 
K10 
samples) 
resulting in 
Decoding is 
• トレーニングで以下の式を用いることで 
log(Z(x))を出来るだけ0に近づけた 
–これによりデコードのスピードは15倍程度向 
isasignificant 
dominated by 
vocabu-lary. 
Le et 
vocabulary, and 
fairly 
sim-ply 
If we could guarantee that log(Z(x)) were al-ways 
equal to 0 (i.e., Z(x) = 1) then at decode 
timewewould only have to compute row r of the 
output layer instead of the whole matrix. While 
wecannot train aneural network with thisguaran-tee, 
we can explicitly encourage the log-softmax 
normalizer to be as close to 0 as possible by aug-menting 
our training objective function: 
L = 
X 
i 
⇥ log(P (xi 
))− ↵(log(Z(xi 
))− 0)2⇤ 
= 
X 
i 
⇥ log(P (xi 
))− ↵ log2(Z(xi 
)) 
⇤ 
In this case, the output layer bias weights are 
initialized to log(1/|V|), so that the initial net-work 
is self-normalized. At decode time, we sim-ply 
use Ur (x) as the feature score, rather than 
上 
•  αはパラメータで0-1の間で調整 
– α=0はスタンダードなNNと変わらないこと 
に注意
NNJMの計算量の問題(NNの最初) 
t-word 
t-word 
t-word 
t-word 
t-word 
t-word 
s-word 
s-word 
….. 
s-word 
s-word 
s-word 
….. 
s-word 
1wordが192次元のベクト 
1wordが192次元のベクト 
ル 
ル 
一つ目のノード 
(これが全部で 
一つ目のノード 
(これが全部で 
512個) 
隠れ層1 
512個) 
隠れ層1 
1144(w(woorrdd数数)*)*119922(1(1単単語語ああたたりりのの次次元元)*)*551122のの計計算算がが必必要要
Pre-computing(解決策) 
• アイディア 
–計算を前もってしておき、tableに保存してお 
く 
• どの部分を保存するか 
– Wordと隠れ層の内積の値を保存 
–このtableは512MB以下に収まる 
• Window部分はあらかじめ和をとっておく 
ことで1つの値として保持(pre-summing) 
– これにより、3(t-word)+1(window)+1(bias) =5  つの和 
に!
さまざまなモデル 
• 翻訳の方向(2通り)*履歴を左右どちら 
から選ぶか(2通り)=4通りのモデルがあ 
る 
ソースtoターゲットの意 
味Right to Left の意味 
この感じで他の2つを紹介(いままで考え 
てきたものが1通り目)
さまざまなモデル 
これらのモデルdecodingではなくrescoringに 
用いている
NULLアライメントの考慮 
• NNLMはNULLアライメントを考慮してい 
ない 
• そこでソース言語の各単語からNULLを含 
むターゲット言語が生成する確率を定義 
NNTLM(Neural Network Lexical Translation)
結果 
• Decodingに 
NNJM,NMLTMを用 
いるとopenMT12- 
1stよりBLEUが3程 
度上昇 
• 素性の少ないシン 
プルなベースライ 
ンと比べると6程 
度上昇
結果 
• RNNLMよりも 
NNJM,NNLTMを用 
いた方が良い結果 
が得られている 
• NNJMはrescoring 
よりdecodingに適 
している
まとめ 
• NNJMというソース言語の単語から単語を推定す 
るモデルを作成 
– いままでの言語モデルにソースの情報を追加 
• Self-normalization Pre-computing 等の計算の工夫に 
より計算量をback-off LMと同程度の計算量にした 
(10000倍) 
– BLEUは0.2程度しか下がらない

More Related Content

What's hot

20150803.山口大学集中講義
20150803.山口大学集中講義20150803.山口大学集中講義
20150803.山口大学集中講義Hayaru SHOUNO
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Seiya Tokui
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17Masayoshi Kondo
 
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Masayoshi Kondo
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
パターン認識 08 09 k-近傍法 lvq
パターン認識 08 09 k-近傍法 lvqパターン認識 08 09 k-近傍法 lvq
パターン認識 08 09 k-近傍法 lvqsleipnir002
 
mxnetで頑張る深層学習
mxnetで頑張る深層学習mxnetで頑張る深層学習
mxnetで頑張る深層学習Takashi Kitano
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化Miyoshi Yuya
 
[第2版]Python機械学習プログラミング 第13章
[第2版]Python機械学習プログラミング 第13章[第2版]Python機械学習プログラミング 第13章
[第2版]Python機械学習プログラミング 第13章Haruki Eguchi
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKSDeep Learning JP
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesKoji Matsuda
 
Stochastic Gradient MCMC
Stochastic Gradient MCMCStochastic Gradient MCMC
Stochastic Gradient MCMCKenta Oono
 
BMS Molecular Translation 3rd place solution
BMS Molecular Translation 3rd place solutionBMS Molecular Translation 3rd place solution
BMS Molecular Translation 3rd place solutionKazuki Fujikawa
 
低ランク行列補完のためのマトロイド理論
低ランク行列補完のためのマトロイド理論低ランク行列補完のためのマトロイド理論
低ランク行列補完のためのマトロイド理論ryotat
 
深層学習 Day1レポート
深層学習 Day1レポート深層学習 Day1レポート
深層学習 Day1レポートtaishimotoda
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてYuya Unno
 

What's hot (20)

Chainerで流体計算
Chainerで流体計算Chainerで流体計算
Chainerで流体計算
 
NLPforml5
NLPforml5NLPforml5
NLPforml5
 
20150803.山口大学集中講義
20150803.山口大学集中講義20150803.山口大学集中講義
20150803.山口大学集中講義
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17
 
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
パターン認識 08 09 k-近傍法 lvq
パターン認識 08 09 k-近傍法 lvqパターン認識 08 09 k-近傍法 lvq
パターン認識 08 09 k-近傍法 lvq
 
mxnetで頑張る深層学習
mxnetで頑張る深層学習mxnetで頑張る深層学習
mxnetで頑張る深層学習
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
 
More modern gpu
More modern gpuMore modern gpu
More modern gpu
 
[第2版]Python機械学習プログラミング 第13章
[第2版]Python機械学習プログラミング 第13章[第2版]Python機械学習プログラミング 第13章
[第2版]Python機械学習プログラミング 第13章
 
PRML5
PRML5PRML5
PRML5
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architectures
 
Stochastic Gradient MCMC
Stochastic Gradient MCMCStochastic Gradient MCMC
Stochastic Gradient MCMC
 
BMS Molecular Translation 3rd place solution
BMS Molecular Translation 3rd place solutionBMS Molecular Translation 3rd place solution
BMS Molecular Translation 3rd place solution
 
低ランク行列補完のためのマトロイド理論
低ランク行列補完のためのマトロイド理論低ランク行列補完のためのマトロイド理論
低ランク行列補完のためのマトロイド理論
 
深層学習 Day1レポート
深層学習 Day1レポート深層学習 Day1レポート
深層学習 Day1レポート
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
 

Viewers also liked

Emnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cwsEmnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cwsAce12358
 
EMNLPreading@Ace12358
EMNLPreading@Ace12358 EMNLPreading@Ace12358
EMNLPreading@Ace12358 Ace12358
 
DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358Ace12358
 
Acl reading 2nd
Acl reading 2ndAcl reading 2nd
Acl reading 2ndAce12358
 
Naacl2015unsupervised morph
Naacl2015unsupervised morphNaacl2015unsupervised morph
Naacl2015unsupervised morphAce12358
 
DeepLearning3@Ace12358
DeepLearning3@Ace12358DeepLearning3@Ace12358
DeepLearning3@Ace12358Ace12358
 
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)Yusuke Oda
 
Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)Yusuke Oda
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@Yusuke Oda
 
Chainer meetup lt
Chainer meetup ltChainer meetup lt
Chainer meetup ltAce12358
 

Viewers also liked (10)

Emnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cwsEmnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cws
 
EMNLPreading@Ace12358
EMNLPreading@Ace12358 EMNLPreading@Ace12358
EMNLPreading@Ace12358
 
DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358
 
Acl reading 2nd
Acl reading 2ndAcl reading 2nd
Acl reading 2nd
 
Naacl2015unsupervised morph
Naacl2015unsupervised morphNaacl2015unsupervised morph
Naacl2015unsupervised morph
 
DeepLearning3@Ace12358
DeepLearning3@Ace12358DeepLearning3@Ace12358
DeepLearning3@Ace12358
 
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
 
Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@
 
Chainer meetup lt
Chainer meetup ltChainer meetup lt
Chainer meetup lt
 

Similar to ACLreading2014@Ace12358

attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介Masayoshi Kondo
 
ディープラーニング基礎.pptx
ディープラーニング基礎.pptxディープラーニング基礎.pptx
ディープラーニング基礎.pptxnorimatsu5
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011Preferred Networks
 
「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化
「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化
「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化marsee101
 
東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 Clustering東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 ClusteringHiroshi Ono
 
深層学習レポート Day1 (小川成)
深層学習レポート Day1 (小川成)深層学習レポート Day1 (小川成)
深層学習レポート Day1 (小川成)ssuser441cb9
 
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1hirokazutanaka
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 
もしも… Javaでヘテロジニアスコアが使えたら…
もしも… Javaでヘテロジニアスコアが使えたら…もしも… Javaでヘテロジニアスコアが使えたら…
もしも… Javaでヘテロジニアスコアが使えたら…Yasumasa Suenaga
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用Seiya Tokui
 
2014 11-20 Machine Learning with Apache Spark 勉強会資料
2014 11-20 Machine Learning with Apache Spark 勉強会資料2014 11-20 Machine Learning with Apache Spark 勉強会資料
2014 11-20 Machine Learning with Apache Spark 勉強会資料Recruit Technologies
 
Icml2011 reading-sage
Icml2011 reading-sageIcml2011 reading-sage
Icml2011 reading-sage正志 坪坂
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksShingo Horiuchi
 
Or seminar2011final
Or seminar2011finalOr seminar2011final
Or seminar2011finalMikio Kubo
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionPRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionShintaro Takemura
 
Shunsuke Horii
Shunsuke HoriiShunsuke Horii
Shunsuke HoriiSuurist
 
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaTakanori Nakai
 

Similar to ACLreading2014@Ace12358 (20)

attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
 
PFI Christmas seminar 2009
PFI Christmas seminar 2009PFI Christmas seminar 2009
PFI Christmas seminar 2009
 
ディープラーニング基礎.pptx
ディープラーニング基礎.pptxディープラーニング基礎.pptx
ディープラーニング基礎.pptx
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
 
「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化
「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化
「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化
 
東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 Clustering東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 Clustering
 
bigdata2012ml okanohara
bigdata2012ml okanoharabigdata2012ml okanohara
bigdata2012ml okanohara
 
深層学習レポート Day1 (小川成)
深層学習レポート Day1 (小川成)深層学習レポート Day1 (小川成)
深層学習レポート Day1 (小川成)
 
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
もしも… Javaでヘテロジニアスコアが使えたら…
もしも… Javaでヘテロジニアスコアが使えたら…もしも… Javaでヘテロジニアスコアが使えたら…
もしも… Javaでヘテロジニアスコアが使えたら…
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用
 
2014 11-20 Machine Learning with Apache Spark 勉強会資料
2014 11-20 Machine Learning with Apache Spark 勉強会資料2014 11-20 Machine Learning with Apache Spark 勉強会資料
2014 11-20 Machine Learning with Apache Spark 勉強会資料
 
Icml2011 reading-sage
Icml2011 reading-sageIcml2011 reading-sage
Icml2011 reading-sage
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
 
Or seminar2011final
Or seminar2011finalOr seminar2011final
Or seminar2011final
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionPRML 4.1 Discriminant Function
PRML 4.1 Discriminant Function
 
Shunsuke Horii
Shunsuke HoriiShunsuke Horii
Shunsuke Horii
 
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
 

More from Ace12358

Can language models be biomedical knowledge bases
Can language models be biomedical knowledge basesCan language models be biomedical knowledge bases
Can language models be biomedical knowledge basesAce12358
 
I know what you asked graph path learning using amr for commonsense reasoning
I know what you asked  graph path learning using amr for commonsense reasoningI know what you asked  graph path learning using amr for commonsense reasoning
I know what you asked graph path learning using amr for commonsense reasoningAce12358
 
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...Ace12358
 
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...Ace12358
 
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...Ace12358
 
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filteringThe contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filteringAce12358
 
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb  a-dual_learning_bridge_between_text_and_knowledge_baseDual tkb  a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_baseAce12358
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingAce12358
 
Low-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsLow-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsAce12358
 
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...Ace12358
 
Emnl preading2016
Emnl preading2016Emnl preading2016
Emnl preading2016Ace12358
 

More from Ace12358 (11)

Can language models be biomedical knowledge bases
Can language models be biomedical knowledge basesCan language models be biomedical knowledge bases
Can language models be biomedical knowledge bases
 
I know what you asked graph path learning using amr for commonsense reasoning
I know what you asked  graph path learning using amr for commonsense reasoningI know what you asked  graph path learning using amr for commonsense reasoning
I know what you asked graph path learning using amr for commonsense reasoning
 
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
 
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
 
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
 
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filteringThe contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
 
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb  a-dual_learning_bridge_between_text_and_knowledge_baseDual tkb  a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embedding
 
Low-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsLow-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddings
 
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
 
Emnl preading2016
Emnl preading2016Emnl preading2016
Emnl preading2016
 

ACLreading2014@Ace12358

  • 1. Komachi Lab ACL reading 2014/8/1 Fast and Robust Neural Network Joint Model for Statistical Machine Translation Jacob Devlin, Rabih Zbib, Zhongqiang Huang, Thomas Lamar, Richard Schwartz and John Makhoul Introducing by Yoshiaki Kitagawa
  • 2. 論文の概要 • 最近の研究では機械翻訳にNNLM(Neural Network Language Model)を用いた手法が成功している • この論文ではNNLMとともにソース言語の context windowを追加し拡張したNNJM(Neural NetWork Joint Model)を紹介する • また2つのアイディアによって計算量を10000 倍に! – Self-normalization, Pre-Computing the hidden layer – これによりback-off LMと同じくらいのスピードを実 現P-01
  • 3. 論文のKeyword • NNJM(Neural Network Joint Model) – NNLMとは、式の説明、NNの構造 • Self-normalization –正規化に関する工夫 • Pre-Computing the hidden laye -隠れ層計算に関する工夫
  • 4. NNJM(Neural NetWork Joint Model) • NNLMにソース言語の情報を入れたもの – OpenMT12ではBLEUが3.0上がった – Chiang’s(2007)のオリジナルのシンプルなベー スラインと比べるとBLEUが6.3上がった →問題はないのか?
  • 5. NNJM(Neural NetWork Joint Model) • こんなに情報を増やしたらスパースで扱 いきれないのでは? – NNで学習しているので大丈夫 • 情報量を増やしているので計算に時間が かかりそう –今回の論文のアイディアで計算量は少なくな る
  • 6. NNJMの式を見てみる 合わせて書くと ここがJoinされて る! ターゲットの単語のソース言語を中心と するm-word のwindow(全部でm個!!)
  • 7. 具体例 ターゲットのワードが” the”であると き 対応するソース言語の中心となる単語(今でいう” money”)はいくつか のヒューリスティックに基づく考えから決定する(3つの場合分け) vector for target word “ the” , using a3-word target history and a5-word = 5). Here, “ the” inherits itsaffiliation from“money” because this The number in each box denotes the index of the word in the context consistent across samples, but the absolute ordering does not affect results.
  • 8. NNの構造 • 3 target word + 11 source word = 14 word を 入力とする • それぞれの単語を192次元のベクトルに 変換 • 隠れ層は2つで次元は512次元 – tanhで非線形変換 • 出力層 – Soft-maxで確率に
  • 10. denotes the index of the word in the context vector. This Self-normalizerを考えたきっか absolute ordering does not affect results. け likelihood as: • 出力層はsoft-max log(P (x)) = log eUr (x) Z(x) = Ur (x)− log(Z(x)) Z(x) = ⌃ |V | r 0=1eUr 0(x) 着眼点はこ wherex isthesample,U istheraw output layer scores, • Z(x)r のis 計the 算にoutput 時間layer がかかrow る corresponding to the observed target word, andZ(x) is thesoftmax normalizer. If we could guarantee that were al-ways ! – log(Z(x))=0 ⇒ Z(x)=1 になってくれれば…! – log(P(x))=Ur(x) としたい! こ!
  • 11. Self-normalizer K10 samples) resulting in Decoding is • トレーニングで以下の式を用いることで log(Z(x))を出来るだけ0に近づけた –これによりデコードのスピードは15倍程度向 isasignificant dominated by vocabu-lary. Le et vocabulary, and fairly sim-ply If we could guarantee that log(Z(x)) were al-ways equal to 0 (i.e., Z(x) = 1) then at decode timewewould only have to compute row r of the output layer instead of the whole matrix. While wecannot train aneural network with thisguaran-tee, we can explicitly encourage the log-softmax normalizer to be as close to 0 as possible by aug-menting our training objective function: L = X i ⇥ log(P (xi ))− ↵(log(Z(xi ))− 0)2⇤ = X i ⇥ log(P (xi ))− ↵ log2(Z(xi )) ⇤ In this case, the output layer bias weights are initialized to log(1/|V|), so that the initial net-work is self-normalized. At decode time, we sim-ply use Ur (x) as the feature score, rather than 上 •  αはパラメータで0-1の間で調整 – α=0はスタンダードなNNと変わらないこと に注意
  • 12. NNJMの計算量の問題(NNの最初) t-word t-word t-word t-word t-word t-word s-word s-word ….. s-word s-word s-word ….. s-word 1wordが192次元のベクト 1wordが192次元のベクト ル ル 一つ目のノード (これが全部で 一つ目のノード (これが全部で 512個) 隠れ層1 512個) 隠れ層1 1144(w(woorrdd数数)*)*119922(1(1単単語語ああたたりりのの次次元元)*)*551122のの計計算算がが必必要要
  • 13. Pre-computing(解決策) • アイディア –計算を前もってしておき、tableに保存してお く • どの部分を保存するか – Wordと隠れ層の内積の値を保存 –このtableは512MB以下に収まる • Window部分はあらかじめ和をとっておく ことで1つの値として保持(pre-summing) – これにより、3(t-word)+1(window)+1(bias) =5  つの和 に!
  • 14. さまざまなモデル • 翻訳の方向(2通り)*履歴を左右どちら から選ぶか(2通り)=4通りのモデルがあ る ソースtoターゲットの意 味Right to Left の意味 この感じで他の2つを紹介(いままで考え てきたものが1通り目)
  • 16. NULLアライメントの考慮 • NNLMはNULLアライメントを考慮してい ない • そこでソース言語の各単語からNULLを含 むターゲット言語が生成する確率を定義 NNTLM(Neural Network Lexical Translation)
  • 17. 結果 • Decodingに NNJM,NMLTMを用 いるとopenMT12- 1stよりBLEUが3程 度上昇 • 素性の少ないシン プルなベースライ ンと比べると6程 度上昇
  • 18. 結果 • RNNLMよりも NNJM,NNLTMを用 いた方が良い結果 が得られている • NNJMはrescoring よりdecodingに適 している
  • 19. まとめ • NNJMというソース言語の単語から単語を推定す るモデルを作成 – いままでの言語モデルにソースの情報を追加 • Self-normalization Pre-computing 等の計算の工夫に より計算量をback-off LMと同程度の計算量にした (10000倍) – BLEUは0.2程度しか下がらない