SlideShare a Scribd company logo
1 of 21
Download to read offline
Tree-to-Sequence Attentional Neural
Machine Translation
10/12/2016
新領域 ⼈間環境学 陳研究室 D1 藤野暢
書誌情報
• タイトル: Tree-to-Sequence Attentional Neural
Machine Translation
• 著者: Akiko Eriguchi, Kazuma Hashimoto and
Yoshimasa Tsuruoka (鶴岡研の⽅々)
• Conference: ACL 2016
• Date: 03/19/2016
• 第22回 ⾔語処理学会(2016)でも⼀部発表あり
• 「句構造へのアテンションに基づくニューラル機械翻訳モデル」
(若⼿奨励賞)
• Code:
https://github.com/tempra28/tree2seq
概要
• やったこと
• English -> Japanese におけるニューラル翻訳
• Sequential な Attention に加えて, 句構造に対する
Attention を導⼊
• 系列⻑に応じた新しい beam search 法を導⼊
• 結果
• 先⾏研究の Attention model を outperform
• 統計的機械翻訳に匹敵
普通の 句構造に対するもの
Attention Mechanism
• Attention Mechanism1)2)
• Seq2Seq Learning において, decode の際に ⼊⼒系列のど
こに注意して decode するか考慮する
• 機械翻訳や⾃動要約などでつかわれる
• ⼊⼒⽂と出⼒⽂のアライメントを学習することが可能に
• En-Fr, En-Ge など European ⾔語では SotA
attention
重み
重み付けの可視化
1)	Luong	et	al.,	“Effective	Approaches	to	Attention-based	Neural	Machine	Translation”,	EMNLP	2015
2)	Rush	et	al.,	“A	Neural	Attention	Model	for	Sentence	Summarization”,	EMNLP	2015
En-Ja の場合
• En-Ja のように構造的に遠い⾔語間のタスクでは,
ニューラル翻訳はSMTに匹敵するかどうかはまだ
わかっていない
• ⾔語間の遠さの例)
• a cup of に対応する単語がない
• a cup of tea -> 緑茶
としたい
Attentional Encoder-Decoder Model
• Decoder の各ステップで, ⼊⼒⽂の各隠れ層の
情報を重み付けで考慮
重み
重み付け平均 (文脈ベクトル)
新しい出力ベクトル
Attentional Tree-to-Sequence Model
• ⼊⼒⽂を⼆分⽊で表現し, ⼦ノードから親ノード
のベクトルを計算
• f_tree は Tree-LSTM1)
• 全ての親ノードに対して Attention の重みを同
様に計算
1)	K.	S.	Tai	et	al.,	“Improved	Semantic	Representations	From	Tree-Structured	Long	Short-Term	Memory	Networks”,	ACL-IJCNLP	2015
⽂脈ベクトルの計算
• 系列データ(n個)と句構造データ(n-1個)両⽅か
ら計算
input-feeding method
• Luong et al., 20141)で提案された⼿法
• decode の各隠れ層の計算の際, 前の隠れ層だけ
ではなく attention のベクトルも考慮する
• これにより, 本論⽂でも考慮しない場合より良い
結果が⽰された模様
1)	Luong	et	al.,	“Effective	Approaches	to	Attention-based	Neural	Machine	Translation”,	EMNLP	2015
BlackOut1)
• Decoder の各 softmax の計算で 全てのボキャ
ブラリに対する内積を計算するのは⼤変
• negative sampling に基づく近似 BlackOut
により, 計算量を減らす
• の代わりに
• を計算
1)	Ji	et	al.,	“BLACKOUT:	SPEEDING	UP	RECURRENT	NEURAL	NETWORK	LANGUAGE	MODELS	WITH	VERY	LARGE	VOCABULARIES”,	ICLR	2016
Beam Search
• Beam Search: decode の各ステップで, 確率
の⾼い k 個を計算し, 最後にスコアの⾼いパスを
採⽤
1)
1)	Le,	“Sequence	to	Sequence	Learning	for	NLP	and	Speech”,	Deep	Learning	School	(http://www.bayareadlschool.org/)
系列⻑を考慮したBeam Search
• 普通の Beam Search だと, 出⼒が⻑い場合に
スコアが低くなってうまく働かない
• 系列⻑に応じたペナルティを導⼊することで, 系
列⻑を考慮したスコア付が可能に
実験詳細
• mini batch でサイズは 128
• SGD で lr の初期値は 1. dev loss が上がった
ら 半分にする
• 閾値 3 で gradient clipping
• CPU
• 系列⻑が50以下のもののみ
• ⼊⼒⽂がうまく parse されなかったものも使わ
ない
評価
• RIBES と BLEU
• BLEU: n-gram の precison に基づく指標
• RIBES: 語順(順位正解率)を考慮した指標
• En-Ja の評価においては BLEU よりも⼈⼿に近
いという報告あり
1) Papineni et	al.,	“BLEU:	a	Method	for	Automatic	Evaluation	of	Machine	Translation”,	ACL	2002
2) Isozaki et	al,	“Automatic	Evaluation	of	Translation	Quality	for	Distant	Language	Pairs”,	EMNLP	2010
結果 (⼩さいデータセット)
• 先⾏研究よりも良い RIBES, BLEU
• softmax のほうが BlackOut よりも結果はいい.
ただ時間はかかる
• ANMT では reverse input により 結果が悪く
なっている (En-Ja)
結果 (⼩さいデータセット)
• 提案 Beam Search
• 良くなった
結果 (⼤きいデータセット)
• 先⾏の NMT よりも
良い結果
• SMT より BLEU は
低いが, BLEU の性
質上不利 (同義語が
考慮されていないた
め.
• ʻ⼥ʼ と ʻ⼥性ʼ など
Attention の例 (短い系列の場合)
• ʻセルʼ は ʻthe cellsʼ に 0.35 の重み付け. ⽇本
語には ʻtheʼ に対応する単語がないので, これで
よい
Attention の例 (⻑い系列の場合)
• ʻ⽰ʼ に対する重みは, ʻshowedʼ が 0.01,
ʻshowed excellent performanceʼ が 0.25
• 前(後)の⽂脈にたいする重み付けがなされている
結論
• 句構造に attention を適⽤した
• 従来の attentional NMT よりも良い性能を⽰
した.
• 構造の違う⾔語に対して適切な Attention がな
されていることが確認できた
感想
• ⽂要約など, 句・節の短縮が必要になるタスクで
はより有効なのではと思った

More Related Content

Viewers also liked

Introduction of “Fairness in Learning: Classic and Contextual Bandits”
Introduction of “Fairness in Learning: Classic and Contextual Bandits”Introduction of “Fairness in Learning: Classic and Contextual Bandits”
Introduction of “Fairness in Learning: Classic and Contextual Bandits”Kazuto Fukuchi
 
Customer Service - Banco Sabadell
Customer Service - Banco SabadellCustomer Service - Banco Sabadell
Customer Service - Banco SabadellXavier Marin
 
Empalme de números índices
Empalme de números índicesEmpalme de números índices
Empalme de números índicesbertalozano3105
 
Japan, Korea and India - Cross Cultural Paper - by Erek Cyr
Japan, Korea and India - Cross Cultural Paper - by Erek CyrJapan, Korea and India - Cross Cultural Paper - by Erek Cyr
Japan, Korea and India - Cross Cultural Paper - by Erek CyrErek Cyr
 
ματιές στο ναύπλιο
ματιές στο ναύπλιοματιές στο ναύπλιο
ματιές στο ναύπλιοsxoliastis
 
Interview in The Policy Magazine, The UAE Insurance Report 2012
Interview in The Policy Magazine, The UAE Insurance Report 2012Interview in The Policy Magazine, The UAE Insurance Report 2012
Interview in The Policy Magazine, The UAE Insurance Report 2012Agile Financial Technologies
 
How effective is the combination of main product
How effective is the combination of main productHow effective is the combination of main product
How effective is the combination of main productSabina Begum
 
Les classes inversées, un phénomène précurseur pour la formation à l’ère numé...
Les classes inversées, un phénomène précurseur pour la formation à l’ère numé...Les classes inversées, un phénomène précurseur pour la formation à l’ère numé...
Les classes inversées, un phénomène précurseur pour la formation à l’ère numé...Marcel Lebrun
 
Health insurance exchanges Employer Coverage Tool
Health insurance exchanges   Employer Coverage ToolHealth insurance exchanges   Employer Coverage Tool
Health insurance exchanges Employer Coverage Toollerickson312
 
180180219 de-toekomst-van-confederaal-belgie-volgens-n-va
180180219 de-toekomst-van-confederaal-belgie-volgens-n-va180180219 de-toekomst-van-confederaal-belgie-volgens-n-va
180180219 de-toekomst-van-confederaal-belgie-volgens-n-valesoirbe
 
ADVN - archief en onderzoekscentrum
ADVN - archief en onderzoekscentrumADVN - archief en onderzoekscentrum
ADVN - archief en onderzoekscentrumTom Cobbaert
 
ฉันเหมือนใคร
ฉันเหมือนใครฉันเหมือนใคร
ฉันเหมือนใครminddddd
 
Diane_MAED-EM presentation report
Diane_MAED-EM presentation reportDiane_MAED-EM presentation report
Diane_MAED-EM presentation reportdiane mercado
 

Viewers also liked (19)

Introduction of “Fairness in Learning: Classic and Contextual Bandits”
Introduction of “Fairness in Learning: Classic and Contextual Bandits”Introduction of “Fairness in Learning: Classic and Contextual Bandits”
Introduction of “Fairness in Learning: Classic and Contextual Bandits”
 
Mi ppt inicial
Mi ppt inicialMi ppt inicial
Mi ppt inicial
 
Customer Service - Banco Sabadell
Customer Service - Banco SabadellCustomer Service - Banco Sabadell
Customer Service - Banco Sabadell
 
Citations
CitationsCitations
Citations
 
Empalme de números índices
Empalme de números índicesEmpalme de números índices
Empalme de números índices
 
Big spatial2014 mapreduceweights
Big spatial2014 mapreduceweightsBig spatial2014 mapreduceweights
Big spatial2014 mapreduceweights
 
Japan, Korea and India - Cross Cultural Paper - by Erek Cyr
Japan, Korea and India - Cross Cultural Paper - by Erek CyrJapan, Korea and India - Cross Cultural Paper - by Erek Cyr
Japan, Korea and India - Cross Cultural Paper - by Erek Cyr
 
ματιές στο ναύπλιο
ματιές στο ναύπλιοματιές στο ναύπλιο
ματιές στο ναύπλιο
 
Interview in The Policy Magazine, The UAE Insurance Report 2012
Interview in The Policy Magazine, The UAE Insurance Report 2012Interview in The Policy Magazine, The UAE Insurance Report 2012
Interview in The Policy Magazine, The UAE Insurance Report 2012
 
How effective is the combination of main product
How effective is the combination of main productHow effective is the combination of main product
How effective is the combination of main product
 
Les classes inversées, un phénomène précurseur pour la formation à l’ère numé...
Les classes inversées, un phénomène précurseur pour la formation à l’ère numé...Les classes inversées, un phénomène précurseur pour la formation à l’ère numé...
Les classes inversées, un phénomène précurseur pour la formation à l’ère numé...
 
Health insurance exchanges Employer Coverage Tool
Health insurance exchanges   Employer Coverage ToolHealth insurance exchanges   Employer Coverage Tool
Health insurance exchanges Employer Coverage Tool
 
180180219 de-toekomst-van-confederaal-belgie-volgens-n-va
180180219 de-toekomst-van-confederaal-belgie-volgens-n-va180180219 de-toekomst-van-confederaal-belgie-volgens-n-va
180180219 de-toekomst-van-confederaal-belgie-volgens-n-va
 
12 3 12 leccion
12 3 12 leccion12 3 12 leccion
12 3 12 leccion
 
Market research for msben project advert
Market research for msben project advertMarket research for msben project advert
Market research for msben project advert
 
ADVN - archief en onderzoekscentrum
ADVN - archief en onderzoekscentrumADVN - archief en onderzoekscentrum
ADVN - archief en onderzoekscentrum
 
ฉันเหมือนใคร
ฉันเหมือนใครฉันเหมือนใคร
ฉันเหมือนใคร
 
Diane_MAED-EM presentation report
Diane_MAED-EM presentation reportDiane_MAED-EM presentation report
Diane_MAED-EM presentation report
 
The Future Of Work
The Future Of Work The Future Of Work
The Future Of Work
 

Similar to Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)

[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Tatsuya Tojima
 
Using Deep Learning for Recommendation
Using Deep Learning for RecommendationUsing Deep Learning for Recommendation
Using Deep Learning for RecommendationEduardo Gonzalez
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするDaiki Shimada
 
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...Yusuke Oda
 
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolutioncvpaper. challenge
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...harmonylab
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
Learning to forget continual prediction with lstm
Learning to forget continual prediction with lstmLearning to forget continual prediction with lstm
Learning to forget continual prediction with lstmFujimoto Keisuke
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−Deep Learning JP
 
大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価Yahoo!デベロッパーネットワーク
 
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)STAIR Lab, Chiba Institute of Technology
 
Partial least squares回帰と画像認識への応用
Partial least squares回帰と画像認識への応用Partial least squares回帰と画像認識への応用
Partial least squares回帰と画像認識への応用Shohei Kumagai
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料Atsushi Hashimoto
 

Similar to Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016) (20)

[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
NeurIPS2019参加報告
NeurIPS2019参加報告NeurIPS2019参加報告
NeurIPS2019参加報告
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
 
Using Deep Learning for Recommendation
Using Deep Learning for RecommendationUsing Deep Learning for Recommendation
Using Deep Learning for Recommendation
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...
 
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
形態素解析器 売ってみた
形態素解析器 売ってみた形態素解析器 売ってみた
形態素解析器 売ってみた
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
Learning to forget continual prediction with lstm
Learning to forget continual prediction with lstmLearning to forget continual prediction with lstm
Learning to forget continual prediction with lstm
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
 
大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価
 
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
 
Partial least squares回帰と画像認識への応用
Partial least squares回帰と画像認識への応用Partial least squares回帰と画像認識への応用
Partial least squares回帰と画像認識への応用
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 

More from Toru Fujino

実世界のゲームにおける推移性と非推移性
実世界のゲームにおける推移性と非推移性実世界のゲームにおける推移性と非推移性
実世界のゲームにおける推移性と非推移性Toru Fujino
 
Generating Wikipedia by Summarizing Long Sequences (ICLR 2018)
Generating Wikipedia by Summarizing Long Sequences (ICLR 2018)Generating Wikipedia by Summarizing Long Sequences (ICLR 2018)
Generating Wikipedia by Summarizing Long Sequences (ICLR 2018)Toru Fujino
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Toru Fujino
 
Language as a Latent Variable: Discrete Generative Models for Sentence Compre...
Language as a Latent Variable: Discrete Generative Models for Sentence Compre...Language as a Latent Variable: Discrete Generative Models for Sentence Compre...
Language as a Latent Variable: Discrete Generative Models for Sentence Compre...Toru Fujino
 
Controllable Text Generation (ICML 2017 under review)
Controllable Text Generation (ICML 2017 under review)Controllable Text Generation (ICML 2017 under review)
Controllable Text Generation (ICML 2017 under review)Toru Fujino
 
Dual Learning for Machine Translation (NIPS 2016)
Dual Learning for Machine Translation (NIPS 2016)Dual Learning for Machine Translation (NIPS 2016)
Dual Learning for Machine Translation (NIPS 2016)Toru Fujino
 

More from Toru Fujino (6)

実世界のゲームにおける推移性と非推移性
実世界のゲームにおける推移性と非推移性実世界のゲームにおける推移性と非推移性
実世界のゲームにおける推移性と非推移性
 
Generating Wikipedia by Summarizing Long Sequences (ICLR 2018)
Generating Wikipedia by Summarizing Long Sequences (ICLR 2018)Generating Wikipedia by Summarizing Long Sequences (ICLR 2018)
Generating Wikipedia by Summarizing Long Sequences (ICLR 2018)
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
 
Language as a Latent Variable: Discrete Generative Models for Sentence Compre...
Language as a Latent Variable: Discrete Generative Models for Sentence Compre...Language as a Latent Variable: Discrete Generative Models for Sentence Compre...
Language as a Latent Variable: Discrete Generative Models for Sentence Compre...
 
Controllable Text Generation (ICML 2017 under review)
Controllable Text Generation (ICML 2017 under review)Controllable Text Generation (ICML 2017 under review)
Controllable Text Generation (ICML 2017 under review)
 
Dual Learning for Machine Translation (NIPS 2016)
Dual Learning for Machine Translation (NIPS 2016)Dual Learning for Machine Translation (NIPS 2016)
Dual Learning for Machine Translation (NIPS 2016)
 

Recently uploaded

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Recently uploaded (9)

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)

  • 1. Tree-to-Sequence Attentional Neural Machine Translation 10/12/2016 新領域 ⼈間環境学 陳研究室 D1 藤野暢
  • 2. 書誌情報 • タイトル: Tree-to-Sequence Attentional Neural Machine Translation • 著者: Akiko Eriguchi, Kazuma Hashimoto and Yoshimasa Tsuruoka (鶴岡研の⽅々) • Conference: ACL 2016 • Date: 03/19/2016 • 第22回 ⾔語処理学会(2016)でも⼀部発表あり • 「句構造へのアテンションに基づくニューラル機械翻訳モデル」 (若⼿奨励賞) • Code: https://github.com/tempra28/tree2seq
  • 3. 概要 • やったこと • English -> Japanese におけるニューラル翻訳 • Sequential な Attention に加えて, 句構造に対する Attention を導⼊ • 系列⻑に応じた新しい beam search 法を導⼊ • 結果 • 先⾏研究の Attention model を outperform • 統計的機械翻訳に匹敵 普通の 句構造に対するもの
  • 4. Attention Mechanism • Attention Mechanism1)2) • Seq2Seq Learning において, decode の際に ⼊⼒系列のど こに注意して decode するか考慮する • 機械翻訳や⾃動要約などでつかわれる • ⼊⼒⽂と出⼒⽂のアライメントを学習することが可能に • En-Fr, En-Ge など European ⾔語では SotA attention 重み 重み付けの可視化 1) Luong et al., “Effective Approaches to Attention-based Neural Machine Translation”, EMNLP 2015 2) Rush et al., “A Neural Attention Model for Sentence Summarization”, EMNLP 2015
  • 5. En-Ja の場合 • En-Ja のように構造的に遠い⾔語間のタスクでは, ニューラル翻訳はSMTに匹敵するかどうかはまだ わかっていない • ⾔語間の遠さの例) • a cup of に対応する単語がない • a cup of tea -> 緑茶 としたい
  • 6. Attentional Encoder-Decoder Model • Decoder の各ステップで, ⼊⼒⽂の各隠れ層の 情報を重み付けで考慮 重み 重み付け平均 (文脈ベクトル) 新しい出力ベクトル
  • 7. Attentional Tree-to-Sequence Model • ⼊⼒⽂を⼆分⽊で表現し, ⼦ノードから親ノード のベクトルを計算 • f_tree は Tree-LSTM1) • 全ての親ノードに対して Attention の重みを同 様に計算 1) K. S. Tai et al., “Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks”, ACL-IJCNLP 2015
  • 9. input-feeding method • Luong et al., 20141)で提案された⼿法 • decode の各隠れ層の計算の際, 前の隠れ層だけ ではなく attention のベクトルも考慮する • これにより, 本論⽂でも考慮しない場合より良い 結果が⽰された模様 1) Luong et al., “Effective Approaches to Attention-based Neural Machine Translation”, EMNLP 2015
  • 10. BlackOut1) • Decoder の各 softmax の計算で 全てのボキャ ブラリに対する内積を計算するのは⼤変 • negative sampling に基づく近似 BlackOut により, 計算量を減らす • の代わりに • を計算 1) Ji et al., “BLACKOUT: SPEEDING UP RECURRENT NEURAL NETWORK LANGUAGE MODELS WITH VERY LARGE VOCABULARIES”, ICLR 2016
  • 11. Beam Search • Beam Search: decode の各ステップで, 確率 の⾼い k 個を計算し, 最後にスコアの⾼いパスを 採⽤ 1) 1) Le, “Sequence to Sequence Learning for NLP and Speech”, Deep Learning School (http://www.bayareadlschool.org/)
  • 12. 系列⻑を考慮したBeam Search • 普通の Beam Search だと, 出⼒が⻑い場合に スコアが低くなってうまく働かない • 系列⻑に応じたペナルティを導⼊することで, 系 列⻑を考慮したスコア付が可能に
  • 13. 実験詳細 • mini batch でサイズは 128 • SGD で lr の初期値は 1. dev loss が上がった ら 半分にする • 閾値 3 で gradient clipping • CPU • 系列⻑が50以下のもののみ • ⼊⼒⽂がうまく parse されなかったものも使わ ない
  • 14. 評価 • RIBES と BLEU • BLEU: n-gram の precison に基づく指標 • RIBES: 語順(順位正解率)を考慮した指標 • En-Ja の評価においては BLEU よりも⼈⼿に近 いという報告あり 1) Papineni et al., “BLEU: a Method for Automatic Evaluation of Machine Translation”, ACL 2002 2) Isozaki et al, “Automatic Evaluation of Translation Quality for Distant Language Pairs”, EMNLP 2010
  • 15. 結果 (⼩さいデータセット) • 先⾏研究よりも良い RIBES, BLEU • softmax のほうが BlackOut よりも結果はいい. ただ時間はかかる • ANMT では reverse input により 結果が悪く なっている (En-Ja)
  • 16. 結果 (⼩さいデータセット) • 提案 Beam Search • 良くなった
  • 17. 結果 (⼤きいデータセット) • 先⾏の NMT よりも 良い結果 • SMT より BLEU は 低いが, BLEU の性 質上不利 (同義語が 考慮されていないた め. • ʻ⼥ʼ と ʻ⼥性ʼ など
  • 18. Attention の例 (短い系列の場合) • ʻセルʼ は ʻthe cellsʼ に 0.35 の重み付け. ⽇本 語には ʻtheʼ に対応する単語がないので, これで よい
  • 19. Attention の例 (⻑い系列の場合) • ʻ⽰ʼ に対する重みは, ʻshowedʼ が 0.01, ʻshowed excellent performanceʼ が 0.25 • 前(後)の⽂脈にたいする重み付けがなされている
  • 20. 結論 • 句構造に attention を適⽤した • 従来の attentional NMT よりも良い性能を⽰ した. • 構造の違う⾔語に対して適切な Attention がな されていることが確認できた