SlideShare a Scribd company logo
1 of 20
Download to read offline
GraphSeq2Seq: Graph-Sequence-to-Sequence for
Neural Machine Translation
DEEP LEARNING JP
[DL Papers]
Atsushi Kayama M3, Inc
書誌情報・概要
❏ ICLR 2019 under double blind review
❏ GraphSeq2Seq モデルを提案
❏ 単語間の依存関係グラフ構造をecode した上で,Seq2Seqモデルで翻訳を行う
❏ グラフ構造の情報を用いることで翻訳タスクSoTAを達成
❏ これまでも, 入力センテンスのグラフ構造を抽出して翻訳を行うモデルがいくつか提案されて
いたが,従来の翻訳モデルと比べてパフォーマンスは低かった.
❏ 小規模対訳データセット IWSLT においてBLEUスコア SOTA
❏ En -> De :30.66pt
❏ De -> En: 27.32 pt
グラフ構造からSequence を生成する研究
❏ 構文情報を活用した翻訳,
❏ Graph Convolutional Encoders for Syntax-aware Neural Machine Translation (2017)
❏ Graph-to-Sequence Learning using Gated Graph Neural Networks (2018)
❏ Abstract Meaning Representaion からのテキスト生成
❏ A Graph-to-Sequence Model for AMR-to-Text Generation (2018)
❏ グラフ構造からの情報抽出 (最短経路抽出, SQLからの文章生成等)
❏ Graph2Seq: Graph to Sequence Learning with Attention-Based Neural Networks (2018)
Bastings et al. (2017) Kun Xu et al. (2018)
❏ グラフ構造の情報を Seq2Seqモデルへの入力としたモデル
❏ 従来はノード毎のグラフ構造情報を平均したベクトル等をdecoder へ入力していた
GraphSeq2Seq モデル
モデル概要
sub graph encoder
❏ 各単語をノード,依存関係をエッジとした有向グラフを作成
❏ spaCy : https://spacy.io/usage/linguistic-features を用いて英文の依存関係を解析
❏ 各単語 Embedding をノードベクトル,依存関係をone hot なエッジベクトルとする
x1
x4
x2
x3
e1
e2 e3
sub graph encoder
❏ Graph state LSTM を用いて各ノードの隠れ状態を再帰的に計算
❏ ノードベクトル xi
, エッジベクトル el
に加えて,ノードn のサブグラフ g(n) に対して,入力ベク
トル xin
n
, xout
n
を定義
❏ gin
(n) :ノード n へ入力しているエッジと入力元ノードの集合
❏ gout
(n) :ノード n から出力しているエッジと出力先ノードの集合
x1
x4
x2
x3
e1
e2
e3
sub graph encoder
❏ Graph state LSTM を用いて各ノードの隠れ状態を再帰的に計算
❏ ノードベクトル xi
, エッジベクトル el
に加えて,ノードn のサブグラフ g(n) に対して,入力ベク
トル xin
n
, xout
n
を定義
❏ 各ノードへの入力,出力隠れ状態 hin
n
(t) , hout
n
(t) も同様に定義
❏ 各ノードの初期状態 h(0) はハイパーパラメータで初期化
sub graph encoder
❏ Graph state LSTM を用いて各ノードの隠れ状態を再帰的に計算
❏ 各ノードに対して定義したxin
n
, xout
n
, hin
n
(t) , hout
n
(t) を入力として,新たな隠れ状態h(t) を
それぞれのノードに対してLSTMを用いて計算
Gildea et al. (2018)
sub graph encoder
❏ LSTM t ステップ後の隠れ状態から,各ノードごとにグラフ情報を表現するベク
トル rn
を作成
❏ t ステップ後の各ノード, サブグラフの隠れ状態ベクトル hin
n
(t) , hout
n
(t), h(t), と初期入力 xn
の情報を保持したベクトルHn
を Concat してグラフ表現ベクトルrn
を作成
Highway network (Srivastava et al., 2015),を用いて計算した各ノードの初期
入力 xn の情報を保持したベクトル
sub graph encoder
❏ LSTMのステップを重ねるほど,グラフ内で各ノードの情報が伝達され,生成
される各ノードの隠れ状態はグラフ全体の情報を含む
❏ 論文では デフォルト 9 ステップとした
❏ Highway ネットワークで入力単語 embedding の情報も考慮
モデル概要
双方向Encoder, Attention 付き Decoder
❏ 各単語のグラフ表現ベクトル rn
を入力とした Seq2Seqモデル
❏ 特に工夫はなく従来通り
r1
r4
r2
r3
r1 r2 r3 r4
Apple is looking at
双方向Encoder, Attention 付き Decoder
❏ 各単語のグラフ表現ベクトル rn
を入力とした Seq2Seqモデル
❏ 特に工夫はなく従来通り
❏ rn
に concat する前の hin
n
(t) , hout
n
(t), Hn
それぞれを双方向Encoder に入れる亜種も検討
❏ 3種類の encoder 隠れ状態をCocat したものを各単語の隠れ状態とする
実験
❏ TED で作成された対訳データセット(IWSLT) で実験・評価
❏ 比較的小規模なデータ(サイズ詳細は下記)
❏ 翻訳タスクでよく用いられる大規模データセットWMT’17 English-to-German は 5.9M対
❏ IWSLT 2014 German-to-English, English-to-German
❏ train: 153K, valid: 7K, test: 7K
❏ IWSLT 2015 English-to-Vietnamese
❏ train: 13.3k, valid: 1.5k, 1.3k
実験 モデル設定
❏ graph LSTM のステップ数 = 9
❏ 隠れ状態次元数 = 300
❏ 各エッジのラベルベクトル次元数= 50
❏ Sequence encoder : 1層双方向LSTM, decoder : 2層双方向LSTM,
❏ 隠れ状態次元数 = 500
❏ Word Embedding : 学習済みWord2Vec 200次元ベクトル
❏ 学習詳細
❏ dropout rate = 0.5
❏ Adam init lr = 0.001
❏ batch size = 32
❏ beam size = 10
❏ 提案手法が最も高いBLEU スコアを示した
❏ BPE ではなく 単語毎の encoding で高いパフォーマンスを示している
❏ これまで SoTA であった NPMT に比べて学習収束までの時間が1 / 8 になった.
❏ 他論文においては Transformer En->De : 25.4pt
実験 IWSLT En->De, De->En
❏ より少ないデータセットに対しても提案手法が最も高いパフォーマンス
❏ これまで SoTA であった NPMT に比べて学習収束までの時間が1 / 8 になった.
実験 IWSLT En -> Vi
❏ 単語の情報を伝える Highway layer の調整は重要 + 0.9pt
❏ 各ノードへの入・出力隠れ状態を足し合わせる重みの学習も重要 + 1~2pt
実験 モデルの要素検証
❏ 依存関係グラフ構造をEncode し,Seq2Seqモデルで翻訳を行うことで,小規模
データセットに対して SoTA
❏ グラフの情報を用い,翻訳タスクにおいて精度を大きく向上
❏ グラフ構造情報から直接decode するのではなく Seq2Seqモデルの encoder 入力としたこと
で高いパフォーマンスを示した
❏ より大きなデータセット (WMT等)に適用した際に,他のSoTAモデルに対してど
れくらいのパフォーマンスを示せるかは不明
❏ 付加的な情報を与えるEncoder として他のモデルで活用する方向もあるか
❏ 依存関係グラフを構築する解析器の性能も重要になりそう
まとめ

More Related Content

Similar to [DL輪読会]GraphSeq2Seq: Graph-Sequence-to-Sequence for Neural Machine Translation

Faster SRv6 D-plane with XDP
Faster SRv6 D-plane with XDPFaster SRv6 D-plane with XDP
Faster SRv6 D-plane with XDPRyoga Saito
 
WebAssemblyとBlazor 、WebAssembly System Interfaceでコンテナライズの設計を解説
WebAssemblyとBlazor 、WebAssembly System Interfaceでコンテナライズの設計を解説WebAssemblyとBlazor 、WebAssembly System Interfaceでコンテナライズの設計を解説
WebAssemblyとBlazor 、WebAssembly System Interfaceでコンテナライズの設計を解説Takao Tetsuro
 
【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)Tomoyuki Hioki
 
機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編Daiyu Hatakeyama
 
20180920_DBTS_PGStrom_JP
20180920_DBTS_PGStrom_JP20180920_DBTS_PGStrom_JP
20180920_DBTS_PGStrom_JPKohei KaiGai
 
並列対決 Elixir × Go × C# x Scala , Node.js
並列対決 Elixir × Go × C# x Scala , Node.js並列対決 Elixir × Go × C# x Scala , Node.js
並列対決 Elixir × Go × C# x Scala , Node.jsYoshiiro Ueno
 
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Masayoshi Kondo
 
Silkによる並列分散ワークフロープログラミング
Silkによる並列分散ワークフロープログラミングSilkによる並列分散ワークフロープログラミング
Silkによる並列分散ワークフロープログラミングTaro L. Saito
 
Direct xとopenglの隠蔽実装例
Direct xとopenglの隠蔽実装例Direct xとopenglの隠蔽実装例
Direct xとopenglの隠蔽実装例tecopark
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGALeapMind Inc
 
無駄にNeo4jを使っている日々
無駄にNeo4jを使っている日々無駄にNeo4jを使っている日々
無駄にNeo4jを使っている日々Toshi Harada
 
はじめてのぽりごん
はじめてのぽりごんはじめてのぽりごん
はじめてのぽりごんnaohito maeda
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)Takeshi Yamamuro
 
130710 02
130710 02130710 02
130710 02openrtm
 
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database AnalyticsPL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database AnalyticsKohei KaiGai
 
Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)Yuto Takei
 
[GKE & Spanner 勉強会] Cloud Spanner の技術概要
[GKE & Spanner 勉強会] Cloud Spanner の技術概要[GKE & Spanner 勉強会] Cloud Spanner の技術概要
[GKE & Spanner 勉強会] Cloud Spanner の技術概要Google Cloud Platform - Japan
 
1072: アプリケーション開発を加速するCUDAライブラリ
1072: アプリケーション開発を加速するCUDAライブラリ1072: アプリケーション開発を加速するCUDAライブラリ
1072: アプリケーション開発を加速するCUDAライブラリNVIDIA Japan
 

Similar to [DL輪読会]GraphSeq2Seq: Graph-Sequence-to-Sequence for Neural Machine Translation (20)

Faster SRv6 D-plane with XDP
Faster SRv6 D-plane with XDPFaster SRv6 D-plane with XDP
Faster SRv6 D-plane with XDP
 
WebAssemblyとBlazor 、WebAssembly System Interfaceでコンテナライズの設計を解説
WebAssemblyとBlazor 、WebAssembly System Interfaceでコンテナライズの設計を解説WebAssemblyとBlazor 、WebAssembly System Interfaceでコンテナライズの設計を解説
WebAssemblyとBlazor 、WebAssembly System Interfaceでコンテナライズの設計を解説
 
【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)
 
機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編
 
20180920_DBTS_PGStrom_JP
20180920_DBTS_PGStrom_JP20180920_DBTS_PGStrom_JP
20180920_DBTS_PGStrom_JP
 
並列対決 Elixir × Go × C# x Scala , Node.js
並列対決 Elixir × Go × C# x Scala , Node.js並列対決 Elixir × Go × C# x Scala , Node.js
並列対決 Elixir × Go × C# x Scala , Node.js
 
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
 
Silkによる並列分散ワークフロープログラミング
Silkによる並列分散ワークフロープログラミングSilkによる並列分散ワークフロープログラミング
Silkによる並列分散ワークフロープログラミング
 
最速C# 7.x
最速C# 7.x最速C# 7.x
最速C# 7.x
 
Direct xとopenglの隠蔽実装例
Direct xとopenglの隠蔽実装例Direct xとopenglの隠蔽実装例
Direct xとopenglの隠蔽実装例
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 
無駄にNeo4jを使っている日々
無駄にNeo4jを使っている日々無駄にNeo4jを使っている日々
無駄にNeo4jを使っている日々
 
はじめてのぽりごん
はじめてのぽりごんはじめてのぽりごん
はじめてのぽりごん
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)
 
130710 02
130710 02130710 02
130710 02
 
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database AnalyticsPL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
 
Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)
 
[GKE & Spanner 勉強会] Cloud Spanner の技術概要
[GKE & Spanner 勉強会] Cloud Spanner の技術概要[GKE & Spanner 勉強会] Cloud Spanner の技術概要
[GKE & Spanner 勉強会] Cloud Spanner の技術概要
 
1072: アプリケーション開発を加速するCUDAライブラリ
1072: アプリケーション開発を加速するCUDAライブラリ1072: アプリケーション開発を加速するCUDAライブラリ
1072: アプリケーション開発を加速するCUDAライブラリ
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 

Recently uploaded (9)

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 

[DL輪読会]GraphSeq2Seq: Graph-Sequence-to-Sequence for Neural Machine Translation

  • 1. GraphSeq2Seq: Graph-Sequence-to-Sequence for Neural Machine Translation DEEP LEARNING JP [DL Papers] Atsushi Kayama M3, Inc
  • 2. 書誌情報・概要 ❏ ICLR 2019 under double blind review ❏ GraphSeq2Seq モデルを提案 ❏ 単語間の依存関係グラフ構造をecode した上で,Seq2Seqモデルで翻訳を行う ❏ グラフ構造の情報を用いることで翻訳タスクSoTAを達成 ❏ これまでも, 入力センテンスのグラフ構造を抽出して翻訳を行うモデルがいくつか提案されて いたが,従来の翻訳モデルと比べてパフォーマンスは低かった. ❏ 小規模対訳データセット IWSLT においてBLEUスコア SOTA ❏ En -> De :30.66pt ❏ De -> En: 27.32 pt
  • 3. グラフ構造からSequence を生成する研究 ❏ 構文情報を活用した翻訳, ❏ Graph Convolutional Encoders for Syntax-aware Neural Machine Translation (2017) ❏ Graph-to-Sequence Learning using Gated Graph Neural Networks (2018) ❏ Abstract Meaning Representaion からのテキスト生成 ❏ A Graph-to-Sequence Model for AMR-to-Text Generation (2018) ❏ グラフ構造からの情報抽出 (最短経路抽出, SQLからの文章生成等) ❏ Graph2Seq: Graph to Sequence Learning with Attention-Based Neural Networks (2018) Bastings et al. (2017) Kun Xu et al. (2018)
  • 4. ❏ グラフ構造の情報を Seq2Seqモデルへの入力としたモデル ❏ 従来はノード毎のグラフ構造情報を平均したベクトル等をdecoder へ入力していた GraphSeq2Seq モデル
  • 6. sub graph encoder ❏ 各単語をノード,依存関係をエッジとした有向グラフを作成 ❏ spaCy : https://spacy.io/usage/linguistic-features を用いて英文の依存関係を解析 ❏ 各単語 Embedding をノードベクトル,依存関係をone hot なエッジベクトルとする x1 x4 x2 x3 e1 e2 e3
  • 7. sub graph encoder ❏ Graph state LSTM を用いて各ノードの隠れ状態を再帰的に計算 ❏ ノードベクトル xi , エッジベクトル el に加えて,ノードn のサブグラフ g(n) に対して,入力ベク トル xin n , xout n を定義 ❏ gin (n) :ノード n へ入力しているエッジと入力元ノードの集合 ❏ gout (n) :ノード n から出力しているエッジと出力先ノードの集合 x1 x4 x2 x3 e1 e2 e3
  • 8. sub graph encoder ❏ Graph state LSTM を用いて各ノードの隠れ状態を再帰的に計算 ❏ ノードベクトル xi , エッジベクトル el に加えて,ノードn のサブグラフ g(n) に対して,入力ベク トル xin n , xout n を定義 ❏ 各ノードへの入力,出力隠れ状態 hin n (t) , hout n (t) も同様に定義 ❏ 各ノードの初期状態 h(0) はハイパーパラメータで初期化
  • 9. sub graph encoder ❏ Graph state LSTM を用いて各ノードの隠れ状態を再帰的に計算 ❏ 各ノードに対して定義したxin n , xout n , hin n (t) , hout n (t) を入力として,新たな隠れ状態h(t) を それぞれのノードに対してLSTMを用いて計算 Gildea et al. (2018)
  • 10. sub graph encoder ❏ LSTM t ステップ後の隠れ状態から,各ノードごとにグラフ情報を表現するベク トル rn を作成 ❏ t ステップ後の各ノード, サブグラフの隠れ状態ベクトル hin n (t) , hout n (t), h(t), と初期入力 xn の情報を保持したベクトルHn を Concat してグラフ表現ベクトルrn を作成 Highway network (Srivastava et al., 2015),を用いて計算した各ノードの初期 入力 xn の情報を保持したベクトル
  • 11. sub graph encoder ❏ LSTMのステップを重ねるほど,グラフ内で各ノードの情報が伝達され,生成 される各ノードの隠れ状態はグラフ全体の情報を含む ❏ 論文では デフォルト 9 ステップとした ❏ Highway ネットワークで入力単語 embedding の情報も考慮
  • 13. 双方向Encoder, Attention 付き Decoder ❏ 各単語のグラフ表現ベクトル rn を入力とした Seq2Seqモデル ❏ 特に工夫はなく従来通り r1 r4 r2 r3 r1 r2 r3 r4 Apple is looking at
  • 14. 双方向Encoder, Attention 付き Decoder ❏ 各単語のグラフ表現ベクトル rn を入力とした Seq2Seqモデル ❏ 特に工夫はなく従来通り ❏ rn に concat する前の hin n (t) , hout n (t), Hn それぞれを双方向Encoder に入れる亜種も検討 ❏ 3種類の encoder 隠れ状態をCocat したものを各単語の隠れ状態とする
  • 15. 実験 ❏ TED で作成された対訳データセット(IWSLT) で実験・評価 ❏ 比較的小規模なデータ(サイズ詳細は下記) ❏ 翻訳タスクでよく用いられる大規模データセットWMT’17 English-to-German は 5.9M対 ❏ IWSLT 2014 German-to-English, English-to-German ❏ train: 153K, valid: 7K, test: 7K ❏ IWSLT 2015 English-to-Vietnamese ❏ train: 13.3k, valid: 1.5k, 1.3k
  • 16. 実験 モデル設定 ❏ graph LSTM のステップ数 = 9 ❏ 隠れ状態次元数 = 300 ❏ 各エッジのラベルベクトル次元数= 50 ❏ Sequence encoder : 1層双方向LSTM, decoder : 2層双方向LSTM, ❏ 隠れ状態次元数 = 500 ❏ Word Embedding : 学習済みWord2Vec 200次元ベクトル ❏ 学習詳細 ❏ dropout rate = 0.5 ❏ Adam init lr = 0.001 ❏ batch size = 32 ❏ beam size = 10
  • 17. ❏ 提案手法が最も高いBLEU スコアを示した ❏ BPE ではなく 単語毎の encoding で高いパフォーマンスを示している ❏ これまで SoTA であった NPMT に比べて学習収束までの時間が1 / 8 になった. ❏ 他論文においては Transformer En->De : 25.4pt 実験 IWSLT En->De, De->En
  • 18. ❏ より少ないデータセットに対しても提案手法が最も高いパフォーマンス ❏ これまで SoTA であった NPMT に比べて学習収束までの時間が1 / 8 になった. 実験 IWSLT En -> Vi
  • 19. ❏ 単語の情報を伝える Highway layer の調整は重要 + 0.9pt ❏ 各ノードへの入・出力隠れ状態を足し合わせる重みの学習も重要 + 1~2pt 実験 モデルの要素検証
  • 20. ❏ 依存関係グラフ構造をEncode し,Seq2Seqモデルで翻訳を行うことで,小規模 データセットに対して SoTA ❏ グラフの情報を用い,翻訳タスクにおいて精度を大きく向上 ❏ グラフ構造情報から直接decode するのではなく Seq2Seqモデルの encoder 入力としたこと で高いパフォーマンスを示した ❏ より大きなデータセット (WMT等)に適用した際に,他のSoTAモデルに対してど れくらいのパフォーマンスを示せるかは不明 ❏ 付加的な情報を与えるEncoder として他のモデルで活用する方向もあるか ❏ 依存関係グラフを構築する解析器の性能も重要になりそう まとめ