SlideShare a Scribd company logo
ラビットチャレンジレポート
深層学習day3
2022/1
目次
 Section1: 再帰型ニューラルネットワークの概念
 Section2: LSTM
 Section3: GRU
 Section4: 双方向RNN
 Section5: Seq2Seq
 Section6: Word2vec
 Section7: Attention Mechanism
2
Section1:
再帰型ニューラルネット
ワークの概念
3
Section1: 再帰型ニューラルネットワークの概念
4
概要
再帰型ニューラルネットワーク: 再帰構造をもつ時系列データの扱いに適したニューラルネットワーク。RNNと表
記される。
時系列データ: 一定の時間間隔で取得されたデータのこと。順序関係に意味を持ち、音声データやテキストデータ
が該当する。
BPTT: Back Propagation Through Timeの略で日本語では通時的誤差逆伝播法という。パラメータ調整法の一種。
RNNの構造
𝑦
𝑧
𝑥
展開
𝑧0
𝑦1
𝑧1
𝑥1
𝑦2
𝑧2
𝑥2
𝑦3
𝑧3
𝑥3
𝑦4
𝑧4
𝑥4
※ テキストだと中間層から出力層への矢印が逆になっているため注意
𝑊(𝑜𝑢𝑡) 𝑊(𝑜𝑢𝑡) 𝑊(𝑜𝑢𝑡) 𝑊(𝑜𝑢𝑡)
𝑊(𝑖𝑛) 𝑊(𝑖𝑛) 𝑊(𝑖𝑛) 𝑊(𝑖𝑛)
𝑊
𝑊
𝑊
𝑊
Section1: 再帰型ニューラルネットワークの概念
5
確認テスト
Q1. RNNのネットワークには大きくわけて3つの重みがある。1つは入力から現在の中間層を定義する際にかけられ
る重み、1つは入力から中間層から出力を定義する際にかけられる重みである。残りの1つの重みについて説明せよ。
A1. 前の中間層から次の中間層への重み。下図の𝑊に相当。
Q2. 下図の𝑦1を𝑥 ∙ 𝑧0 ∙ 𝑧1 ∙ 𝑊𝑖𝑛 ∙ 𝑊 ∙ 𝑊𝑜𝑢𝑡を用いて数式で表せ。※バイアスは任意の文字で定義せよ。 ※また中間層
の出力にシグモイド関数をg(x)を作用させよ。
A2. 𝑦1 = 𝑔(𝑧1𝑊 𝑜𝑢𝑡 + 𝑏 𝑜𝑢𝑡 )
𝑧1 = 𝑔(𝑧0𝑊 + 𝑥𝑊 𝑖𝑛 + 𝑏 𝑖𝑛 ) (𝑏 𝑜𝑢𝑡 と𝑏 𝑖𝑛 はバイアス)
𝑦
𝑧
𝑥
展開
𝑧0
𝑦1
𝑧1
𝑥1
𝑦2
𝑧2
𝑥2
𝑦3
𝑧3
𝑥3
𝑦4
𝑧4
𝑥4
𝑊(𝑜𝑢𝑡) 𝑊(𝑜𝑢𝑡) 𝑊(𝑜𝑢𝑡) 𝑊(𝑜𝑢𝑡)
𝑊(𝑖𝑛) 𝑊(𝑖𝑛) 𝑊(𝑖𝑛) 𝑊(𝑖𝑛)
𝑊
𝑊
𝑊
𝑊
Section1: 再帰型ニューラルネットワークの概念
6
サンプルコードの実行(1/2)
Section1: 再帰型ニューラルネットワークの概念
7
サンプルコードの実行(2/2)
足し算の計算を学習することができている。
Section1: 再帰型ニューラルネットワークの概念
8
演習チャレンジ
Q. 以下は再帰型ニューラルネットワークにおいて構文木を入力として再起的に文全体の表現ベクトルを得るプログ
ラムである。ただし、ニューラルネットワークの重みパラメータはグローバル変数として定義されてあるものとし、
activation関数はなんらかの活性化関数であるとする。木構造は再帰的な辞書で定義してあり、rootが最も外側の
辞書であると仮定する。(く)にあてはまるのはどれか。
A. (2) W.dot(np.concatenate([left, right]))
Section2:
LSTM
9
Section2: LSTM
10
概要
LSTM: RNNでは時系列を遡るほど勾配が消失してくため、長期間の学習が困難という課題がある。その課題の
解消のためRNNにCECや3つのゲート構造を設け改良したモデル。
CEC: Constant Error Carouselの略。過去の情報を記憶し時間を遡っても勾配を一定にさせる働きがある。
入力・出力ゲート: それぞれ入力データと出力データの度合いを調節する役割を持つ。
忘却ゲート: CECは過去の情報を保持し続けてしまうため、不要な情報を忘却させる機能を持つ。
覗き穴結合: CEC自身の値に、重み行列を介して伝播可能にした構造。
LSTMの全体図
Section2: LSTM
11
確認テスト
Q1. 以下の文章をLSTMに入力し空欄に当てはまる単語を予測したいとする。文中の「とても」という言葉は空欄
の予測においてなくなっても影響を及ぼさないと考えられる。このような場合、どのゲートがさようすると考えら
れるか。
「映画おもしろかったね。ところで、とてもお腹が空いたから何か__。」
A1. 忘却ゲート。
Section2: LSTM
12
演習チャレンジ(1/2)
Q1. RNNや深いモデルでは勾配の消失または爆発が起こる傾向がある。勾配爆発を防ぐためにクリッピングを行う
という手法がある。具体的には勾配のノルムがしきい値を超えたら、勾配のノルムをしきい値に正規化するという
ものである。以下は勾配のクリッピングを行う関数である。(さ)にあてはまるのはどれか。
A1. (1) gradient * rate
Section2: LSTM
13
演習チャレンジ(2/2)
Q2. 以下のプログラムはLSTMの順伝播を行うプログラムである。ただし_sigmoid関数は要素ごとにシグモイド関
数を作用させる関数である。(け)にあてはまるのはどれか。
A2. (3) input_gate * a + forget_gate * c
Section3:
GRU
14
Section3: GRU
15
概要
GRU: LSTMの課題としてパラメータが多いため計算コストが増加し、学習に時間がかかってしまう問題がある。
その問題の解消のためにLSTMのパラメータの数を削減しつつ精度を維持したモデル。GRUはLSTMのCEC、入力
ゲート、出力ゲート、忘却ゲートに代わりリセットゲート、更新ゲートと呼ばれる構造をもつ。
GRUの全体図
実線: 現在の時間tに対する信号の経路
波線: 過去の時間t-1に対する信号の経路
Section3: GRU
16
確認テスト
Q1. LSTMとCECが抱える課題について、それぞれ簡潔に述べよ。
A1. LSTMの課題: パラメータ数が多いため計算量が多い。
CECの課題: 勾配が常に1で学習機能がない。
Q2. LSTMとGRUの違いを簡潔に述べよ。
A2. LSTMはCECと3つのゲート(入力、出力、忘却) があるのに対して、GRUはCECが存在せず2つゲート(更新、
リセット)から構成される。またGRUの方がLSTMよりもパラメータが少なく計算量が少ない。
Section3: GRU
17
演習チャレンジ
Q. GRU(Gated Recurrent Unit)もLSTMと同様にRNNの一種であり、単純なRNNにおいて問題となる購買消失問
題を解決し、長期的な依存関係を学習することができる。LSTMに比べ変数の数やゲートの数が少なく、より単純
なモデルであるが、タスクによってはLSTMよりも良い性能を発揮する。以下のプログラムはGRUの準電波を行う
プログラムである。ただし_sigmoid関数は要素ごとにシグモイド関数を作用させるもの関数である。(こ)にあて
はまるのはどれか。
A. (4) (1-z) * h + z * h_bar
Section4:
双方向RNN
18
Section4: 双方向RNN
19
概要
双方向RNN: 過去の情報だけではなく、未来の情報を加味することで、精度を向上させるためのモデル。実用例とし
て文章の推敲や機械翻訳などがある。文章の場合、注目している単語より前にある文字列が過去の情報に相当し、後
にある文字列が未来の情報に相当する。
双方向RNNの全体図
Section4: 双方向RNN
20
演習チャレンジ
Q. 以下は双方向RNNの順伝播を行うプログラムである。順方向については、入力から中間層への重みW_f, 一ス
テップ前の中間層出力への重みをU_f、逆方向に関しては同様にパラメータW_b, U_bを持ち、両者の中間表現を合
わせた特徴から出力層への重みはVである。rnn関数はRNNの準電波を表し中間層の系列を返す関数であるとする。
(か)にあてはまるのはどれか。
A. (4) np.concatenate([h_f, h_b[::-1]], axis=1)
Section5:
Seq2Seq
21
Section5: Seq2Seq
22
概要
Seq2Seq: sequence-to-sequenceの略で時系列データの入力に対して、別の時系列データを出力するモデル。
Encoder-Decoderモデルの一種で機械対話や機械翻訳に用いられる。
Encoder RNN: ユーザーがインプットしたテキストデータを、単語等のトークンに区切って渡す構造。
Decoder RNN: システムがアウトプットデータを、単語等のトークンごとに生成する構造。
HRED: 過去(n-1)個の発話から次の発話を生成する。Seq2Seq+Context RNNから構成される。
Context RNN:Encoderのまとめた各文章の系列をまとめて、これまでの会話コンテキスト全体を表すベクトルに
変換する構造。
VHRED: HREFに、VAEの潜在変数の概念を追加したもの。
AE: Auto Encoderの略で、教師なし学習のニューラルネットワークモデルの一種。日本語では自己符号化器という。
次元削減などに用いられる。
VAE: オートエンコーダで計算する潜在変数zが標準正規分布N(0,1)に従うと仮定したもの。
Section5: Seq2Seq
23
Seq2Seqの構造
Seq2Seqの全体図
Encoder RNN
Decoder RNN
Encoder RNNで入力データの符号化を行い、Decoder RNNで出力データへの復号化を行う。
Section5: Seq2Seq
24
確認テスト
Q1. 以下の選択肢から、seq2seqについて説明しているものを選べ。
(1) 時刻に関して順方向と逆方向のRNNを構成し、それら2つの中間層表現を特徴量とするものである。
(2) RNNを用いたEncoder-Decoderモデルの一種であり、機械翻訳などのモデルに使われる。
(3) 構文木などの木構造に対して、隣接単語から表現ベクトル(フレーズ)を作るという演算を再帰的に行い(重みは
共通)、文全体の表現ベクトルを得るニューラルネットワークである。
(4) RNNの一種であり、単純なRNNにおいて問題となる勾配消失問題をCECとゲートの概念を導入することで解決
したものである。
A1. (2) (その他の選択肢は、(1)双方向RNN、(3)構文木、(4)LSTM)
Q2. seq2seqとHRED、HERDとVHREDの違いを簡潔に述べよ。
A2. seq2seqとHRED: seq2seqは一問一答に対して処理できるネットワークで文脈の意味を理解できるようになっ
たものがHRED。
HREDとVHRED: HREDが当たり障りのない回答しかできなくなったのに対し、VHREDではVAEをの考えを取り
入れることでその問題を解消している。
Q3. VAEに関する下記の説明文中の空欄位当てはまる言葉を答えよ。
自己符号化器の潜在変数に___を導入したもの。
A3. 確率分布
Section5: Seq2Seq
25
演習チャレンジ
Q. 機械翻訳タスクにおいて、入力は複数の単語から成る文(文章)であり、それぞれの単語はone-hotベクトルで表
現されている。Encoderにおいて、それらの単語は単語埋め込みにより特徴量に変換され、そこからRNNによって
(一般にはLSTMを使うことが多い)時系列の情報をもつ特徴へとエンコードされる。以下は、入力である文(文章)を
時系列の情報をもつ特徴量へとエンコードする関数である。ただし_activation関数はなんらかの活性化関数を表す
ものとする。(き)にあてはまるのはどれか。
A. (1) E.dot(w)
Section6:
Word2vec
26
Section6: Word2vec
27
概要
Word2vec: 各単語のone-hotベクトルをEmbedding表現に変換するための手法。Embedding表現を用いることで少
ない次元で文章を表現することが可能になる。計算速度の向上や使用メモリ節約につながる。
Embedding表現: 文章を表現する際に、辞書に含まれる単語数の次元のベクトルを用いるのではなく、それよりも低
い次元のベクトルを用いること。
(単語数)×(単語数)の重み行列から(単語数)×(Embedding表現の次元数)の重み行列に変化した
Section7:
Attention Mechanism
28
Section7: Attention Mechanism
29
概要
Attention Mechanism: seq2seqでは長い文章への対応が難しいため、入出力間の単語の関連度を学習する仕組み。
2017年に発表されたTransformerにも使用されている。RNNよりも並列化が容易であるあtめ学習時間が短縮される。
BERTやGPTをこれをさらに発展させたモデル。
Section7: Attention Mechanism
30
確認テスト
Q1. RNNとword2vec、sec2secとAttentionの違いを簡潔に述べよ。
A1. RNNとword2vec: RNNは時系列データの処理に適したニューラルネットワークのことで、word2vecは単語の
分散表現ベクトルを得る手法。
sec2secとAttention: 1つの時系列データから別の時系列データを得るネットワークのことで、Attentionは時
系列データの中身に対して関連性に重みをつける手法。

More Related Content

What's hot

[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
 
深層学習入門
深層学習入門深層学習入門
深層学習入門
Danushka Bollegala
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
AtsukiYamaguchi1
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
Deep Learning JP
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
Deep Learning JP
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
Deep Learning JP
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
 
PRML Chapter 14
PRML Chapter 14PRML Chapter 14
PRML Chapter 14
Masahito Ohue
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
Deep Learning JP
 
モンテカルロサンプリング
モンテカルロサンプリングモンテカルロサンプリング
モンテカルロサンプリング
Kosei ABE
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
matsuolab
 
PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247
Tomoki Hayashi
 
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ssuserca2822
 
PRML 第14章
PRML 第14章PRML 第14章
PRML 第14章
Akira Miyazawa
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
 
PRML 8.2 条件付き独立性
PRML 8.2 条件付き独立性PRML 8.2 条件付き独立性
PRML 8.2 条件付き独立性
sleepy_yoshi
 
PRML輪読#13
PRML輪読#13PRML輪読#13
PRML輪読#13
matsuolab
 
continual learning survey
continual learning surveycontinual learning survey
continual learning survey
ぱんいち すみもと
 
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
Deep Learning JP
 

What's hot (20)

[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
深層学習入門
深層学習入門深層学習入門
深層学習入門
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 
PRML Chapter 14
PRML Chapter 14PRML Chapter 14
PRML Chapter 14
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
モンテカルロサンプリング
モンテカルロサンプリングモンテカルロサンプリング
モンテカルロサンプリング
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 
PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247
 
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
 
PRML 第14章
PRML 第14章PRML 第14章
PRML 第14章
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
PRML 8.2 条件付き独立性
PRML 8.2 条件付き独立性PRML 8.2 条件付き独立性
PRML 8.2 条件付き独立性
 
PRML輪読#13
PRML輪読#13PRML輪読#13
PRML輪読#13
 
continual learning survey
continual learning surveycontinual learning survey
continual learning survey
 
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
 

ラビットチャレンジレポート 深層学習Day3