4

深層学習day３ー１再帰型ニューラルネットワークの概念 ①
RNN （Recurrent Neural Network）再帰的：入れ子構造
時系列データに対応可能なニューラルネットワーク
（例：音声データ、テキストデータ）
時間に沿った出力を得るために、過去の出力を現在の入力に取り入れる
→重みは３種（入力層、前の出力、出力）
BPTT（BackPropagationThroughTime）
RNNのパラメータ調整方法。誤差逆伝搬の一種
𝑢𝑡
= 𝑊 𝑖𝑛 𝑥𝑡
+ 𝑊𝑧𝑡−1
+ 𝑏
𝑧𝑡
= 𝑓(𝑊 𝑖𝑛 𝑥𝑡
+ 𝑊𝑧𝑡−1
+ 𝑏)
𝑣𝑡
= 𝑊 𝑜𝑢𝑡 𝑧𝑡
+ 𝑐
𝑦𝑡
= 𝑔(𝑊 𝑜𝑢𝑡 𝑧𝑡
+ 𝑐)
f,g：活性化関数
𝜕E
𝜕𝑊 𝑖𝑛
=
𝜕𝐸
𝜕𝑢𝑡
𝜕𝑢𝑡
𝜕𝑊 𝑖𝑛
𝑇
= 𝛿𝑡
𝑥𝑡 𝑇
𝜕E
𝜕𝑊(𝑜𝑢𝑡)
=
𝜕𝐸
𝜕𝑣𝑡
𝜕𝑣𝑡
𝜕𝑊 𝑜𝑢𝑡
𝑇
= 𝛿𝑜𝑢𝑡,𝑡
𝑧𝑡 𝑇
𝜕E
𝜕𝑊
=
𝜕𝐸
𝜕𝑢𝑡
𝜕𝑢𝑡
𝜕𝑊
𝑇
= 𝛿𝑡
𝑧𝑡−1 𝑇
□ 𝑇
：時間的に遡る
𝜕𝐸
𝜕𝑏
=
𝜕𝐸
𝜕𝑢𝑡
𝜕𝑢𝑡
𝜕𝑏
= 𝛿𝑡
𝜕𝑢𝑡
𝜕𝑏
= 1
𝜕𝐸
𝜕𝑐
=
𝜕𝐸
𝜕𝑣𝑡
𝜕𝑣𝑡
𝜕𝑐
= 𝛿𝑜𝑢𝑡,𝑡
𝜕𝑣𝑡
𝜕𝑐
= 1
これらをもとに、パラメータの更新式を導く
確認テスト１
RNNの重み３つについて
→・入力から現在の中間層を定義する際にかけられる重み
・中間層から出力を定義する際にかけられる重み
・中間層から中間層を定義する際にかけられる重み
確認テスト２
𝑧 = 𝑡2
𝑡 = 𝑥 + 𝑦
→
𝑑𝑧
𝑑𝑥
=
𝜕𝑧
𝜕𝑡
𝜕𝑡
𝜕𝑥
= 2𝑡 = 2 𝑥 + 𝑦
確認テスト３
𝑦1 = 𝑔(𝑊 𝑜𝑢𝑡 𝑓(W in x1 + Wz0 + b) + c)

深層学習day３ー１再帰型ニューラルネットワークの概念 ②
実装演習 3_1_simple_RNN_after.ipynb

深層学習day３ー２ LSTM ①
勾配消失
層の逆伝搬により勾配が消失し、学習が進まなくなる
勾配爆発
層の逆伝搬により勾配が指数関数的に増大する
（学習率を極端な値にすることで起こすこともできる）
LSTM：RNNの一種。学習機能と記憶機能を分け、勾配消失・爆発を解決
＜構成要素＞
CEC：記憶機能をサポートする。学習機能はない
勾配＝１の性質があり勾配消失・爆発を防ぐ
入力ゲート：入力された情報を学習し、結果をCECに渡す
出力ゲート：CECの情報を取り出し、望ましい利用方法を学習する
忘却ゲート：CECの過去情報のうち、不要なものを削除する
覗き穴結合：CEC自身の値に重み行列を介して、伝搬可能に
することで任意のタイミングで他ノードへ伝搬、忘却の
制御を行う（調整用ゲート）
確認テスト１
シグモイド関数を微分したとき、最大値
→0.25
確認テスト２
→忘却ゲート
実装演習該当なし → LSTMのコードを追加

深層学習day３ー３ GRU ①
GRU
LSTMの改良型
LSTMはRNNを改善しているが、パラメータ数が多すぎ、計算負荷が高い
隠れ層に計算結果を格納しておくことで構造を単純に
リセットゲート
隠れ層に前回の結果をどれだけ反映するかを定義する
更新ゲート
隠れ層にに格納する前回結果と今回結果の比率を決定する
確認テスト１
LSTM・CECの課題
CECは過去のデータを保持するが不要な古いデータが残ってしまう
このためにLSTMにて忘却ゲートなどを加えて改善するが、
パラメータ数が多く、計算負荷が高い
確認テスト２
LTTMとGRUの違い
→双方とも時系列の学習に適したアルゴリズムであるが
現在より以前の
LSTMはCECに加え忘却ゲート、覗き穴があるのに対し
GRUはリセットゲート、更新ゲートがある
実装演習 predict_word
tensorflow（Numpy等より強力なライブラリ）を利用している

深層学習day３ー４双方向RNN ①
双方向RNN
過去の情報だけではなく、未来の情報を加味して
精度向上を狙う
→用途：文章の推敲、機械翻訳等
処理の流れは以下の通り
・入力と過去の中間層を加味する中間層
・入力と未来の中間層を加味する中間層
・上記を加味した出力層

深層学習day３ー５ Seq2Seq ①
Encoder-Decoderモデルの一種。機械対話、機械翻訳に使用
↑
エンコーダ、デコーダの２種のニューラルネットワークからなる
・エンコーダ → EncoderRNN
入力からLSTMなり、何らかの方法で中間層に記憶をつくり、
記憶（全文、意味のつながり）のベクトルを作る
・デコーダ → DecoderRNN
意味のつながりから別の出力を得る
MLM-Masked Language Model
単語の一部をマスクし、前後の文脈から推定、正解を学習する
言語系は教師なしで分類できる性質が重要
Seq2Seqの課題
一門一答しかできず、前の文脈からの推測はない
→改良：HRED
前の単語の流れに即した応答を行う
エンコーダ・デコーダ間に文脈を記憶する中間層を設ける
ContextRNN：エンコーダのまとめた各文章の系列をまとめ、
これまでの会話コンテキスト全体
を表すベクトルに変換する
→過去の発話の履歴を加味した返答
→字面にしか差異を見れないので
同じ問い、違うニュアンスでの応答は難しい
→改良：VHRED
確認テスト１
Seq2Seqについて説明している記述
→（２）RNNを用いたEncoder-Decoderモデルの一種
なお、
（１）双方向RNNの説明
（３）構文木
（４）LSTNの説明
確認テスト２
VAEに関する記述穴埋め
→自己符号化器の潜在変数に「確率分布」を導入したもの
オートエンコーダ
教師なし学習のひとつ
エンコーダ：入力データ（画像）から潜在変数zへ変換
デコーダ：潜在変数zから元画像を復元する
VAE
オートエンコーダの潜在変数zに確率分布を与える

深層学習day３ー６ Word2vec ①
Word2VEC：
課題：RNNでは、単語のような可変長文字列をNNに与えることができない
→固定長文字列で単語を表現する必要がある。
学習データからボキャブラリを作成
例）I want to eat an apple everyday. にてeatを対象とする
C：ウィンドウサイズ（単語数）
C=0 I want to eat an apple everyday.
→C=3のときボキャブラリ{apple iat I like to want .}
→ボキャブラリ数＝７
→同一ウィンドウサイズで、様々な文章・特定の単語について
学習を行うと周辺単語の重み行列を得ることができる
→各語に対して自身＝１、他を０、
要素数がボキャブラリ数に等しい「one-hotベクトル」を生成
→one-hotベクトルと重み行列の積をとることで、
特定の単語近くに出現する確率の高い単語をリストできる
大規模データによる分散表現学習が現実的な計算量で可能に

深層学習day３ー７ AttentionMechanism ①
講義での扱いなく、記載しない

深層学習day４ー１強化学習 ①
強化学習
教師あり学習、教師なし学習とも異なるもう一つの分野
長期的に報酬を最大化できるように行動を選択できるエージェントを
作ることが目標
（行動の結果として得られる利益を最大にする行動を選択する）
学習方法
試行錯誤して学習するが、過去データ利用、未知の行動をとることには
トレードオフの関係がある
・過去のデータでベストとされる行動のみをとり続けると他の最適解を
見つけられない →探索が足りない状態
・未知の行動のみを常にとり続けると、過去の経験が生かせない
→利用が足りない状態
結論・目標の整理
教師あり学習：回帰・予測する
教師なし学習：分類する
強化学習：優れた方策を見つける
ブレークスルーポイント
・計算速度の進展
・Q学習の登場
行動価値関数を、行動する毎に更新して学習を進める
・関数近似法
価値関数（報酬）、方策関数（操作）を関数近似する
・関数気近似法とQ学習の組み合わせ手法
価値関数
状態価値関数：状況のみから価値が決まる
行動価値関数：状態と行動から価値が決まる
方策関数
ある状態においてどのような行動を選択するかを示す確率関数
学習方法
→ 方策勾配法

深層学習day４ー２ AlphaGo ①
以下、２種類
・AlphaGo Lee
・AlphaGo Zero
・AlphaGo Lee
盤面特徴入力→畳み込み→活性化→畳み込み→・・・→全結合
学習の流れ
教師あり学習によるRollOutPolicyとPolicyNetの学習
強化学習によるPolicyNetの学習
強化学習によるValueNetの学習
・AlphaGo Zero
教師あり学習を一切行わず、強化学習のみで作成
PolicyNetとValueNetを１つのネットワークに統合
ResidualNetworkの導入
ネットワークにショートカット構造を導入して勾配の爆発、消失を
抑える効果

深層学習day４ー３軽量化・高速化技術 ①
高速化技術
分散深層学習（現在最重要）
計算機の性能は１８～２４か月で２倍（ムーアの法則）
データは１年で１０倍増えている
→計算機の進化に頼らず、原理的に高速化する方法が求められる
→ハードウェア的な分散処理をかける（GPU等利用）
データ並列化
データを分割し、各ワーカー（計算機・プロセッサ）
同期型
各ワーカーの計算終了を待ち、勾配の平均をとる
非同期型
各ワーカーの計算結果をパラメータサーバに格納
各ワーカーはパラメータサーバのモデルで学習
→非同期型は速度で有利だが、不安定になりやすい
使いどころによって分かれるが、精度が高い同期型が主流
モデル並列化
モデルそのものを各ワーカーに分割する
学習結果を集める事情があり、１台の計算機内で複数のGPUなど、
通信ネットワーク経由しない構成で利用することが多い
大きなモデルほど効果が高い
GPUによる高速化（ハード並列化）
GPGPU（General-purpose on GPU）
グラフィック以外の用途で使用されるGPU
開発環境
CUDA、OpenCL
→Tensorflow、Pytorchで容易に指定できるので、意識しなくてよい
軽量化技術
ネットワークが大きくなると大量のパラメータが必要となり、
多くのメモリが必要
量子化
数値あたりのデータサイズを小さくし、高速化、省メモリ
→精度は低下する
→精度が問題にならない範囲で量子化、16bit浮動小数点が落としどころ
蒸留
学習済みの精度の高いモデルの知識を軽量なモデルへ継承
親となる「教師モデル」→軽量な「生徒モデル」
プルーニング
寄与の少ない（重みの小さい）ニューロンの削減を行う
精度を大きく落とさずに非常に大きな削減を実現しやすい

深層学習day４ー４応用モデル ①
MobileNet（画像認識用：V1.2017年,V2.2018年,V3.2019年）
軽量化した画像認識モデル
下記２つ方式で計算量を削減し、組み合わせ出力（加算出力）する
DepthWiseConvolution 畳み込みのフィルタ数を１とする
PointWiseConvolution 畳み込みのカーネルサイズを１として軽量化
現在は３世代目まで進化しており、使用メモリの削減量は大きい（1/40）
DenseNet（画像認識用：2016年）
出力層に前の層の入力を足し合わせる
そのままだとチャネルサイズが大きくなるので
いくつかの層のまとまり（Dence block）を
チャネルサイズを変更してつなぐ（TransitionLayer）ことで
調整している
Dence blockにはハイパーパラメータ「成長率（GrowthRate）」を
設定する。
大きくするとネットワークが大きくなるので程よく小さく。
個々のDense blockでは各畳み込み層は前の層の入力すべてを
足し合わせている
Normalization
正規化の方向を変更する工夫。下のチャネルはレイヤと理解しておく。
BatchNorm：ミニバッチ内のチャネルごとに正規化
LayerNorm：ミニバッチ内の画像毎（チャネル混合）で正規化
InstanceNorm ：各チャネルごと同一分布に従うよう正規化
（バッチサイズ１と同様）
DenseNetとの対比で述べられるので…
ResNet（ResidualNetwork：残差ネットワーク：2015年）
講義ではAlphaGoZeroで出てくる
「ネットワークにショートカット構造を導入して勾配の爆発、消失を
抑える効果」
何をしているかというと、
通常の畳み込み層の追加では思うように学習が進まない、
というかむしろ悪化することもあることが知られていて
これを解消するために入力との差を学習する「残差ブロック」を導入
こうすることで層の深さの限界を押し上げ、精度向上につながった。
（https://deepage.net/deep_learning/2016/11/30/resnet.html）
WaveNet（音声合成：2016年）
時系列データに対してDilatedConvolutionを適用する
DilatedConvolution
畳み込みの対象を離散的に設けることで同じデータ量でも広い範囲を
対象にした学習が可能
k：Growth rate

深層学習day４ー４応用モデル ②
確認テスト１
深層学習を用いて結合確率を学習する際に、効率的に学習が行えるアーキ
テクチャを提案したことがWaveNet の大きな貢献の1 つである。提案され
た新しいConvolution 型アーキテクチャは（あ）と呼ばれ、結合確率を効率
的に学習できるようになっている。
（あ）を用いた際の大きな利点は、単純なConvolution layer と比べて（い）
ことである。
（あ） → Dilated causal convolution
（い） → パラメータ数に対する受容野が広い

深層学習day４ー５ Transformer ①
Seq2Seq：Encoder-Decoderモデル
入力系列 → 内部状態 → 出力系列
①Encoder RNN
翻訳元の文を読み込み、実数値ベクトルに変換
②Decoder RNN
実数値ベクトルから、翻訳先の言語の文を生成
実応用例
翻訳（英語 → 日本語）
音声認識（波形 → テキスト）
チャットボット（テキスト → テキスト）
・RNN 単語並びは時系列ととらえられる
・言語モデル単語並びの尤度により、文章として自然か確率評価
・単語毎の実数値ベクトルリスト
→尤度の高い単語並びを出力すれば、翻訳を実現できる
→ある時点の次の単語を予測することができるので
先頭単語を与えれば文章を作成することも可能
→文が長くなると表現力が不足
Transformer（2017年）
RNNを使用せず「Attention（注意機構）」を利用する
注意機構単語毎入力ー出力の相関
・Source Target Attention
・Self Attention
これで言葉選び（代名詞などの変換）はよくなるが
RNNを用いないので語順情報の追加も必要（Position Encoding）

深層学習day４ー５ Transformer ②
実装演習 Seq2Seqモデル（lecture_chap1_exercise_public.ipynb）
※参考データに加え、wheelのインストールが必要
訓練
実行結果（生成）
→生成した文章の自然さや、正確さはかなり、ばらつきがある
BeamSearch（尤度の高い文を保持）により
改善することになっているが、効果は
より多く生成して確認しないと何とも…

深層学習day４ー５ Transformer ③
実装演習 Transformerモデル（lecture_chap2_exercise_public.ipynb）
訓練
実行結果（生成）
→慣用句的な言い回し表現は厳しいが、それ以外は
割と普通に読める印象

深層学習day４ー６物体検知・セグメンテーション ①
分類の種別
分類（Classification）
物体検知（ObjectDetection）
意味領域分割（SemanticSegmentation）
個体領域分割（InstanceSegmentation）
分類問題の評価指数
Precision =
TP
TP+FP
Recall =
TP
TP+FN
IoU Intersection over Union（Jaccard係数）
IoU =
Area of Overlap
Area of Union
=
TP
TP+FP+FN
conf.（confidence）の閾値をβとするとき
𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑅 𝛽 , 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑃 𝛽
𝑃 = 𝑓 𝑅 [Precision-Recall curve]
Average Precision（クラスごと指標）
AP = 0
1
𝑃 𝑅 𝑑𝑅
→ 算術平均：クラス数がCのとき
mAP =
1
𝐶 𝑖=1
𝐶
𝐴𝑃𝑖
物体検知の応用上の要請として
・検出精度
・検出速度
が問われる
物体検知のフレームワーク
１段階検出器（One-stage detector）
候補領域の検出とクラス推定を同時に行う
相対的に精度が低い傾向
相対的に計算量が小さく推論も早い傾向
２段階検出器（Two-stage detector）
候補領域の検出とクラス推定を別々に行う
相対的に精度が高い傾向
相対的に計算量が大きく推論が遅い傾向
SSD：Single Shot Detector
DefaultBox（検出領域）を用意し、 DefaultBoxを変形してconf.の高い
箇所を検出位置とする
SS：Semantic Segmentation

4

Recommended

Recommended

More Related Content

Recently uploaded

Recently uploaded (20)

Featured

Featured (20)

4