Study aiラビットチャレンジ深層学習Day4

StudyAI ラピッドチャレンジレポート課題
深層学習 Day4

Section1：強化学習
強化学習
・強化学習は最終的な成果を最大化するために、個々の経験から学習して、その後の行動を
最適化し続けていく学習方法。強化学習では、経験から得られた知識に基づく行動と
これまでの経験とは完全に無関係でランダムな二種類の行動から得られた学びを活用して
最適な行動戦略を更新していく。
参考：https://www.data-artist.com/contents/reinforcement-learning.html
【入門】Q学習の解説とpythonでの実装〜シンプルな迷路問題を例に〜
強化学習のモデル
・強化学習は主にエージェントと呼ばれる学習主体と、制御対象となる環境の二つの要素から
成り立っている。強化学習のモデル下において、エージェントが何らかの行動をすると、その
環境下におけるエージェントを取り巻く状態が変化し、その結果が報酬としてエージェントに
対してフィードバックされる。その報酬を最大化させるために、エージェントの行動を最適化
していくのが強化学習の基本的なモデルとなる。
強化学習におけるパラメーター
• 状態S：現在の状況を表すパラメーター
• 行動A：実際の行動を表すパラメーター
• 報酬R：行動の結果としてエージェントに与え
られる報酬を表すパラメーター
• 方策π：エージェントが行動を選択する際のルール
価値関数
価値を表す関数としては、状態価値関数と行動価値関数の2種類が存在
（1）状態価値関数：状態sにいることの価値
（2）状態行動価値関数：状態sにいて行動aを取る価値
方策関数
方策ベースの強化学習手法において、ある状態でどのような行動を採るのかの
確率を与える関数
Q学習
・代表的な強化学習手法の一つ。Q学習は各状態Sに対する各行動AのQ値を保存しておく
QテーブルQ(s, a)というテーブルを保持し、Qテーブルの値を以下の式によって更新する。
・Q学習では遷移先状態の最大Q値maxQ(s’, a’)を使って学習するのが主な特徴となる。
（遷移した先の状態の最も良いところだけを利用する）
・ r+γmaxQ(s’, a’) -Q(s,a)をTD誤差といい、 Q学習ではこの誤差を小さくするように
学習する。
・γは割引率といい、遷移先の最大Q値をどれだけ利用するかを決めるパラメータである。
方策勾配法
・方策をモデル化して最適化する手法。以下の式を繰り返し更新する。
・誤差逆伝播の式に類似しており、εは誤差逆伝播の学習率に相当。
・誤差逆伝播法では誤差の最小化のため、右辺は減算であったが、方策勾配法では報酬を
最大化するため、右辺は加算する。
関数近似法
・価値関数や方策関数を関数近似する手法のこと。これにより計算量を削減し、計算速度を
向上させることが可能。Q学習と合わせて用いられる。

Section2：AlphaGo
AlphaGo
・ディープマインド社が開発した囲碁対局用の人工知能。ディープラーニングにより、過去の
膨大な棋譜を学び、さらに、自身作成のプログラムと多数対戦することで強化学習を行って
いる。局面や指し手の良し悪しを決める評価関数を用いず、モンテカルロ法で終局まで
ランダムに打ち、もっとも勝率が高い指し手を選択する。2015年には人間のプロ棋士に
勝利した。
AlphaGo（Lee）
・AlphaGoの2代目バージョンにあたる。以下の手順で学習される。
1. 教師あり学習によるRollOutPolicy
とPolicyNetの学習
2. 強化学習によるPolicyNetの学習
3. 強化学習によるValueNetの学習
１．教師あり学習によるRollOutPolicyとPolicyNetの学習
・KGS Go Server（ネット囲碁対局サイト）の棋譜データから3000万局面分の教師
を用意し、教師と同じ着手を予測できるよう学習。
・具体的には、教師が着手した手を1とし残りを0とした19×19次元の配列を教師とし、
それを分類問題として学習。この学習で作成したPolicyNetは57%ほどの精度。
RollOutPolicy
・NNではなく線形の方策関数。探索中に高速に着手確率を出すために使用される。下記の
特徴が19×19マス分あり、出力はそのマスの着手予想確率となる
PolicyNet ValueNet
2．強化学習によるPolicyNetの学習
・現状のPolicyNetとPolicyPoolからランダムに選択されたPolicyNetと対局シミュレーションを
行い、その結果を用いて方策勾配法で学習。
・PolicyPoolとは、PolicyNetの強化学習の過程を500Iteraionごとに記録し保存しておいた
もの。現状のPolicyNet同士の対局ではなく、PolicyPoolに保存されているものとの対局を
使用する理由は、対局に幅を持たせて過学習を防ごうというのが主である。
3．強化学習によるValueNetの学習
・PolicyNetを使用して対局シミュレーションを行い、その結果の勝敗を教師として学習。
・ N+1手目の手をランダムに選択し、その手で進めた局面S(N+1）と勝敗報酬Rを教師
データ対とし、損失関数を平均二乗誤差とし、回帰問題として学習。
・この学習をminibatch size 32で5000万回実施。N手までとN+1手からのPolicyNetを
別々にしてある理由は、過学習を防ぐためであると論文では説明されている
AlphaGo Zero
・AlphaGoの4代目バージョン。 AlphaGo（Lee）との違いは下記の通り。
• 教師あり学習を一切行わず、強化学習のみで作成
• 特徴入力からヒューリスティックな要素を排除し、
• 石の配置のみにした
• PolicyNetとValueNetを１つのネットワークに統合
• Residual Net（ネットワークのショートカット構造）を導
入した
• モンテカルロ木探索からRollOutシミュレーションをなくした
参考：https://tech-camp.in/note/technology/32855/

Section3：軽量化・高速化技術
分散深層学習
・深層学習は多くのデータを使用したり、パラメータ調整のために多くの時間を使用したりする
ため、高速な計算が求められる。データ並列化、モデル並列化、GPUなどの分散深層学習
による高速技術は不可欠である。
データ並列化
・親モデルを各ワーカーに子モデルとしてコピー。データを分割し、各ワーカーごとに計算させる
・同期型と非同期型の2種類があり、現在は同期型の方が制度がよく主流となっている。
同期型非同期型
同期型のパラメータ更新の流れ。各ワーカーが計
算が終わるのを待ち、全ワーカーの勾配が出たと
ころで勾配の平均を計算し、親モデルのパラメー
タを更新する。
各ワーカーはお互いの計算を待たず、各子モデル
ごとに更新を行う。学習が終わった子モデルはパラ
メータサーバにPushされる。新たに学習を始める
時は、パラメータサーバからPopしたモデルに対して
学習していく。
同期型と非同期型の比較
• 処理のスピードは、お互いのワーカーの計算を待たない非同期型の方が早い。
• 非同期型は最新のモデルのパラメータを利用できないので、学習が不安定になりやすい。
モデル並列化
・親モデルを各ワーカーに分割し、それぞれのモデルを学習させる。全てのデータで学習が
終わった後で、一つのモデルに復元。モデルが大きい時はモデル並列化を、データが大きい
時はデータ並列化をすると良い。
モデルのパラメータ数が
多いほどスピードアップ
効率も向上。
(Jeffrey Dean et al. 2016)Large Scale Distributed Deep Networks
GPUによる高速化
・ニューラルネットの学習は単純な行列演算が多いので、 CPUで計算するよりもGPUで
並列処理した方が速度は向上。
モデルの軽量化
・モデルの精度を維持しつつパラメータや演算回数を低減する手法の総称。計算の高速化と
省メモリ化を行うためモバイル,IoT 機器と相性が良い手法になる。
・軽量化の代表的な手法として量子化、蒸留、プルーニングがある。
量子化
・通常のパラメータの64 bit 浮動小数点を32 bit など下位の精度に落とすことでメモリと
演算処理の削減を行う。計算の高速化、省メモリ化が期待できるが、精度低下が欠点となる。
〇計算の高速化：64bitから32bitに落とすことで計算速度は倍になる。
〇省メモリ化：浮動小数点のbit数を少なし有効桁数を下げることでニューロンのメモリサイズ
を小さくすることができ、メモリ使用量を抑えることができる。
〇制度の低下：有効桁が小さくなることでモデルの表現力が低下する。
蒸留
・規模の大きなモデルの知識を使い軽量なモデルの
作成を行うこと。学習済の大きい教師モデルと
教師モデルを元に作られる生徒モデルを用い、
教師モデルの知識を生徒モデルへ継承させる
プルーニング
・寄与の少ないニューロンをモデルから削減し高速化と省メモリ化を行う技術
・ニューロンの削減の手法は重みが閾値以下の場合ニューロンを削減し、再学習を行う。
ニューロンの9割以上削っても制度は数%しか変化しないという研究結果も存在する。
ニューロンの圧縮
↑閾値0.1以下の重みのニューロンを削除

Section4：応用モデル
MobileNet
・般的な畳み込みレイヤーは計算量が多いため、MobileNetsでDepthwise Convolution
とPointwise Convolutionの組み合わせで軽量化を実現
参考：https://deepsquare.jp/2020/04/resnet-densenet/#outline__3
Depthwise Convolution Pointwise Convolution
MobileNetのイメージ
通常の畳込みが空間方向とチャネル方向の
計算を同時に行うのに対して、Depthwise
Separable Convolutionではそれらを
Depthwise ConvolutionとPointwise
Convolutionと呼ばれる演算によって個別に
行う。
Residual Network （ResNet）
・ResNetはshortcut connectionという機構を導入し、手前の層の入力を後ろの層に
直接足し合わせることで、勾配消失問題を解決。
・ResNetのアイデアはシンプルで、「ある層で求める最適な出力を学習するのではなく、
層の入力を参照した残差関数を学習する」ことで最適化しやすくしている。
右図のdeep pathが従来のルート
で、ResNetにおいて追加されたのが、
shortcut connectionとなる。
DenseNet
・DenseNetのアイディアは、もし前のレイヤーとスキップ接続で接続することによってパフォーマンス
が向上するならば、どうしてレイヤーをその他のレイヤーに直接接続しないのか、というもの。
この発想を実現するということは、常にネットワークを介した情報を送る直接的なルートを存在
させることを意味する。レイヤー間の情報の伝達を最大化するためにすべての特徴量サイズが
同じレイヤーを結合させている。逆伝播を保つため、ある層より前の層の出力を入力とする。
DenseNetの構造
①Initial Convolution
②Dense Block
③Transition layer
④Classification layer
ResNetとDenseNetの違い
ResNetはある層に与えられた信号をそれよりも少し上位の層の出力に追加するスキップ接続
により深いネットワークを訓練できるようにした。それに対してDenseNetは前方の各層からの
出力すべてが後方の層への入力として用いられる。
正規化
１.Batch Norm：ミニバッチに含まれるsampleの同一チャネルが同一分布に従うよう正規化
２.Layer Norm：それぞれのsampleの全てのpixelsが同一分布に従うよう正規化
３.Instance Nrom： pixelsに加え、channelも同一分布に従うよう正規化
Wavenet
・生の音声波形を生成する深層学習モデル。
・時系列データに対して畳み込み（Dilated
convolution）を適用。

Section5：Transformer
Transformer
・翻訳タスクにおいて、Seq2seqよりも早くて精度が高いというモデル
・RNNもCNNも使わずに Attentionのみを使用したEncoder-Decoderモデルで計算量も
精度も改善。並列計算が可能。
・アーキテクチャのポイントは①エンコーダー-デコーダモデル、②Attention、③Position-wise
全結合層の3点。BERT,XLNet,GPT-2などのベースとなっている。
参考： https://qiita.com/omiita/items/07e69aef6c156d23c538
①エンコーダー-デコーダモデル
エンコーダ: N=6層で構成されていて、6層とも同じ構造。
各層は Multi-Head Attention層と Position-wise
全結合層の2つのサブ層で構成されている。それぞれの
サブ層の後には残差結合と Layer Normalizationがある。
デコーダ: 同じく N=6層で構成されており、6層とも同じ構造。
ただし、各層はエンコーダの2つのサブ層の間にエンコーダの出力を
受け取るMulti-Head Attention層を追加した形になっている。
デコーダのサブ層の1つ目は右図に書いてある通りMasked
Multi-Head Attentionになっており、これはデコーダが現時刻で
予測する単語およびそれ以降の単語たちをカンニングできないよう
にしている。
②Attention
・文中のある単語の意味を理解する時に、文中の単語のどれに注目すれば良いかを表す
スコアのこと。Attentionには下図の通り、2種類存在する。
・ AttentionとはQuery(Q)とKey(K)とValue(V)の3つのベクトルで計算される。Queryと
KeyでAttentionスコアを計算し、そのAttentionスコアを使ってValueを加重和すると、
Attentionを適用した単語の潜在表現が手に入る。
TransformerでのAttentionの導入箇所
③Position-wise全結合層
・各ブロックのAttention層のあとに入っているPosition-wise 順伝播ネットワーク。
Position-wiseというのはただ単に、各単語ごとに独立してニューラルネットワークがあるという
こと(ただし、重みは共有)。ニューラルネットワーク内では他単語との干渉はない。2層の
ニューラルネットワークになっている。式は以下の通り。
④その他工夫
単語の分散表現とソフトマックス：
・入力の単語は事前訓練済みの単語分散表現を使ってベクトルに変換する。またデコーダ
の最終出力は、ニューラルネットワークに入力されソフトマックスで一番高い確率を示した
単語を出力するが、そのニューラルネットワークに使う重みは一番最初の単語の分散表現
を使うときの重みと同じものを使用する。
位置エンコード：
・一番最初にこのモデルに単語の分散表現を入力するときに単語位置に一意の値を各分散
表現に加算する。単語に一意な値を出力するような関数を使ってあげることで実現できる。
・Transformerで使われている位置エンコードの式は以下の通り。Transformerは単語の
位置に一意の値を与えてくれるsin関数とcos関数のパターンもしっかりと学習してくれるため、
結果として位置の依存関係を学んでくれているという算段になっている。
BERT
・Bidirectional Encoder Representations from Transformers の略で、「Transformerに
よる双方向のエンコード表現」と訳され、2018年10月にGoogleのJacob Devlinらの論文で
発表された自然言語処理モデル。BERTは、多様な自然言語処理タスクタスクにおいて当
時の最高スコアを叩き出した。

Section6：物体検知・セグメンテーション
画像データにおける物体認識タスクの分類
・広義には物体認識のタスクは以下の通り分類される。
参考：https://www.acceluniverse.com/blog/developers/2020/02/SSD.html
出力
分類
（Classification）
（画像に対し単一または複数の）
クラスラベル
物体検知
（Semantic Segmentation）
Bounding Box
[bbox/BB]
意味領域分割
（Object Detection）
（各ピクセルに対し単一の）
クラスラベル
固体領域分割
（Instance Segmentation）
（各ピクセルに対し単一の）
クラスラベル
物体検知の代表的なデータセット
・モデル作成・評価には目的に応じたBox/画像の選定が重要。
クラス Train＋Val Box/画像備考
VOC12 20 11,540 2.4 2012年にコンペ終了
ILSVRC17 200 476,668 1.1 ImageNet(21,841クラス/1400万枚以上)のサブセット
MS COCO18 80 123,287 7.3 物体位置推定に対する新たな評価指標を提案
OICOD18 500 1,743,042 7.0 OpenImagesV4(6000クラス以上/900万枚以上)のサブセット
物体検知の評価指標
・IOU：物体位置の予測精度の評価
混同行列を用いて表現：
IoU =TP/（TP + FP + FN）
※別名Jaccard係数とも
呼ばれる
物体検知の評価指標（続き）
conf.（確率）の閾値：0.5
IoUの閾値：0.5
物体検知のフレームワーク
（１）1段階検出器（One-Stage detector）
・候補領域の検出とクラス推定を同時に行う・相対的に精度が低い傾向
・相対的に計算量が小さく推論も早い傾向
（２）2段階検出器（Two-stage detector）
・候補領域の検出とクラス推定を別々に行う・相対的に精度が高い傾向
・相対的に計算量が大きく推論も早い傾向
SSD(Single Shot MultiBox Detector)
１度のCNN演算で物体の「領域候補検出」と「クラス分類」の両方を行うモデル。物体検出
処理の高速化を可能にした。
全体の構造
・ベースネットワークはVGG-16（画像分類モデル）
を使用。ベースネットワークの全結合層を切り取り、
畳み込み層を追加した構造。
検出の仕組み
・(a)は入力画像と各物体の正解ボックス。(b)と(c)
のマス目は特徴マップの位置を表し、各位置で
デフォルトボックスと呼ばれる異なるアスペクト比の
矩形を複数設定し、各位置の各デフォルトボックス
についてスコアの高いクラスを検出。

Study aiラビットチャレンジ深層学習Day4

Recommended

Recommended

More Related Content

Featured

Featured (20)