ディープラーニング基礎.pptx

こんばんは
• 松島弘毅（まつしまひろのり）
• 27歳
• コグニティブ
• 2018年12月入社
• 以前は名古屋のSI企業で電力系

目次
• パーセプトロン
• ニューラルネットワーク
 活性化関数
 損失関数
 重みの更新
• CNN
• ディープラーニング

パーセプトロン
• 複数の入力を受け取り、0か1を出力する。
x1
x2 y1
w1
w2
1
b
0 : x1 × w1 + x2 × w2 + b ≦ 0
1 : x1 × w1 + x2 × w2 + b ＞ 0
ノード
（ニューロ
ン）
重み：入力信号の重要度
バイアス：ニューロンの発火のしやすさ（閾値）
→ニューロンの発火

パーセプトロン
• 論理回路の実装
x1 x2 y
AND OR NAND XOR
0 0 0 0 1 0
0 1 0 1 1 1
1 0 0 1 1 1
1 1 1 1 0 0

XORゲートの実装
• 単層パーセプトロンは線形表現しかできないため、XORゲー
トの実装が不可能。
x1
x2
x1
x2

層を重ねる
• 2層のパーセプトロンを用いることで非線形を表現できる
→つまり層を重ねることでより柔軟な表現が可能
x1
x2
s1
1
s2 y1
中間層（隠れ層）
1
入力層出力層

パーセプトロンまとめ
• パーセプトロンは1つの分類器といえる。
 AND分類器は、0,0のときは0、1,1のときは1というように分類する。
• そのためにパーセプトロンでは、「重み」と「バイアス」
をパラメータとして設定する。
• 単層のパーセプトロンでは線形表現しかできないのに対し、
多層のパーセプトロンでは非線形を表現できる。

ニューラルネットワーク
• パーセプトロンはパラメータ（重みとバイアス）を人の手
で設定する必要があった。
• 適切なパラメータを自動で学習できるというのがニューラ
ルネットワークの特徴。
• ニューラルネットワークでは、活性化関数にステップ関数
ではなく別の関数を使用する。

活性化関数
• 活性化関数とは？
 入力信号とパラメータの総和を出力信号に変換する関数
＜ANDゲートのソースコード＞
この部分！！

活性化関数
• 図で表すと
x1
x2
w1
w2
1
b
a = x1 * w1 + x2 * w2 + b
y1 = h(a)
a y1
h()
h(): 活性化関数

活性化関数
• ステップ関数
0を境にして出力が切り替わる関数
0か1を返す
x
h(x)
h(x)=
0 (x ≦ 0)
1 (x > 0)

活性化関数
• シグモイド関数
0～1の実数を返す
ℎ 𝑥 =
1
1+exp −𝑥
x
h(x)

活性化関数
• ReLU関数
入力が0を超えていればそのまま出力し、0以下なら0を出力する
h(x)=
0 (x ≦ 0)
x (x > 0)
x
h(x)

出力層で使われる活性化関数
• ソフトマックス関数
多クラス分類を行う際の出力層の活性化関数として利用される。
出力層が全部でn個あるとして、k番目の出力𝑦𝑘を求める計算式
𝑦𝑘 =
exp 𝑎𝑘
𝑖=1
𝑛
exp 𝑎𝑖
出力結果に対してソフトマックス関数を適用すると、そのクラスであ
る確率に変換される。
確率なので0から1の実数となり、総和は1となる
例：[0.3, 2,9, 4.0] → [0.03, 0.24, 0.73]

ニューラルネットワークの学習
• 手書き数字画像（MNIST）の分類を行う
0～9の数字画像
訓練画像：60000枚
テスト画像：10000枚
28*28ピクセルのグレー画像
各ピクセルは0～255の値をとる

• 学習の目的
誤差を最小化するパラメータ（最適な重みとバイアス）を求
めることが目的。
• 学習の手順
 訓練データを読み込み推論する
 推論した結果と正解データの誤差を損失関数で求める
 損失関数のパラメータについて微分した値（勾配）でパラメータを更
新する

• 学習手順の図
X1
X2
X3
・
W1
W2
W3
・
入力重み
θ
活性化関数
（softmax）
出力 y 正解データ t
1: 0
2: 0.05
3: 0.2
4: 0
5: 0.75
6: 0
…
誤差
損失関数
重みを更新
1: 0
2: 0
3: 0
4: 0
5: 1
6: 0
…

損失関数
• 2乗和誤差
𝐸 =
1
2
𝑘
𝑦𝑘 − 𝑡𝑘
2
𝑦𝑘: ニューラルネットワークの出力
𝑡𝑘: 正解データ
k: データの次元数（出力層の数）

損失関数
• 2乗和誤差実装例
𝐸 =
1
2
𝑘
𝑦𝑘 − 𝑡𝑘
2

損失関数
• 交差エントロピー誤差
𝐸 = −
𝑘
𝑡𝑘 log 𝑦𝑘
𝑦𝑘: ニューラルネットワークの出力
𝑡𝑘: 正解データ
k: データの次元数（出力層の数）
自然対数𝑦 = log 𝑥のグラフ

損失関数
• 交差エントロピー実装例
𝐸 = −
𝑘
𝑡𝑘 log 𝑦𝑘

損失関数の使い分け
• 回帰問題の場合（出力値が連続値）
 2乗和誤差を使用
• 分類問題の場合（出力値が離散値）
 交差エントロピー誤差を使用
 2乗和誤差を使ってもよいが、交差エントロピーのほうが学習の進み
が速い
• 今回は分類問題なので交差エントロピーを使用

重みの更新
• 勾配降下法
パラメータ（重み,バイアス）に関する損失関数の微分値（勾
配）を算出することで、損失関数が最小となるパラメータを
求めることができる。
求めた勾配の方向に進むことで目的関数の値は減り、その先
でも同様に勾配を求め、またその勾配方向へ進む、というよ
うに繰り返し勾配を求めて損失関数の値を徐々に減らしてい
くのが勾配法。
損失関数の最小値を探す場合を勾配降下法、最大値を探す場
合を勾配上昇法と呼ぶが、ニューラルネットワークでは基本
的に勾配降下法を使う。

勾配降下法
重みwを変化させた際の損失関数Lの値を表した図
ここを目指す！

勾配降下法
例として、w=4だったとする。
すると、w=4における
Lの接線の傾き
𝜕𝐿
𝜕𝑤
が求まる。
この接線の傾きのことを
勾配と呼ぶ。
ここでは仮に、
w=4における
𝜕𝐿
𝜕𝑤
が5であったとする。

勾配降下法
勾配とは、wを増加させた際に
Lが増加する方向を意味している。
今はLを小さくしたいので、
この勾配の逆方向へ
wを変化すれば良い。

勾配降下法
wの更新量の幅を調整するため、
学習率𝜂を乗じる。
例として学習率を𝜂=0.5として
wを更新すると、
𝑤 ← 𝑤 − 𝜂
𝜕𝐿
𝜕𝑤
𝑤 ← 4 − 0.5 × 5
𝑤 = 1.5となる

勾配降下法
再度この点において勾配を求めると
-2になっていたとする。
今度は、
𝑤 ← 1.5 − (0.5 × −2)
𝑤 = 2.5となる

MNIST分類の実装
• ネットワークの説明
入力層：784個（28×28）
隠れ層１：256個、活性化関数はrelu関数
隠れ層２：100個、活性化関数はrelu関数
出力層：10個（数字0から9の10クラス分類）、活性化関数は
ソフトマックス関数

𝑥1
𝑥2
𝑥3
・
・
・
𝑥784
𝑎11 𝑧11
ℎ(𝑎)
relu
𝑎12 𝑧12
ℎ(𝑎)
𝑎1256 𝑧1256
ℎ(𝑎)
・
・
・
𝑎21 𝑧21
ℎ(𝑎)
relu
𝑎22 𝑧22
ℎ(𝑎)
𝑎2100 𝑧2100
ℎ(𝑎)
・
・
・
𝑎31 𝑦1
𝜎(𝑎)
softmax
𝑎32 𝑦2
𝜎(𝑎)
𝑎310 𝑦10
𝜎(𝑎)
・
・
・
1の確率
2の確率
10の確率
入力層隠れ層１隠れ層２出力層

実装例
• ディープラーニングフレームワークであるkerasを用いた実
装

CNN
• 全結合層の問題点
全結合層はデータの形状が無視されてしまう。
画像は通常、縦、横、チャネル（RGB）方向の3次元の形状で
あるが、全結合層に入力するときには3次元のデータを平ら
（1次元）に変換する必要がある。
画像の空間的情報は重要。近いピクセル同士は関係が強いな
ど。
できれば位置関係の情報を考慮して学習したい。

CNN
• Convolutional Neural Network
畳み込みニューラルネットワーク。
画像認識、音声認識、自然言語処理では必ずといっていいほ
ど使われている。
従来のネットワークに加え、以下層を使っているのが特徴。
 Convolution層（畳み込み層）
 Pooling層（プーリング層）

畳み込み層
• 畳み込み演算

畳み込み層
• 畳み込み層の役割
特徴を抽出した画像（特徴マップ）を出力する。
フィルターと呼ばれる特徴抽出器を通して、画像のどこに特
徴が存在するかを探す。
• 学習
特徴を抽出するためのフィルターのパラメータを、ニューラ
ルネットワークで学習する。

プーリング層
• Maxプーリング

プーリング層
• プーリング層の役割
微妙な位置のズレの情報を削ぎ落とす。
• 特徴
学習するパラメータは存在しない。

実装例
• CNNを実装
ＣｏｎｖＲｅＬＵ
Ｐｏｏｌ
ｉｎｇ
ＣｏｎｖＲｅＬＵ
Ｐｏｏｌ
ｉｎｇ
Affine Softmax

ディープラーニング
• VGG16（2014年）

• GoogLeNet（2014年）

• ResNet（2015年）

おわりに
• ディープラーニングの基礎を学んできました。
• ディープラーニングは進化の激しい分野で、最新の技術を
効率よく理解するためにも、ディープラーニングの仕組み
をしっかり身に着けておきましょう。

参考文献
• ゼロから作るDeepLearning
• chainerチュートリアル
https://tutorials.chainer.org/ja/13_Basics_of_Neural_Networks.ht
ml
• DL4US
https://weblab.t.u-tokyo.ac.jp/dl4us/

ご清聴ありがとう
ございました！！

活性化関数は何のためにある？
• 活性化関数の役割
 特徴の学習をしやすくするために、データを整える
• 整え方のアプローチは2つ
 計算結果の単位をそろえて比較しやすくする
 sigmoid
 特徴を際立たせることで比較しやすくする
 ReLU

整え方アプローチ１
• 計算結果の単位をそろえる
 数字を比較してこれは同じとか似ているとか判断する一番簡単な方法
は、基準を揃えること
 活性化関数の前でデータと重みを掛け合わして計算した結果が、都合
よく一定の範囲におさまるわけがない
 だから、sigmoid関数の中で一定の範囲の中に納まるように整理して、
後工程で特徴を計算しやすくしてあげる（0～1の間にマッピングしな
おして出力する）

整え方アプローチ２
• 特徴を際立たせることで比較しやすくする
 ある程度割り切って基準を決め、余分なものは捨てていくことで、後
工程で特徴をつかむ計算をやりやすくする
 reluは0より大きければそのまま、0より小さければ0に置き換えて出力
する
 つまり、マイナスの数字をノイズとしてみなして切り捨てることで、
より特徴をつかみやすくする効果がある

活性化関数の使い分け
• 画像データはReluと相性が良い
 画像データにはそもそもマイナスの値がない（0～255）
 なので、画像処理してマイナスのデータになったものは「ノイズ」だ
から切り捨てる・・というのは理にかなっている
• マイナスのデータがはいっているデータはsigmoid
 何かの測定値（気温とか）はマイナスのデータが入っていることがあ
る。その場合、マイナスを切り落とすと無茶苦茶になってしまうので
sigmoidを使う
• sigmoidには大きな範囲の数値データをかけてはいけない
 大きな数字は1か0になってしまう。こうなると元のデータの特徴は消
え失せ、ほとんどが同じデータのように加工されてしまう
 そのため、極力0～1.0の範囲に収まるように正規化されたデータを入
力とする必要がある

活性化関数にステップ関数を使わない
理由
• ステップ関数の微分は、ほとんどの場所で0になる。そのた
め重みが更新されず学習がストップしてしまう。
 𝐸 = − 𝑘 𝑡𝑘 log 𝑦𝑘のyは、h( x1 * w1 + x2 * w2 + b)
 w1を少しだけ増加したときにEがどれだけ変わるのかが知りたいが、
ステップ関数の出力はほぼ変わらない。
 つまりwを増やしてもyの値は全然変わってくれない。
 そのため、Eに変化が見られず学習が進まない。
• 認識精度でなく損失関数を使う理由も同じで、パラメータ
を少し調整しただけでは認識精度は変わらない。つまりパ
ラメータの微分がほとんどの場所で0になってしまう。

誤差逆伝播法
• 数値微分の欠点
微分計算に時間がかかるため、層が増えたときに学習に多く
の時間がかかる問題がある。
• 誤差逆伝播法
連鎖律という仕組みを使って、微分計算を行わずに各重みの
勾配を効率よく算出することができる。

ディープラーニング基礎.pptx

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ディープラーニング基礎.pptx

Similar to ディープラーニング基礎.pptx (20)

Recently uploaded

Recently uploaded (8)

ディープラーニング基礎.pptx

Editor's Notes