10. CNN’s history
Y. Lecun L. Bottou Y. Bengio P. Haffner,”Gradient-based learning applied to
document recognition”,1998
CNNを利用した手書き文字認識の研究.
7層のNNを用いて文字の判定を行った. 0〜9の数字を32×32pxごとに入力層に入
れ、10次元の確率ベクトルとして出力層から得られる. 各ベクトルの要素が各数
字の存在確率となっている. 手書きから生じるクセ(毎回同じ形ではない)を吸収し
て正しい文字を認識する仕組みについての研究.
15. The way of calculation of the node value
Neural Network
input layerとhidden layerはbias nodeを持つ
bias nodeは1に固定されinput edgeを持たない
input layerから次の層の値を決める
node値は前のnodeと結ばれるedgeの重み,活性化関数activation func.から決
まる
bias node
hidden
output
16. The way of calculation of the node value
対象となるnode値
前の層の各node値
各edgeの重み
活性化関数hとすると,node値は前の層のnode値と対応するedge
の重みの積の和に活性化関数を施した値となる. 以下の式.
→ このようにinputからoutput layerでそれぞれ計算していく
・
・
・
17. Kind of the activation function
活性化関数は脳の神経networkであるsynapseに相当
閾値 thresholdを超えると発火し伝送する動きを模倣
neuronを伝わりsyanapseを経由する電気信号が,前node値とedgeの重みの積の
総和
hidden layerでよく利用されるactivation func.は以下.
tanh関数
Hyperbolic tangent func.
シグモイド関数
sigmoid func.
ReLU関数
Rectified Linear Unit
18. Kind of the activation function
tanh関数
Hyperbolic tangent func.
シグモイド関数
sigmoid func.
ReLU関数
Rectified Linear Unit
name formula
tanh関数やsigmoid関数が多く使われるが値が大きくなると関数の勾配が0に近づき,学習がすすま
なくなる. ReLU関数は学習速度が他2つに比べ早く学習が止まることも少ない. 0より小さい小さ
い値でも勾配が0になるため,この部分に小さな傾きを入れたwekly ReLU関数もある.
CNNでは以下の構成をとる.
1. Convolution
2. ReLU
3. Pooling
4. Affine
5. ReLU
6. Affine
7. Softmax
19. Kind of the activation function
softmax関数 softmax func.
output layerから確率ベクトルを得たい場合に利用
活性化関数を施す前の各node値 O1,....,On
上式はi番目のnode値viを算出
式よりV1,...,Vnをすべて足すと1
output valueから定るベクトル(V1,...,Vn)は確率ベクトル