More Related Content More from Fuzhou University More from Fuzhou University (20) 人工智慧08_神經網路3. 神經網路在學什麼?
原始資料
結構化資料
機器學習結果
3
時間 平均股價
103年2月 90.77
103年3月 92.74
103年4月 93.98
103年5月 ?
輸入值(x) 輸出值(y)
1 90.77
2 92.74
3 93.98
bxwxfy
287.89605.1 xxfy
707.954 fy 線性迴歸結果
資料前處理
90
91
92
93
94
95
96
103-2 103-3 103-4 103-5
平均股價
年份-月份
中華電信103年2月-4月平均股價
f(x)為一條趨勢線
深度學習主要就是
在學習「趨勢」
95.707
資料來源:個股月成交資訊,臺灣證券交易所,網址:https://goo.gl/ykB3gA
趨勢線定義:
點到線的距離最小化
中華電信103年5月
平均股價多少?
(也就是x=4代入)
95.707
f(x) = f(4)
機器人圖片來源:
Eyebot Chat Room.
Url: https://goo.gl/gpMrK9
4. 神經網路在學什麼?
原始資料
結構化資料
機器學習結果
4
時間 平均股價
102年1月 105.71
102年2月 104.02
102年3月 102.86
102年4月 102.51
輸入值(x) 輸出值(y)
1 105.71
2 104.02
3 102.86
資料前處理
台灣大哥大102年4
月平均股價多少?
(也就是x=4代入)
101.35
f(x) = f(4)
機器人圖片來源:
Eyebot Chat Room.
Url: https://goo.gl/gpMrK9
bxwxfy
05.107425.1 xxfy
35.1014 fy 線性迴歸結果
101
102
103
104
105
106
107
102-1 102-2 102-3 102-4
平均股價
年份-月份
台灣大哥大102年1月-4月平均股價
101.35
資料來源:個股月成交資訊,臺灣證券交易所,網址:https://goo.gl/ykB3gA
學習出來的線性趨勢與
真實資料有很大的誤差
真實資料為
「非線性趨勢」
5. 神經網路在學什麼?
原始資料
結構化資料
機器學習結果
5
時間 平均股價
102年1月 105.71
102年2月 104.02
102年3月 102.86
102年4月 102.51
輸入值(x) 輸出值(y)
1 105.71
2 104.02
3 102.86
資料前處理
台灣大哥大102年4
月平均股價多少?
(也就是x=4代入)
期望可以
回答102.51
f(x) = f(4)
機器人圖片來源:
Eyebot Chat Room.
Url: https://goo.gl/gpMrK9
101
102
103
104
105
106
107
102-1 102-2 102-3 102-4
平均股價
年份-月份
台灣大哥大102年1月-4月平均股價
資料來源:個股月成交資訊,臺灣證券交易所,網址:https://goo.gl/ykB3gA
期望建立一條
非線性(曲線)趨勢線
真實資料為
「非線性趨勢」
? xfy
如何讓機器學習得到
非線性(曲線)趨勢線?
6. 神經網路在學什麼?
原始資料
結構化資料
機器學習結果
6
時間 平均股價
102年1月 105.71
102年2月 104.02
102年3月 102.86
102年4月 102.51
資料前處理
台灣大哥大102年4
月平均股價多少?
(也就是x=4代入)
預測值0.967
再乘上105.71
回答102.222
f(x) = f(4)
機器人圖片來源:
Eyebot Chat Room.
Url: https://goo.gl/gpMrK9
0.95
0.96
0.97
0.98
0.99
1
102-1 102-2 102-3 102-4
平均股價
年份-月份
台灣大哥大102年1月-4月平均股價
資料來源:個股月成交資訊,臺灣證券交易所,網址:https://goo.gl/ykB3gA
建立一條
非線性(曲線)趨勢線
真實資料為
「非線性趨勢」
正規化
同除以
105.71
輸入值(x) 輸出值(y)
1 1
2 0.984
3 0.973
4 0.970
z
e
zsxfy
bxwz
1
1
967.0
1
1
37.34
275.5476.0
37.3
e
sfy
xz
經由S型函式得到
非線性(曲線)結果
邏輯迴歸結果
7. 神經網路在學什麼?
線性迴歸 vs. 邏輯迴歸
線性迴歸和邏輯迴歸的限制
◦ 假設參數之間互相獨立
◦ 當參數有交互影響時將會不準
◦ 不適合的例子─XOR (互斥或)計算
7
線性迴歸 邏輯迴歸
輸入值 x x
輸出值
核心函式 線性函式 S型函式
bxwxfy
z
e
zsxfy
bxwz
1
1
X1 X2 Y 估計值
0 0 0 0.5
0 1 1 0.5
1 0 1 0.5
1 1 0 0.5
w
機器學習無法學會
XOR,所以權重皆接
近為0,全部猜0.5
5.0
1
1
0
e
估計值
輸入層 輸出層
輸入層 輸出層
8. 神經網路在學什麼?
原始資料
8
月份 遠傳 台灣大 中華電
102年2月 跌 跌 跌
102年3月 跌 跌 跌
102年4月 漲 跌 漲
102年5月 漲 漲 漲
102年6月 漲 跌 跌
102年7月 漲 漲 漲
102年8月 跌 跌 跌
102年9月 跌 跌 漲
102年10月 跌 跌 跌
102年11月 跌 漲 跌
102年12月 跌 跌 漲
103年1月 跌 跌 跌
電信三雄的股價漲跌狀況
月份
遠傳
(當月)
(X1)
台灣大
( 當月)
(X2)
中華電
(次月)
(Y)
102年2月 0 0 0
102年3月 0 0 1
102年4月 1 0 1
102年5月 1 1 0
102年6月 1 0 1
102年7月 1 1 0
102年8月 0 0 1
102年9月 0 0 0
102年10月 0 0 0
102年11月 0 1 1
102年12月 0 0 0
103年1月 0 0 0
運用「遠傳和台灣大漲跌」預測「中華電漲跌」跌為0、漲為1
電信三雄股價是XOR現象
12個月份中有10個月份符合
XOR的現象
用線性迴歸或邏輯迴歸預
測會不準,必需要使用
「神經網路」
9. 神經網路在學什麼?
預測結果
9
月份
遠傳
(當月)
台灣大
( 當月)
中華電
(次月)
真實值
中華電
(次月)
估計值
102年2月 0 0 0 0
102年3月 0 0 1 0
102年4月 1 0 1 1
102年5月 1 1 0 0
102年6月 1 0 1 1
102年7月 1 1 0 0
102年8月 0 0 1 0
102年9月 0 0 0 0
102年10月 0 0 0 0
102年11月 0 1 1 1
102年12月 0 0 0 0
103年1月 0 0 0 0
預測準確度為 10/12 = 83%
兩筆誤判
其他正確
h1
h2
輸入層 隱藏層 輸出層
加入隱藏層
學「深」一點
分析因子相依性
神經網路
多層迴歸
當參數有交互影響時,只有一層迴歸函式(即input直接對到
output)將會不準
可以多加入一層隱藏層,隱藏層中有2個神經元,透過隱藏層
神經元來分析input參數之間的交互關係
輸入層和隱藏層之間可採用邏輯迴歸計算,隱藏層和輸出層
之間可採用邏輯迴歸計算
11. 11
0
0.05
0.1
0.15
0.2
0.25
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
F
w
梯度下降
如何找曲線的相對低點?
如何讓w值向相對低點邁進?
25.0
5.0
2
2
ww
wwF
12
w
w
F
目標函式
函式切線斜率
w=0.5時,
F函式相對低點
對w微分
F函式之一階導函數
Iteration w F
1 0.000 0.250 -0.100
2 0.100 0.160 -0.080
3 0.180 0.102 -0.064
4 0.244 0.066 -0.051
5 0.295 0.042 -0.041
6 0.336 0.027 -0.033
7 0.369 0.017 -0.026
8 0.395 0.011 -0.021
9 0.416 0.007 -0.017
10 0.433 0.005 -0.013
12 w
0
0.05
0.1
0.15
0.2
0.25
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
F
w
當w=0時,斜率為-1
當w=1時,斜率為1
斜率絕對值越大,則
所需修正幅度越大
當w=0.25時,斜率為-0.5
所需修正幅度較小
12
ww
w
F
ww
為學習率
避免一次跳太遠
1.0
1021.00
w
18.0
11.021.01.0
w
Iteration 2的w值
Iteration 3的w值
1.0
當經過63個Interation
後,w值將修正為0.5,
並且不需再修正(收斂)
用前一個Iteration
的w值減去斜率為
新的w值
當w=0.5時,斜率為0
斜率為0時,代表為相
對低點,不需修正
12. 梯度下降
學習率的作用?
12
Iteration w F
1 0.000 0.250 -1.000
2 1.000 0.250 1.000
3 0.000 0.250 -1.000
4 1.000 0.250 1.000
5 0.000 0.250 -1.000
6 1.000 0.250 1.000
7 0.000 0.250 -1.000
8 1.000 0.250 1.000
9 0.000 0.250 -1.000
10 1.000 0.250 1.000
Iteration w F
1 0.000 0.250 -0.900
2 0.900 0.160 0.720
3 0.180 0.102 -0.576
4 0.756 0.066 0.461
5 0.295 0.042 -0.369
6 0.664 0.027 0.295
7 0.369 0.017 -0.236
8 0.605 0.011 0.189
9 0.416 0.007 -0.151
10 0.567 0.005 0.121
學習率 為0.9
12 w
12 w
學習率 為1
0
0.05
0.1
0.15
0.2
0.25
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
F
w
12 www
學習率過大,
w在0和1兩個值之
間擺盪,無法收斂
0
0.05
0.1
0.15
0.2
0.25
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
F
w
129.0 www
學習率大時,擺盪
幅度較大
在複雜的情境中可
能錯過全域最佳解
經過63個Interation
後收斂
13. 梯度下降
多個參數之目標函式
13
22
2
2
,
bwbw
bwbwF
目標函式 bw
w
F
22
函式切線斜率(對w偏微分)
bw
b
F
22
函式切線斜率(對b偏微分)
w修正方式 b修正方式
bww
w
F
ww 22
bwb
b
F
bb 22
w+b=0時,
F函式相對低點
0
0.5
1
1.5
2
2.5
3
3.5
4
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1F
w
bwbb
bwww
221.0
221.0
經過17個Interation
後收斂
w=0且b=0
Iteration w b F
1 1.000 1.000 4.000 0.400
2 0.600 0.600 1.440 0.240
3 0.360 0.360 0.518 0.144
4 0.216 0.216 0.187 0.086
5 0.130 0.130 0.067 0.052
6 0.078 0.078 0.024 0.031
7 0.047 0.047 0.009 0.019
8 0.028 0.028 0.003 0.011
9 0.017 0.017 0.001 0.007
10 0.010 0.010 0.000 0.004
bw 22
學習率 為0.1
14. 0
0.005
0.01
0.015
0.02
0.025
0.03
0.035
0.04
0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1F
w
bwbb
bwww
221.0
221.0
經過13個Interation
後收斂
w=0.9且b=-0.9
梯度下降
多個參數之目標函式
14
22
2
2
,
bwbw
bwbwF
目標函式 bw
w
F
22
函式切線斜率(對w偏微分)
bw
b
F
22
函式切線斜率(對b偏微分)
w修正方式 b修正方式
bww
w
F
ww 22
bwb
b
F
bb 22
Iteration w b F
1 1.000 -0.800 0.040 0.040
2 0.960 -0.840 0.014 0.024
3 0.936 -0.864 0.005 0.014
4 0.922 -0.878 0.002 0.009
5 0.913 -0.887 0.001 0.005
6 0.908 -0.892 0.000 0.003
7 0.905 -0.895 0.000 0.002
8 0.903 -0.897 0.000 0.001
9 0.902 -0.898 0.000 0.001
10 0.901 -0.899 0.000 0.000
bw 22
w+b=0有無限多組解:
• w = 0, b = 0
• w = 0.9, b = -0.9
• w = 1, b = -1
學習率 為0.1
15. 線性迴歸
梯度下降法應用於線性迴歸之權重和誤差項
15
bxwy
線性迴歸函式
(真值)
bxwy ˆˆˆ
2
ˆˆ,ˆ yybwF
12
ˆ
ˆˆ
ˆ2
ˆ
ˆ
ˆ2
ˆ
ˆ
ˆ
2
b
bxwbxw
yy
b
yy
yy
b
yy
b
F
函式切線斜率(對 偏微分) 函式切線斜率(對 偏微分)
線性迴歸函式
(估計值)
目標函式
wˆ bˆ
修正方式 修正方式wˆ bˆ
xw
w
F
ww
2ˆ
ˆ
ˆˆ 12ˆ
ˆ
ˆˆ
b
b
F
bb
令 yy ˆ 令 yy ˆ
x
w
bxwbxw
yy
w
yy
yy
w
yy
w
F
2
ˆ
ˆˆ
ˆ2
ˆ
ˆ
ˆ2
ˆ
ˆ
ˆ
2
w
16. 線性迴歸
梯度下降法應用於線性迴歸之權重和誤差項
16
bxwy
線性迴歸函式
(真值)
bxwy ˆˆˆ
2
2
ˆˆ,ˆ
yybwF
函式切線斜率(對 偏微分) 函式切線斜率(對 偏微分)
線性迴歸函式
(估計值)
目標函式
wˆ bˆ
修正方式 修正方式wˆ bˆ
xw
w
F
ww
2ˆ
ˆ
ˆˆ 12ˆ
ˆ
ˆˆ
b
b
F
bb
x
x
w
y
y
F
w
F
2
12
ˆ
ˆ
ˆˆ
令 yy ˆ
12
112
ˆ
ˆ
ˆˆ
b
y
y
F
b
F
w
17. 線性迴歸
梯度下降法應用於線性迴歸之權重和誤差項
17
Iteration x w b y F
1 0.10 1.00 0.00 0.10 0.50 0.50 0.55 0.20 0.06 0.63
2 0.20 1.00 0.00 0.20 0.44 -0.13 -0.04 0.06 -0.07 -0.34
3 0.30 1.00 0.00 0.30 0.50 0.21 0.36 0.00 0.03 0.09
4 0.40 1.00 0.00 0.40 0.48 0.12 0.32 0.01 -0.05 -0.12
5 0.50 1.00 0.00 0.50 0.53 0.24 0.51 0.00 0.00 0.01
6 0.10 1.00 0.00 0.10 0.52 0.23 0.29 0.03 0.03 0.26
7 0.20 1.00 0.00 0.20 0.50 -0.03 0.07 0.02 -0.04 -0.18
8 0.30 1.00 0.00 0.30 0.53 0.15 0.31 0.00 0.00 0.02
9 0.40 1.00 0.00 0.40 0.53 0.14 0.35 0.00 -0.03 -0.07
10 0.50 1.00 0.00 0.50 0.56 0.21 0.49 0.00 -0.01 -0.02
yˆwˆ bˆ
以 為例01 xy
0
0.05
0.1
0.15
0.2
0.25
0.4 0.5 0.6 0.7 0.8 0.9 1
F
wwˆ
學習率 為0.7
經過770個Interation
後收斂
x 2 12
w
18. 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0 0.1 0.2 0.3 0.4 0.5
F
w
線性迴歸
梯度下降法應用於線性迴歸之權重和誤差項,採用mini-batch計算方式
18
Iteration x w b y
1
0.10 1.00 0.00 0.10 0.50 0.50 0.55 -0.45
0.20 1.00 0.00 0.20 0.50 0.50 0.60 -0.40
0.30 1.00 0.00 0.30 0.50 0.50 0.65 -0.35
0.40 1.00 0.00 0.40 0.50 0.50 0.70 -0.30
0.50 1.00 0.00 0.50 0.50 0.50 0.75 -0.25 -0.35 0.25 0.49
2
0.10 1.00 0.00 0.10 0.26 0.01 0.04 0.06
0.20 1.00 0.00 0.20 0.26 0.01 0.06 0.14
0.30 1.00 0.00 0.30 0.26 0.01 0.09 0.21
0.40 1.00 0.00 0.40 0.26 0.01 0.11 0.29
0.50 1.00 0.00 0.50 0.26 0.01 0.14 0.36 0.21 -0.15 -0.30
yˆwˆ bˆ
以 為例01 xy
wˆ
學習率 為0.7
經過11個Interation後
收斂
x 2 12
經過11個Interation後,
為0.35, 為0.2wˆ bˆ
假設mini-batch為5
在此案例中,mini-batch可以加速
收斂,但卻陷入區域最佳解
採用mini-batch,則計算完每個batch後,再修正權重組合
w
19. 線性迴歸
梯度下降法應用於線性迴歸之權重和誤差項
19
bxwy
線性迴歸函式
(真值)
bxwy ˆˆˆ
2
2
2
1
ˆ
2
1ˆ,ˆ
yybwF
函式切線斜率(對 偏微分) 函式切線斜率(對 偏微分)
線性迴歸函式
(估計值)
目標函式
wˆ bˆ
修正方式 修正方式wˆ bˆ
xw
w
F
ww
ˆ
ˆ
ˆˆ
b
b
F
bb ˆ
ˆ
ˆˆ
x
x
w
y
y
F
w
F
1
ˆ
ˆ
ˆˆ
改為 yyˆ
11
ˆ
ˆ
ˆˆ b
y
y
F
b
F
除以1/2
簡化計算的巧思
w
20. 線性迴歸實作
資料分佈呈現線性分佈
線性迴歸
◦ 線性函式
◦ 機器學習後結果
20
X Y
0.1 0.3
0.2 0.4
0.3 0.5
0.4 0.6
0.5 0.7 0
0.2
0.4
0.6
0.8
1
0 0.1 0.2 0.3 0.4 0.5 0.6
y
x
想像有一條迴歸線(以紅色表示)的存在,
可以讓每個點(以藍色表示)到迴歸線之間的
距離最小
bxwy ˆ
2.01ˆ xy
迴歸線(以紅色表示)為
2.01 xy
27. 邏輯迴歸
梯度下降法應用於邏輯迴歸之權重和誤差項
27
bxwz
邏輯迴歸函式
(真值)
bxwz ˆˆˆ
2
2
2
1
ˆ
2
1ˆ,ˆ
yybwF
函式切線斜率(對 偏微分) 函式切線斜率(對 偏微分)
邏輯迴歸函式
(估計值)
目標函式
wˆ bˆ
修正方式 修正方式wˆ bˆ
xzsw
xzszsw
w
F
ww
ˆˆ
ˆ1ˆˆ
ˆ
ˆˆ
令 yyˆ
xzs
xzszs
xzszs
x
z
y
w
z
z
y
y
F
w
F
ˆ
ˆ1ˆ
ˆ1ˆ1
ˆ
ˆ
1
ˆ
ˆ
ˆ
ˆ
ˆˆ
z
e
zsy
1
1
z
e
zsy ˆ
1
1
ˆˆ
zsw
zszsw
w
F
ww
ˆˆ
ˆ1ˆˆ
ˆ
ˆˆ
zs
zszs
zszs
z
y
w
z
z
y
y
F
w
F
ˆ
ˆ1ˆ
ˆ1ˆ1
1
ˆ
ˆ
1
ˆ
ˆ
ˆ
ˆ
ˆˆ
w
採用S型函式
28. 邏輯迴歸
S型函式微分
28
zszs
ee
e
zs
e
e
zsezszs
ezszsee
z
s
z
s
zs
e
e
zs
zz
z
z
z
z
zzz
z
z
ˆ1ˆ
1
1
1
1
ˆ
1
ˆˆˆ
ˆˆ
ˆˆ
ˆ
1
1
1
ˆ
ˆˆ
ˆ
ˆ
ˆ
ˆ
ˆˆ11ˆ2
11ˆ
ˆ
29. 邏輯迴歸實作
資料分佈呈現線性分佈
線性迴歸
◦ 線性函式
◦ 機器學習後結果
29
X Y
0.1 0.3
0.2 0.4
0.3 0.5
0.4 0.6
0.5 0.7
z
zSigmoid
xSigmoidy
1
25761.119202.4
z
e
zSigmoid
bxwSigmoidy
1
1
0
0.2
0.4
0.6
0.8
1
0 0.1 0.2 0.3 0.4 0.5 0.6
y
x
迴歸線(以紅色表示)為
邏輯迴歸也能得到
接近線性的解
z
e
zSigmoid
xSigmoidy
1
1
25761.119202.4
36. 神經網路(線性函式)
36
X
w2w1 Y
梯度下降法應用於神經網路之權重和誤差項 採用線性函式
212
2112
bzw
bbxwwy
神經網路函式
(真值)
22
2
1
ˆ
2
1ˆ,ˆ yybwF
神經網路函式
(估計值)
目標函式
111
212
2112
ˆˆˆ
ˆˆˆ
ˆˆˆˆˆ
bxwz
bzw
bbxwwy
函式切線斜率(對 偏微分) 函式切線斜率(對 偏微分)2
ˆw 2
ˆb
修正方式 修正方式2
ˆw 2
ˆb
12
2
22 ˆˆ
ˆ
ˆˆ zw
w
F
ww
2
2
22
ˆ
ˆ
ˆˆ b
b
F
bb
1
1
22
ˆ
ˆ1
ˆ
ˆ
ˆˆ
z
z
w
y
y
F
w
F
11
ˆ
ˆ
ˆˆ
22 b
y
y
F
b
F
37. 神經網路(線性函式)
37
X
w2w1 Y
梯度下降法應用於神經網路之權重和誤差項 採用線性函式
212
2112
bzw
bbxwwy
神經網路函式
(真值)
22
2
1
ˆ
2
1ˆ,ˆ yybwF
神經網路函式
(估計值)
目標函式
111
212
2112
ˆˆˆ
ˆˆˆ
ˆˆˆˆˆ
bxwz
bzw
bbxwwy
函式切線斜率(對 偏微分) 函式切線斜率(對 偏微分)1
ˆw 1
ˆb
修正方式 修正方式1
ˆw 1
ˆb
xww
w
F
ww
21
1
11
ˆˆ
ˆ
ˆˆ 22
1
11
ˆˆ
ˆ
ˆˆ wb
b
F
bb
xw
xw
w
z
z
y
y
F
w
F
2
2
1
1
11
ˆ
ˆ1
ˆ
ˆ
ˆ
ˆ
ˆˆ
2
2
1
1
11
ˆ
1ˆ1
ˆ
ˆ
ˆ
ˆ
ˆˆ
w
w
b
z
z
y
y
F
b
F
38. 神經網路(S型函式)
38
X
w2w1 Y
梯度下降法應用於神經網路之權重和誤差項 採用S型函式
z
e
zs
zsbzsws
bbxwswsy
1
1
2212
2112
神經網路函式
(真值)
22
2
1
ˆ
2
1ˆ,ˆ yybwF
神經網路函式
(估計值)
目標函式
函式切線斜率(對 偏微分) 函式切線斜率(對 偏微分)2
ˆw 2
ˆb
修正方式 修正方式2
ˆw 2
ˆb
122
1222
2
22
ˆˆˆ
ˆˆ1ˆˆ
ˆ
ˆˆ
zszsw
zszszsw
w
F
ww
22
222
2
22
ˆˆ
ˆ1ˆˆ
ˆ
ˆˆ
zsb
zszsb
b
F
bb
12
122
122
1
2
2
2
22
ˆˆ
ˆˆ1ˆ
ˆˆ1ˆ1
ˆ
ˆ
ˆ
1
ˆ
ˆ
ˆ
ˆ
ˆˆ
zszs
zszszs
zszszs
zs
z
y
w
z
z
y
y
F
w
F
2212
2112
ˆˆˆˆ
ˆˆˆˆˆ
zsbzsws
bbxwswsy
2
22
22
2
2
2
22
ˆ
ˆ1ˆ
1ˆ1ˆ1
1
ˆ
ˆ
1
ˆ
ˆ
ˆ
ˆ
ˆˆ
zs
zszs
zszs
z
y
b
z
z
y
y
F
b
F
39. 神經網路(S型函式)
39
X
w2w1 Y
梯度下降法應用於神經網路之權重和誤差項 採用S型函式
z
e
zs
zsbzsws
bbxwswsy
1
1
2212
2112
神經網路函式
(真值)
22
2
1
ˆ
2
1ˆ,ˆ yybwF
神經網路函式
(估計值)
目標函式
函式切線斜率(對 偏微分) 函式切線斜率(對 偏微分)1
ˆw 1
ˆb
修正方式 修正方式1
ˆw 1
ˆb
xzswzsw
xzszswzszsw
w
F
ww
1221
112221
1
11
ˆˆˆˆ
ˆ1ˆˆˆ1ˆˆ
ˆ
ˆˆ
1221
112221
1
11
ˆˆˆˆ
ˆ1ˆˆˆ1ˆˆ
ˆ
ˆˆ
zswzsb
zszswzszsb
b
F
bb
xzswzs
xzszswzszs
xzszswzszs
x
z
zs
w
z
y
w
z
z
zs
zs
z
z
y
y
F
w
F
122
11222
11222
1
1
2
2
1
1
1
1
1
2
21
ˆˆˆ
ˆ1ˆˆˆ1ˆ
ˆ1ˆˆˆ1ˆ1
ˆ
ˆ
ˆ
ˆ
ˆ
1
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆˆ
2212
2112
ˆˆˆˆ
ˆˆˆˆˆ
zsbzsws
bbxwswsy
122
11222
11222
1
1
2
2
1
1
1
1
1
2
21
ˆˆˆ
ˆ1ˆˆˆ1ˆ
1ˆ1ˆˆˆ1ˆ1
1
ˆ
ˆ
ˆ
ˆ
ˆ
1
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆˆ
zswzs
zszswzszs
zszswzszs
z
zs
w
z
y
b
z
z
zs
zs
z
z
y
y
F
b
F
40. 神經網路(多個輸入參數)
40
w1 Y
梯度下降法應用於神經網路之權重和誤差項 採用線性函式
bxwy
i
ii
2
1
神經網路函式
(真值)
22
2
1
ˆ
2
1ˆ,ˆ yybwF
神經網路函式
(估計值)
目標函式
bz
bxwy
i
ii
ˆˆ
ˆˆˆ
2
1
函式切線斜率(對 偏微分)1
ˆw
修正方式1
ˆw
11
1
11
ˆ
ˆ
ˆˆ xw
w
F
ww
1
1
11
11
ˆ
ˆ
ˆ
ˆ
ˆˆ
x
x
w
z
z
y
y
F
w
F
X2
X1
w2
函式切線斜率(對 偏微分)2
ˆw
2
2
22
11
ˆ
ˆ
ˆ
ˆ
ˆˆ
x
x
w
z
z
y
y
F
w
F
函式切線斜率(對 偏微分)bˆ
111
ˆ
ˆ
ˆ
ˆ
ˆˆ b
z
z
y
y
F
b
F
修正方式2
ˆw
22
2
22
ˆ
ˆ
ˆˆ xw
w
F
ww
修正方式bˆ
b
b
F
bb ˆ
ˆ
ˆˆ
41. 神經網路(多個輸入參數)
41
w1 Y
梯度下降法應用於神經網路之權重和誤差項 採用S型函式
z
i
ii
e
zsy
bxwz
1
1
2
1
神經網路函式
(真值)
22
2
1
ˆ
2
1ˆ,ˆ yybwF
神經網路函式
(估計值)
目標函式
函式切線斜率(對 偏微分)1
ˆw
修正方式1
ˆw
11
11
1
11
ˆˆ
ˆ1ˆˆ
ˆ
ˆˆ
xzsw
xzszsw
w
F
ww
1
1
1
11
ˆ
ˆ1ˆ
ˆ
ˆ
11
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆˆ
xzs
xzszs
x
z
zs
w
z
z
zs
zs
y
y
F
w
F
X2
X1
w2
函式切線斜率(對 偏微分)2
ˆw 函式切線斜率(對 偏微分)bˆ
修正方式2
ˆw 修正方式bˆ
z
i
ii
e
zsy
bxwz
ˆ
2
1
1
1
ˆˆ
ˆˆˆˆ
2
2
2
22
ˆ
ˆ1ˆ
ˆ
ˆ
11
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆˆ
xzs
xzszs
x
z
zs
w
z
z
zs
zs
y
y
F
w
F
zs
zszs
z
zs
b
z
z
zs
zs
y
y
F
b
F
ˆ
ˆ1ˆ
1
ˆ
ˆ
11
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆˆ
22
22
2
22
ˆˆ
ˆ1ˆˆ
ˆ
ˆˆ
xzsw
xzszsw
w
F
ww
zsb
zszsb
b
F
bb
ˆˆ
ˆ1ˆˆ
ˆ
ˆˆ
42. 神經網路與神經元
神經網路(一般化表示)
42
‧
‧
‧
‧
‧
‧
‧
‧
‧
‧
‧
‧
l
z1
l
z2
l
iz
l
sl
z
1
+
l
a1
l
a2
l
ia
l
sl
a
l
jw ,1
l
jiw ,
l
jw ,2
l
jSl
w ,
l
jb
1l
jz 1l
ja
第l層 第l+1層
第l+1層zj值(加權總和後)
l
i
s
i
l
i
l
ji
l
j bawz
l
1
,
1
第l+1層aj值(激活函式計算後)
l
i
s
i
l
i
l
ji
l
j bawga
l
1
,
1
激活函式(activation function)可為
線性、S型函式、或其他
xxg
x
e
xg
1
1
0if,0
0if,
x
xx
xg
線性函式
S型函式
線性整流函數
(Rectified
Linear Unit,
ReLU)
換個表示方式
43. 神經網路(一般化表示)
監督式學習目標為最小化估計值與真實值之間的誤差(損失)
◦ 假設損失函式(loss function)為
◦ 為真實值, 為估計值
◦ 最小化損失函式,計算方式為對損失函式微分
由於損失函式為多參數組成之函式,故分別對不同參數做偏微分
◦ 對 值計算偏微分,取得第l層最小誤差
◦ 對 值計算偏微分,取得第l層最小誤差之最佳 值
◦ 對 值計算偏微分,取得第l層最小誤差之最佳 值
對 值計算偏微分之數學證明
43
y yˆ
l
iz
l
jiw ,
l
jb
l
iz
1
1
1
1
1
,
1
1,
1
1
1
l
l l
l
s
j
l
j
l
ji
l
i
s
j
l
j
l
j
s
k
l
k
l
jkl
i
l
i
l
i
s
j
l
j
l
i
l
j
l
i
l
i
l
i
l
i
wzg
z
F
baw
az
a
z
F
a
z
z
a
z
F
l
jiw ,
l
jb
yyF ˆ,
損失函式示意圖
誤
差
或
損
失
全域最佳解
區域最佳解
0and
otherwise,0
f,1
where
l
i
l
j
l
i
l
k
a
bkii
a
a
44. 神經網路(一般化表示)
對 值計算偏微分之數學證明
對 值計算偏微分之數學證明
44
1
1,
,
1
,
1
,
l
j
l
i
l
j
l
j
s
k
l
k
l
jkl
ji
l
j
l
ji
l
j
l
ji
a
z
F
baw
w
z
F
w
z
w
F
l
0and
otherwise,0
f,1
where
,,
,
l
ji
l
j
l
ji
l
jk
w
bkii
w
w
1
1,
1
1
l
j
l
j
l
j
s
k
l
k
l
jkl
j
l
j
l
j
l
j
l
j
z
F
baw
b
z
F
b
z
b
F
l
0where
,
l
i
l
jk
b
w
l
jb
l
jiw ,
l
ji
l
ji
l
ji
w
F
ww
,
,,
權重值修正
l
j
l
j
l
j
b
F
bb
誤差項值修正
為學習率
避免一次跳太遠,
而錯過全域最佳解
為學習率
避免一次跳太遠,
而錯過全域最佳解
45.
z
e
zSigmoid
zSigmoidy
bzwzbxwz
1
1
,
2
2122111
神經網路實作(線性函式)
資料分佈呈現線性分佈
神經網路
◦ 線性函式
◦ 機器學習後結果
45
X Y
0.1 0.3
0.2 0.4
0.3 0.5
0.4 0.6
0.5 0.7 0
0.2
0.4
0.6
0.8
1
0 0.1 0.2 0.3 0.4 0.5 0.6
y
x
神經網路模型(以紅色表示)為
神經網路也能得到
接近線性的解
2
121 00566.00155.1,24622.112434.4
zSigmoidy
zzxz
2
12
1
00566.00155.1
24622.112434.4
zSigmoidy
zz
xz
52.
12
1
17124.234301.4
20677.102331.4
zSigmoidy
zSigmoidz
xz
資料分佈呈現線性分佈
神經網路
◦ 線性函式
◦ 機器學習後結果
z
e
zSigmoid
zSigmoidy
bzSigmoidwzbxwz
1
1
,
2
2122111
神經網路實作(S型函式)
52
X Y
0.1 0.3
0.2 0.4
0.3 0.5
0.4 0.6
0.5 0.7 0
0.2
0.4
0.6
0.8
1
0 0.1 0.2 0.3 0.4 0.5 0.6
y
x
神經網路模型(以紅色表示)為
神經網路也能得到
接近線性的解
2
12
1
17124.234301.4
20677.102331.4
zSigmoidy
zSigmoidz
xz