SlideShare a Scribd company logo
1 of 24
Download to read offline
アテンションとマスキング技術で拡張した強化学習による
電力エネルギーシステム最適化研究
日置 智之
1413151
2019年2月14日
曽我部研究室
1
電力エネルギーシステムにおける最適化手法
• 動的計画法[1]
• 遺伝的アルゴリズム[2]
・・・など
混合整数線形計画問題最適化⼿法(従来)
• 強化学習⼿法
• DQN(Deep	Q-Network)[3]
→“Human-level	control	through	deep	reinforcement	learning”
Nature, volume518,	pages529–533 (26	February	2015).
機械学習⼿法(最近)
近年
[1]Bellman,	Princeton	University	Press,	(1957)
[2]Goldberg,	Addison-Wesley,	(1989)
[3]Volodymyr Mnih,	et	al,	NIPS	Deep	Learning	Workshop,	(2013)
数学最適化手法に予測機能はない
予測機能を持った最適化手法が適している
Q学習
どの⾏動が最⼤の即時+将来の報酬を取得するかを推定する。
これは 𝑄関数といい、 𝑄 𝑠, 𝑎 = 𝑟 + 𝛾(𝑠*
, 𝑎*
) で⽰される。
予測された最⼤の 𝑄値を有する⾏動が、環境中で⾏動として選択される。
DQN(Deep Q-Network)
Q学習における状態と⾏動の組に対して定義される 𝑄値を保存するための領域を、
ディープニューラルネットワーク(DNN)によって近似するアルゴリズム。
2
Q学習とDQN(Deep Q-Network)
強化学習
ある環境で⾏動 𝑎を実⾏すると、次の状態 𝑠に変わる。⾏動すると
環境で観察される即時の報酬 𝑟を受け取る。⾏動から報酬を得る
サイクルは学習が終わるまで繰り返す。そして、この全ての報酬
を”将来の報酬”という。
強化学習
3
電力エネルギーシステムにおける電気系統表現
電気系統表現 電気系統表現
売る 買う売る/
放電
売る
買う/
充電
⽬的関数:利益 𝒙 = - 売電価格 ∗ 売電量 − 買電価格 ∗ 買電量
𝒏
𝒊2𝟏
4
電力エネルギーシステムと強化学習の対応
観測 Q: どんな⾏動を取る
最も⾼い報酬に繋ぐ⾏動を取る ← 強化学習
action_1
action_2
action_3
action_4
状態
買う
売る
充電
放電
5数学最適化手法と強化学習手法における制約条件
深層強化学習
Deep	Q-learning	(DQN)
混合整数線形計画法
Mixed-integer	linear	programming	(MILP)
𝑃56778 	≤ 𝑃5677;<=_?6@
s.t.
Action:		𝑎A = 0,1
𝑃5D=, 𝑃E;FF, 𝑃5678, …
𝒊𝒇		𝒔. 𝒕. = 𝒕𝒓𝒖𝒆
𝑒𝑙𝑠𝑒
𝑅 = −100
𝑅 = 𝑓(𝑥)
𝑃5677;<=_?AT ≤ 𝑃56778
Variables:
𝑎5D=/E;FF = 0,1
𝑎VW6<X;/YAEVW6<X; = 0,1
𝑃5D= ∶ 𝑊
𝑃E;FF	: 𝑊 	
𝑃56778	: 𝑊ℎ 	
𝑃5677]	: 𝑊 	
𝑃5677^	: 𝑊
𝑭 𝒙 = - 𝑪 𝒔𝒆𝒍𝒍 𝑷 𝒔𝒆𝒍𝒍 ∗ 𝒂 𝒔𝒆𝒍𝒍 − 𝑪 𝒃𝒖𝒚 𝑷 𝒃𝒖𝒚 ∗ 𝒂 𝒃𝒖𝒚
𝒏
𝒊2𝟏
Reward:	
State:
Maximize object function
6数学最適化手法と強化学習手法における環境条件
時刻別太陽光発電量と負荷消費量
電気購入価格
電気販売価格
7数学最適化手法と強化学習手法の最適化結果比較
MILP方法による利益=74円 DQN方法による利益=78円
𝑷 𝑫𝑸𝑵 − 𝑷 𝑴𝑰𝑳𝑷 = 𝟒(𝑱𝑷𝒀)
バッテリーの充放電曲線
⽬的関数:利益 𝒙 = - 売電価格 ∗ 売電量 − 買電価格 ∗ 買電量
𝒏
𝒊2𝟏
MILP:
計算に全データ区間を使⽤して、⽬的関数を最⼤化
DQN:
MILPとの⽐較のためDQNをグリッドサーチとして使⽤
※グリッドサーチ:機械学習には様々なデータ特徴を⼀般化するためにハイ
パーパラメータが必要となる。グリッドサーチはハイパーパラメータを最適
化する⽅法の⼀つ。指定されたデータ空間内でハイパーパラメータをランダ
ムに当てはめて最適化を⾏う。
MILPのような数学最適化⼿法とグリッドサーチは…
あらかじめ⽤意された全区間のデータがないと最適化できない
数学最適化⼿法とグリッドサーチに予測機能はない
電⼒システムには予測機能をもった最適化⼿法が適している
予測機能を持つDQNの開発
8
MILPとグリッドサーチにおける予測機能
DQNの2万エピソードの学習結果。
1⽇の総電⼒コストをプロットした。正⽅向は利益、負⽅向は損益である。
9
予測機能を持つDQNの開発 -拡張の理由-
-475
-425
-375
-325
-275
-225
-175
-125
-75
-25
25
75
1.0E+0
3.2E+2
6.4E+2
9.6E+2
1.3E+3
1.6E+3
1.9E+3
2.2E+3
2.5E+3
2.9E+3
3.2E+3
3.5E+3
3.8E+3
4.1E+3
4.5E+3
4.8E+3
5.1E+3
5.4E+3
5.7E+3
6.0E+3
6.4E+3
6.7E+3
7.0E+3
7.3E+3
7.6E+3
8.0E+3
8.3E+3
8.6E+3
8.9E+3
9.2E+3
9.5E+3
9.9E+3
1.0E+4
1.0E+4
1.1E+4
1.1E+4
1.1E+4
1.2E+4
1.2E+4
1.2E+4
1.3E+4
1.3E+4
1.3E+4
1.4E+4
1.4E+4
1.4E+4
1.5E+4
1.5E+4
1.5E+4
1.6E+4
1.6E+4
1.6E+4
1.7E+4
1.7E+4
1.7E+4
1.7E+4
1.8E+4
1.8E+4
1.8E+4
1.9E+4
1.9E+4
1.9E+4
2.0E+4
TOTAL	REWARD
EPISODES
Reward per episode graph
DQN
図:DQNによるエピソード毎の総電⼒コスト最適化結果
制約条件が満たない場合は報酬が0になる
DQNはリワード(報酬)だけでは制約条件を満たさない。
制約条件を満たすための拡張が必要
State	Data
State	Data attention	data
NN	
Network	
NN	
Network
concatenate
sigmoid
Masking
アテンションとマスキングで拡張した(AME-)DQNの開発 12
F.SOC
F.PV
Grid
Demand
SOC
PV
Grid
DemandQ-Net
At-Net
Attention Masking Extended-DQN
マスキングネットワークアテンションネットワークDQNネットワーク
アテンションネットワーク:
DQNがバッテリーから電⼒を使うときに現在のバッテリー残量から電⼒需要量を引く。
バッテリー制約条件が満たないときはアテンションネットワークのF.SOCが-1になる。
マスキングネットワーク:
1⽇の最後の⾏動で電気を売る⾏動をマスキングする。買う⾏動のみ選択する。
11
AME-DQNの学習結果
図:アルゴリズム別、エピソード毎の最適化結果
AME-DQNは制約条件を満たし、安定した最適化を⾏う。
次のスライドで、ここで学習したAME-DQNによる最適化予測を検証する。
12
学習したAME-DQNによる最適化予測
Test MILP 225(JYP/day)
Test	AME-DQN	165(JYP/day)
Restricted	Zone Restricted	Zone
図:環境を変えた環境条件 図:MILPによる最適化 図:AME-DQNによる最適化予測
Test MILP -15(JYP/day)
Restricted	Zone
Test	AME-DQN	-201(JYP/day)
Restricted	Zone
Test MILP 74(JYP/day)
Restricted	Zone
Restricted	Zone
Test	AME-DQN	-77(JYP/day)
13
環境条件を変えた場合の最適化予測
l AME-DQNは制約条件を満たして安定した学習ができ
た。
l AME-DQNによる最適化予測は環境条件を変えた場合
の問題にも制約条件を満たし、電⼒コストの最適化
予測に成功した。
l 今後の課題として、AME-DQNの予測精度の向上があ
る。
l また、1⽇の電⼒コスト最適化だけではなく、⻑期
間の最適化が必要である。
14
まとめ
図:アルゴリズム別、エピソード毎の最適化結果
補⾜
15
補⾜:The	Model	of	Attention	Mechanism	1
Attention Mechanism
画像情報:何個かのプラスチックを持っている⼈が交差点を私の⽅に歩いている
LSTM系列では画像情報xの予測は
ht=f(x,ht−1)
-Attention Mechanism-
画像情報の特徴を⽣成する
ht=f(attention(x,ht−1),ht−1)
Attention	Mechanismには2つの⼊⼒
・⽂脈情報
・CNNによる各領域の画像特徴
16
補⾜:The	Model	of	Attention	Mechanism	2
Attention Mechanism
ここでCNNの第2層から4分割
(x1,x2,x3,x4)に特徴付けされた画像
をAttention Moduleに⼊⼒する
この4つの空間領域に⽂脈情報ht−1
を加えAttention Moduleに⼊⼒する
これらの情報を従来の画像情報
xに置き換えてLSTMに⼊⼒する
17
補⾜:The	Model	of	Attention	Mechanism	3
Attention Mechanism
ここでCNNの第2層から4分割
(x1,x2,x3,x4)に特徴付けされた画像
をAttention Moduleに⼊⼒する
この4つの空間領域に⽂脈情報ht−1
を加えAttention Moduleに⼊⼒する
これらの情報を従来の画像情報
xに置き換えてLSTMに⼊⼒する
18
19
補足:アテンション技術とマスキング技術
Attention Mechanism
マスキング技術
Ex)⾼速道路で⾞線変更を学習
Ex)写真から情報を⽂字化する
アテンション技術
Original LSTM
LSTMには⼊⼒値と2つのゲートがあり、
それぞれ「実際の⼊⼒値」「⼊⼒ゲート」
「出⼒ゲート」となっている
⼊⼒ゲートと出⼒ゲートは⼊⼒値と
内部のメモリセルの状態(state)制御に
使⽤される
⼊⼒層の出⼒xt及び中間層の1ステップ前
の出⼒yt-1は、それぞれ3か所に同時に
⼊⼒として供給される
各⼊⼒は重み⾏列wz,in,out ,Rz,in,out
によって重み付けされ、加算されのち
各ゲートの活性化関数を通る
CEC(Constant Error Carousel)とは
勾配消失問題に対応する機能を持ったアプローチ
20
補⾜:LSTM
・
・
・
⼊⼒層の出⼒xt
1ステップ前のユニットの出⼒yt-1
出力ゲート
入力ゲート
実際の入力値
𝑓*
op
𝑛𝑒𝑡op
𝑡 − 𝑚 𝑤op
𝑘?vw = 1.0
Original LSTM
Input weight conflict
従来のRNNでは、重み更新に⽭盾があった
・以前の⼊⼒情報を記憶する(覚える)
・以前の⼊⼒が無関係な場合保護する
(読まない)
しかし、重み付けのみで表現することは
難しい…
⼊⼒したくないデータを⼊⼒ゲートで除去
⼊⼒ゲートで必要な誤差信号のみが伝搬
するように閉じたり開いたりする
記憶データとWinの内積で⼊⼒可否を判断
output weight conflict
Input weight conflictと同様に
・以前の⼊⼒情報を記憶する(覚える)
・以前の⼊⼒が無関係な場合保護する(書かない)
従来の重み付けのみの表現では⽭盾が⽣じる…
出⼒したくないデータを出⼒ゲートで除去
⼊⼒ゲートと同様に出⼒ゲートで必要な出⼒かどうか判断
記憶データとWoutの内積で出⼒可否を判断
21
補⾜:LSTM
入力ゲート
出力ゲート
実際の入力値
-4000
-3000
-2000
-1000
0
1000
2000
3000
4000
5000
6000
7000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
Stored	charge(Wh)
Steps
74.0536(MILP) 74.2966(DQN) 74.5706(DQN) 77.8724(DQN) 74.2966(DQN) 74.5706(DQN)
74.0536(MILP) SELL	unit	price/10^5 buy	unit	price/10^5 77.8724(DQN) demand
補⾜:MILPとDQNグリッドサーチにおけるバッテリー量推移
23
補⾜:PVと消費量を変えた最適化結果
Spring Summer Winter
MILP
[JPY]
RL
random
[JPY]
MILP
[JPY]
RL
random
[JPY]
MILP
[JPY]
RL
random
[JPY]
Normal 398 409 79 79 74 78
Low 68 80 -249 -251 -253 -253
Rain 271 280 -46 -44 -51 -46
2peak 576 589 256 260 244 243
Different	PV	and	demand	curve MILP	and	DQN	random	search	result

More Related Content

More from Tomoyuki Hioki

【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...Tomoyuki Hioki
 
【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)Tomoyuki Hioki
 
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)Tomoyuki Hioki
 
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem
Tomoyuki Hioki
 

More from Tomoyuki Hioki (11)

【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
 
【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)
 
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
 
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

 
Prml1.2.5~1.2.6
Prml1.2.5~1.2.6Prml1.2.5~1.2.6
Prml1.2.5~1.2.6
 
Prml1.2.4
Prml1.2.4Prml1.2.4
Prml1.2.4
 
Prml1.2.3
Prml1.2.3Prml1.2.3
Prml1.2.3
 
Prml1.2.1~1.2.2
Prml1.2.1~1.2.2Prml1.2.1~1.2.2
Prml1.2.1~1.2.2
 
PRML1.1
PRML1.1PRML1.1
PRML1.1
 
PRML1.2
PRML1.2PRML1.2
PRML1.2
 
PRML1.1
PRML1.1PRML1.1
PRML1.1
 

Power energy system optimization research by reinforcement learning extended with attention and masking techniques