未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習

未来画像予測モデルと時間重み付けを導入した
価値関数に基づく強化学習
2023/8/28(月)
加藤誉基，山内悠嗣（中部大学）
1
電気・電子・情報関係学会東海支部連合大会
G1-4

研究背景
• 教師データが用意できないにタスク対して強化学習が利用されている
• 自らが行動することで得られる経験から学習するため，未知の環境のタスクでも解く可能性
がある
2
https://ai.googleblog.com/2018/06/scalable-deep-reinforcement-learning.html
７台のロボットハンドがピッキング動作を学習している様子

• エージェントが試行錯誤し,報酬を最大化するための行動を学習する機械学習の1つ
• エージェント：環境に対して行動を起こすもの
• 環境：エージェントが相互作用を行う対象
• 状態：環境が保持する環境の様子
• 行動：エージェントがある状態おいて取る事ができる行動
• 報酬：行動に対して遷移した環境から得られるもの
強化学習(例：ライントレースタスク)
3
環境：コースエージェント：車行動：左右のモータの制御値
右： 0.6
左：-0.1
状態：カメラから観測画像
ライントレースタスクの場合

強化学習の流れ
1. 環境から状態を観測し，行動を決定
4
環境
エージェント
状態
𝑠𝑡
行動
𝑎𝑡
右： 0.6
左：-0.1
状態
𝑠𝑡

行動
環境
エージェント
𝑠𝑡 𝑎𝑡
2. 環境がエージェントに遷移した状態を与える
5
右： 0.6
左：-0.1
状態
𝑠𝑡
遷移状態
𝑠𝑡+1
環境
エージェント
状態
𝑠𝑡 遷移状態
𝑠𝑡+1

3. 遷移した状態に応じて報酬を獲得
6
状態
𝑠𝑡+1
行動
環境
エージェント
𝑠𝑡 𝑎𝑡
𝑠𝑡
遷移状態
𝑠𝑡+1
環境
エージェント
状態
右： 0.6
左：-0.1
𝑟𝑡
報酬

1. 環境から状態を観測し，従い行動を決定
3. 遷移した状態に応じて報酬を獲得
4. 1～3を繰り返して，経験を蓄積
7
状態，行動，報酬，遷移状態
経験
行動
環境
エージェント
𝑎𝑡
𝑠𝑡
遷移状態
𝑠𝑡+1
環境
エージェント
状態
右： 0.6
左：-0.1
𝑟𝑡
報酬
状態
𝑠𝑡+1

• 価値を最大化すること
• 価値𝑄 𝑠𝑡, 𝑎𝑡 ：時刻𝑡の状態𝑠𝑡，行動𝑎𝑡のときに時刻t+1以降に獲得できる報酬𝑟𝑡の期待値
• 価値が最大→獲得できる報酬の期待値が最大となる可能性大
強化学習の目標
8
価値Q(𝑠𝑡, 𝑎𝑡)=250
-50点 100点
100点
現在の状態と行動
100点
-50点
100点
最適な行動を選択することができる

価値Q(𝑠𝑡, 𝑎𝑡)
• 未知である先の状態を予測し，価値𝑄(𝑠𝑡+𝑁, 𝑎𝑡+𝑁)を求める
• 現在の価値𝑄(𝑠𝑡, 𝑎𝑡)はその時の状態𝑠𝑡と行動𝑎𝑡により推測される
• 未知である𝑁時刻先の状態𝑠𝑡+𝑁と行動𝑎𝑡+𝑁が分かればよりよい現在の価値𝑄 𝑠𝑡, 𝑎𝑡 が推測できる
先行研究のアプローチ
9
価値Q(𝑠𝑡, 𝑎𝑡)
状態𝑠𝑡+𝑁と行動𝑎𝑡+𝑁の価値
未知であるこれらの状態
西片智広，山内悠嗣，時系列予測モデルを導入した価値関数に基づく強化学習，動的画像処理実利用化ワークショップ，2023．

未来画像生成器
• 未来画像生成の例
• 入力：t=1からt=4までの画像とその時の行動
• 出力：t=5からt=13の未来画像
10
時間が経過するほど未来の予測は曖昧さを含み不安定
入力画像
時刻
入力出力
予測画像
時刻
正解画像
差分画像
長期の予測を導入した場合，生成させる未来画像は時間が経過するほど不安定

• 先の状態を予測する際に時間重み付けを導入し，価値を計算
• 予測した時刻𝑡 + 2以降の価値𝑄( Ƹ
𝑠𝑡+𝑁, 𝑎𝑡+𝑁)に対して直近の未来予測の結果を重視するよう重
み付けすることで，よりよい現在の現在の価値𝑄 𝑠𝑡, 𝑎𝑡 が推測できる
本研究の目的
11
𝑸(ො
𝒔𝒕+𝟐, 𝒂𝒕+𝟐)
𝑎𝑡+2
Ƹ
𝑠𝑡+2
𝑸(ො
𝒔𝒕+𝟔,, 𝒂𝒕+𝟔)
𝑎𝑡+6
Ƹ
𝑠𝑡+6
・・・
重み大重み中
・・・
𝑸(ො
𝒔𝒕+𝟏𝟎, 𝒂𝒕+𝟏𝟎)
𝑎𝑡+10
Ƹ
𝑠𝑡+10
・・・
・・・
重み小

提案手法の概要
• 強化学習の流れに未来画像生成を導入
12

手法の流れ
• 強化学習の流れに未来画像を追加
1. 環境から状態を取得
• 観測する状態：画像
13
ො
𝒔𝒕+𝟏
ො
𝒔𝒕+𝟐
ො
𝒔𝒕+𝑵
𝒂𝒕
𝒂𝒕+𝟏
𝒂𝒕+𝑵
環境
方策ネットワーク
Qネットワーク
𝑎𝑡
𝑠𝑡
エンコーダ
エンコーダ
…
…
更新

手法の流れ
2. エージェントが行動を決定
• 入力：状態𝑠𝑡
• 出力：行動𝑎𝑡
ො
𝒔𝒕+𝟏
ො
𝒔𝒕+𝟐
ො
𝒔𝒕+𝑵
𝒂𝒕
𝒂𝒕+𝟏
𝒂𝒕+𝑵
環境
Qネットワーク
𝑎𝑡
𝑠𝑡
エンコーダ
エンコーダ
…
…
更新
右：0.4
左：0.8
𝒂𝒕
14

ො
𝒔𝒕+𝟏
ො
𝒔𝒕+𝟐
ො
𝒔𝒕+𝑵
手法の流れ
3. 未来画像生成器で1時刻先の状態を予測
• 入力：状態𝑠𝑡，行動𝑎𝑡
• 出力：予測した状態 Ƹ
𝑠𝑡+1
15
𝒂𝒕
𝒂𝒕+𝟏
𝒂𝒕+𝑵
環境
Qネットワーク
𝑎𝑡
𝑠𝑡
エンコーダ
エンコーダ
…
…
更新
ො
𝒔𝒕+𝟏
右：0.4
左：0.8
𝒂𝒕

ො
𝒔𝒕+𝟏
ො
𝒔𝒕+𝟐
ො
𝒔𝒕+𝑵
手法の流れ
4. エージェントが予測した状態から行動を決定
• 入力：予測した状態 Ƹ
𝑠𝑡+1
• 出力：行動を𝑎𝑡+1
16
右：0.5
左：0.3
𝒂𝒕+𝟏
…
𝒂𝒕
𝒂𝒕+𝟏
𝒂𝒕+𝑵
環境
Qネットワーク
𝑎𝑡
Ƹ
𝑠𝑡+1
エンコーダ
エンコーダ
…
更新

ො
𝒔𝒕+𝟏
ො
𝒔𝒕+𝟐
ො
𝒔𝒕+𝑵
手法の流れ
5. 1時刻先の状態の予測，行動の決定を繰り返し，N時刻先の状態を予測
𝑠𝑡+𝑁
• 出力：行動𝑎𝑡+𝑁
17
𝒂𝒕
𝒂𝒕+𝟏
𝒂𝒕+𝑵
環境
Qネットワーク
𝑎𝑡
エンコーダ
エンコーダ
…
…
更新
右：0.5
左：0.3
𝒂𝒕+𝑵
Ƹ
𝑠𝑡+𝑁

6. 予測したN時刻先の状態価値を計算，方策ネットワークに使用
𝑠𝑡+𝑁，行動𝑎𝑡+𝑁
• 出力：𝑄( Ƹ
𝑠𝑡+𝑁, 𝑎𝑡+𝑁)
ො
𝒔𝒕+𝟏
ො
𝒔𝒕+𝟐
ො
𝒔𝒕+𝑵
手法の流れ
18
𝒂𝒕
𝒂𝒕+𝟏
𝒂𝒕+𝑵
環境
Qネットワーク
𝑎𝑡
エンコーダ
エンコーダ
…
…
更新
右：0.5
左：0.3
𝒂𝒕+𝑵
Ƹ
𝑠𝑡+𝑁
𝑸(ො
𝒔𝒕+𝑵, 𝒂𝒕+𝑵)

• 未来画像生成器：Convolutional Dynamic Neural Advection(CDNA)
• 画像と条件を入力する事で未来画像生成
• 入力：時刻𝑡の状態𝑠𝑡とその状態にとる行動𝑎𝑡
• 出力：𝑡 + 1時刻先の未来画像 Ƹ
𝑠𝑡+1
• 未来画像生成器：Convolutional Dynamic Neural Advection(CDNA)
• 画像と条件を入力する事で未来画像生成
𝑠𝑡+1とその状態にとる行動𝑎𝑡+1
• 出力：𝑡 + 2時刻先の未来画像 Ƹ
𝑠𝑡+2
入力𝒔𝒕
畳み込み
LSTM
条件𝒂𝒕
マスクフィルタ
エンコーダデコーダ
出力ො
𝒔𝒕+𝟏
移動フィルタ
複合マスク
移動フィルタをかけた後の画像
畳み込み
LSTM
19
C. Finn, et al.: Unsupervised learning for physical interaction through video prediction, Advances in neural information processing systems, 2016.
出力ො
𝒔𝒕+𝟐
条件𝒂𝒕+𝟏
予測した画像を再び入力することでN時刻先の未来画像を予測
入力ො
𝒔𝒕+𝟏

• CURL：自己教師あり学習を導入した強化学習の手法の一つ
• 強化学習ではactor-criticをベースにしており，自己教師あり学習で画像の潜在変数を学習
• 観測した画像からランダムクロップにより2枚の画像に拡張し，拡張した画像の潜在変数の類
似度が高くなるようにエンコーダを学習
Contrastive Unsupervised representations
for Reinforcement Learning(CURL)
20
M. Laskin, et al.: Curl: Contrastive unsupervised representations for reinforcement learning, International Conference on Machine Learning, pp.5639-5650, 2020.
エンコーダの特徴表現能力が向上

従来法の問題点と改善策
• 問題点
• 従来法では長期の予測を導入した場合，予測される状態は時間が経過するほど不安定となるた
め，強化学習で得られる報酬が減少
• 解決策
• Qネットワークでは予測される状態の価値に対して直近の未来予測の結果を重視するように重
み付けする
21
予測の信頼性が向上することが見込めるため，早期に高い報酬を得ることが期待

提案手法でのQネットワーク
• 予測した先の状態の価値に時間重み付けを行い，価値を更新
• 従来法での損失関数
• 提案手法での損失関数
22
報酬と次の状態の価値予測した先の状態の価値に対して
均等に重み付け
現在の価値
報酬と次の状態の価値予測した先の状態の価値に対して
直近の状態が大きくなるように重み付け
現在の価値
従来法より高い現在の価値𝑸 𝒔𝒕, 𝒂𝒕 を推測できることが期待

ラインレースタスクの問題設定
• ライントレース問題：黒いラインを車が走行
• エージェント：走行する車
• 左右のモータ付きタイヤの制御値([-1.0, 1.0])
• 環境
• 枝分かれしない，ランダムにカーブを含むコース
• 状態
• 先頭に付属するフロントカメラからのライン画像
• 報酬
• コースを進むごとにポイントが加算
• クリア条件
• 一つのコースを完走
• 終了条件
• コースから一定距離外れる
• コースを逆走
• 制限時間内にコースが完走できないとき
23
環境：コース
エージェント：車状態𝑠𝑡：フロントカメラ
からのライン画像

評価実験の概要
• 比較手法
• CURL：Contrastive Unsupervised representations for Reinforcement Learning(CURL)
• 従来法：CURL + 未来画像(t+10時刻先まで予測)の導入
• 提案手法：CURL + 未来画像(t+10時刻先まで予測)を予測する際に時間重み付けを導入
• 学習用コース
24
生成されたコースの例

評価用難易度別のコース
• easy、normal、hardの3種類のコースを用意
25
normal
hard
easy 楕円に近い
学習用コース
と同じ難易度
急なカーブを
含むように生成

報酬による実験結果
• どの難易度でも提案手法の方が早期に高い報酬を獲得
26
ステップ
報酬
報酬
ステップ
報酬
ステップ
難易度easy 難易度normal 難易度hard
実線：5回の学習の平均
領域：5回の学習の標準偏差

• 実験概要
• hardコースにおいて反時計回りでA〜Dカーブを走行し、成功回数を比較
• 各手法で報酬が高くなる80,000~100,000ステップ間を5回走行した合計の成功回数を計算
手法 A B C D 平均
CURL 0.2 0.2 0.2 0.0 0.10
従来法 1.0 0.8 0.4 0.4 0.65
提案手法 2.6 2.6 2.4 2.0 2.40
hardコースにおけるA~Dのカーブの走行成功の平均回数[回]
走行成功回数による実験結果
27
提案手法の方がカーブの成功に成功した回数が多い
5回の学習の平均

実際に走行している様子
• 各手法で報酬が高くなる80,000~100,000ステップでの様子(難易度hard)
28
提案手法の方が安定した走行
8倍速の動画

まとめ
• 未来画像予測モデルに対して時間重み付けを導入した価値関数に基づく
強化学習の手法を提案
• 先の状態を予測する際に時間重み付けを導入し，価値を計算
• 時刻t+10までを予測した未来画像に対して時間重み付けを導入した場合，どの難易度でも多くの報酬を
獲得
• 難易度hardにおいては安定した走行が可能
• 予測した未来画像の直近の推定結果を重視したため、予測の信頼性が向上
• 今後の展望
• 行動決定時に予測した未来画像を導入する手法について検討
29

学習時間
• 未来画像生成器(CDNA)の学習時間
• 40エポックで約3.5時間
• 強化学習(CURL)の学習時間
• 10,000ステップで約2.0時間
• CURLに未来画像(t+10時刻先まで予測)を導入した場合の学習時間
• 10,000ステップで約5.5時間
33

ライントレース環境で変更できる箇所
• コースそのものの大きさ
• 円の縦横比
• カーブを設けるポイントの数と曲がり具合
• 環境の背景
• ラインの太さ，色，濃度
34
多様な環境の例

未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習

Recommended

Recommended

More Related Content

Similar to 未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習

Similar to 未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習 (8)

More from MILab

More from MILab (11)

Recently uploaded

Recently uploaded (8)

未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習