SlideShare a Scribd company logo
1 of 1
時系列予測モデルを導入した価値関数に基づく強化学習
IS2-15 西片 智広,山内 悠嗣 (中部大学)
研究背景,目的
強化学習の目標は価値の最大化
• 価値 = これから獲得する報酬の期待値
価値は期待値であるため,
未知である将来の状態を考慮している
提案手法の流れ
1. 環境から状態𝑠𝑡を観測
2. エージェントが状態𝑠𝑡における行動𝑎𝑡を決定
3. 状態𝑠𝑡,行動𝑎𝑡から未来画像 Ƹ
𝑠𝑡+1を予測
4. 2,3を繰り返し,𝑁時刻先の未来画像 Ƹ
𝑠𝑡+𝑁を予測
5. 未来画像 Ƹ
𝑠𝑡+𝑁における価値𝑄( Ƹ
𝑠𝑡+𝑁,𝑎𝑡+𝑁) を推定
Qネットワーク
未来画像生成器
未来画像生成パート 強化学習パート
環境
方策ネットワーク エンコーダ
方策ネットワーク
エンコーダ
更新
𝑠𝑡 𝑎𝑡
𝑎𝑡
𝑎𝑡+1
𝑎𝑡+𝑁
Ƹ
𝑠𝑡+1
Ƹ
𝑠𝑡+2
Ƹ
𝑠𝑡+𝑁
⋮ ⋮
1.ライントレースタスク
:従来法 :提案手法
2.カートポールタスク
提案手法が早期に高い報酬を獲得
今後の展望
Machine Intelligence Laboratory https://cumil.org/
t=1 t=2 t=3 t=4 t=5 t=6
入力画像
予測画像
正解との
差分画像
easy
normal hard
3つの難易度のコースで評価
CURL :自己教師あり学習付きactor-critic型強化学習モデル
:畳み込みLSTMベースの未来画像生成モデル
CDNA
• 入力:時刻tの画像𝑠𝑡,時刻tにおける行動𝑎𝑡
• 出力:時刻t+1の未来画像 Ƹ
𝑠𝑡+1
• actor:方策ネットワーク,状態から行動を決定
• critic:Qネットワーク,状態と行動から価値を推定
強化学習(CURL[1]) + 未来画像生成(CDNA[2])
報酬 𝑟𝑡 報酬 報酬
𝑟𝑡+1 𝑟𝑡+2
𝑠𝑡 𝑎𝑡 𝑠𝑡+2 𝑎𝑡+2
価値 𝑄(𝑠𝑡, 𝑎𝑡)
𝐿 = 𝑟𝑡 + 𝛾𝑄 𝑠𝑡+1, 𝑎𝑡+1 − 𝑄(𝑠𝑡,𝑎𝑡)
𝐿 = 𝑟𝑡 +
1
2
𝛾{𝑄(𝑠𝑡+1, 𝑎𝑡+1) +
1
𝑁 − 1
෍
𝑛=2
𝑁
𝑄 Ƹ
𝑠𝑡+𝑛, 𝑎𝑡+𝑛 } − 𝑄(𝑠𝑡,𝑎𝑡)
提案手法の損失関数
予測した先の状態の価値を考慮するように更新
提案手法
価値の推定に現在の状態だけでなく,未来の状態を考慮
実験結果
現在の価値
報酬と次の状態の価値
報酬と次の状態の価値 予測した先の状態の価値 現在の価値
従来手法の損失関数
CDNAにより生成した未来画像の例
• 入力:t=1からt=4までの画像と
その時の行動
• 出力:t=5,t=6の未来画像
• 5回の学習で獲得した報酬の変化の平均をグラフに描画
従来法(CURL)と提案手法(CURL+未来画像生成)を比較
• 状態:カートとポールの全体が映る画像
• 行動:x軸方向への移動量(1次元,連続値)
• 報酬:ポールの角度とカートの位置より決定
• 状態:車のフロントカメラの画像
• 行動:左右のタイヤの制御値(2次元,連続値)
• 報酬:車とラインとの距離より決定
• 方策ネットワークにも未来画像を入力し,行動決定に利用
• 他のタスクでの有効性を確認
[1]. M. Laskin et al, “Curl: Contrastive unsupervised representations for reinforcement learning”, PMLR, 2020.,
[2]. C. Finn et al, “Unsupervised learning for physical interaction through video prediction”, NIPS, 2016.
カートポールタスクの状態
CDNA
正解画像(実際の画像)
未来の状態を先読みして,学習をする

More Related Content

Featured

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

時系列予測モデルを導入した価値関数に基づく強化学習

  • 1. 時系列予測モデルを導入した価値関数に基づく強化学習 IS2-15 西片 智広,山内 悠嗣 (中部大学) 研究背景,目的 強化学習の目標は価値の最大化 • 価値 = これから獲得する報酬の期待値 価値は期待値であるため, 未知である将来の状態を考慮している 提案手法の流れ 1. 環境から状態𝑠𝑡を観測 2. エージェントが状態𝑠𝑡における行動𝑎𝑡を決定 3. 状態𝑠𝑡,行動𝑎𝑡から未来画像 Ƹ 𝑠𝑡+1を予測 4. 2,3を繰り返し,𝑁時刻先の未来画像 Ƹ 𝑠𝑡+𝑁を予測 5. 未来画像 Ƹ 𝑠𝑡+𝑁における価値𝑄( Ƹ 𝑠𝑡+𝑁,𝑎𝑡+𝑁) を推定 Qネットワーク 未来画像生成器 未来画像生成パート 強化学習パート 環境 方策ネットワーク エンコーダ 方策ネットワーク エンコーダ 更新 𝑠𝑡 𝑎𝑡 𝑎𝑡 𝑎𝑡+1 𝑎𝑡+𝑁 Ƹ 𝑠𝑡+1 Ƹ 𝑠𝑡+2 Ƹ 𝑠𝑡+𝑁 ⋮ ⋮ 1.ライントレースタスク :従来法 :提案手法 2.カートポールタスク 提案手法が早期に高い報酬を獲得 今後の展望 Machine Intelligence Laboratory https://cumil.org/ t=1 t=2 t=3 t=4 t=5 t=6 入力画像 予測画像 正解との 差分画像 easy normal hard 3つの難易度のコースで評価 CURL :自己教師あり学習付きactor-critic型強化学習モデル :畳み込みLSTMベースの未来画像生成モデル CDNA • 入力:時刻tの画像𝑠𝑡,時刻tにおける行動𝑎𝑡 • 出力:時刻t+1の未来画像 Ƹ 𝑠𝑡+1 • actor:方策ネットワーク,状態から行動を決定 • critic:Qネットワーク,状態と行動から価値を推定 強化学習(CURL[1]) + 未来画像生成(CDNA[2]) 報酬 𝑟𝑡 報酬 報酬 𝑟𝑡+1 𝑟𝑡+2 𝑠𝑡 𝑎𝑡 𝑠𝑡+2 𝑎𝑡+2 価値 𝑄(𝑠𝑡, 𝑎𝑡) 𝐿 = 𝑟𝑡 + 𝛾𝑄 𝑠𝑡+1, 𝑎𝑡+1 − 𝑄(𝑠𝑡,𝑎𝑡) 𝐿 = 𝑟𝑡 + 1 2 𝛾{𝑄(𝑠𝑡+1, 𝑎𝑡+1) + 1 𝑁 − 1 ෍ 𝑛=2 𝑁 𝑄 Ƹ 𝑠𝑡+𝑛, 𝑎𝑡+𝑛 } − 𝑄(𝑠𝑡,𝑎𝑡) 提案手法の損失関数 予測した先の状態の価値を考慮するように更新 提案手法 価値の推定に現在の状態だけでなく,未来の状態を考慮 実験結果 現在の価値 報酬と次の状態の価値 報酬と次の状態の価値 予測した先の状態の価値 現在の価値 従来手法の損失関数 CDNAにより生成した未来画像の例 • 入力:t=1からt=4までの画像と その時の行動 • 出力:t=5,t=6の未来画像 • 5回の学習で獲得した報酬の変化の平均をグラフに描画 従来法(CURL)と提案手法(CURL+未来画像生成)を比較 • 状態:カートとポールの全体が映る画像 • 行動:x軸方向への移動量(1次元,連続値) • 報酬:ポールの角度とカートの位置より決定 • 状態:車のフロントカメラの画像 • 行動:左右のタイヤの制御値(2次元,連続値) • 報酬:車とラインとの距離より決定 • 方策ネットワークにも未来画像を入力し,行動決定に利用 • 他のタスクでの有効性を確認 [1]. M. Laskin et al, “Curl: Contrastive unsupervised representations for reinforcement learning”, PMLR, 2020., [2]. C. Finn et al, “Unsupervised learning for physical interaction through video prediction”, NIPS, 2016. カートポールタスクの状態 CDNA 正解画像(実際の画像) 未来の状態を先読みして,学習をする