SlideShare a Scribd company logo
1 of 19
Download to read offline
【論⽂紹介】
Data-Efficient	
Hierarchical	Reinforcement	Learning
先に結論
⼿法の新規性:
• 直接的な状態ベクトルの利⽤によって, Hierarchical	Reinforcement	Learning(HRL)の学習を単純化
• HRLへのoff-policyの導⼊による,サンプル効率の向上
⼿法の発案の流れ
1. 「従来法では,状態ベクトルの潜在表現学習の必要性やサンプル効率の悪さが問題視されている….」
2. 「直接的な状態ベクトルの利⽤における学習の単純化・off-policyの導⼊によって,これらを解決!!!」
検証実験
• mujocoによって構築された,複雑なタスクによって,従来法と提案法を⽐較
• 提案法は,従来法と⽐べて,到達報酬値・タスクの成功率において,優位に⽴った
1
(参考⽂献)
Ofir Nachum,	Shane	Gu,	Honglak Lee,	and	Sergey	Levine.	Data-efficient	hierarchical	reinforcement	learning.	Neural	Information	Processing	Systems	pp	3307-3317	2018
Contents
• 背景
• 提案法
• 検証実験
Contents
• 背景
• 提案法
• 検証実験
Hierarchical Reinforcement Learning(HRL)
4
概要・・・具体的な制御を⾏うlow	policyと抽象的な制御を⾏うhigh	policyを⽤いる⼿法
左へ進むなどの具体的な⾏動 ドアへ向かうなどの抽象的な⾏動
https://www.slideshare.net/yukono1/nips2017pfn-hierarchical-reinforcement-learning
5
HRLの特徴
①上位の⾏動は下位の⾏動よりも抽象的で意味のある⾏動(系列)を表していると
考えられるため,より意味のある探索が期待できる
(例)
「トルクにXだけ⼒を加える」よりも「前に進む」の⽅が探索⾏動として意味がある.
②学習の時定数を⼤きくする(cステップに1つの遷移を使う)ことで
実質のエピソードの⻑さが短くなり,報酬の伝搬が効率的になり学習がしやすくなる
従来のHRLの問題点
6
• 学習の複雑性
• 意味のある状態表現の学習が必要であるため,その学習がうまくいっていなければ,
有意義な報酬値がlow	policyに与えられない
• 過去のサンプルを利⽤するoff-policyの導⼊は,好ましくない
• HRLのように,複数の政策を同時に学習する場合には,
off-policyを利⽤すると,学習の不安定性が増幅する
これらを解消したHRLを提案することを⽬指す!!!
Contents
• 背景
• 提案法
• 検証実験
8
HIRO(HIerarchical Reinforcement	learning	with	Off-policy	correction)
• high policyが⽬標状態を指定,low policyがその状態への到達する制御を⾏う
という構図にし,どのタスクでも事前設定なしに統⼀して⽤いることができる⼿法を提案
• サンプル効率の点から,それぞれの政策をoff-policyで別々に学習
おおまかな⼿法の要素
• 学習への直接的な状態の利⽤
• off-policyへの適⽤のための修正
学習への直接的な状態の利⽤
10
【背景】
• 意味のある状態表現の学習が必要である
• その学習がうまくいっていなければ,有意義な報酬値がlow	policyに与えられない
【解決策】
状態ベクトルを⽬標として直接⽤い、状態観測の変化をより⾼いレベルの政策の⾏動空間として⽤いる
また,low	policyの報酬関数にも,直接的な状態ベクトルを利⽤する
下位政策の報酬関数
これにより、low	policyがすぐに報酬シグナルを受け取ることができる
HIROによる⾏動の流れ
①high policyはある状態への到達を
サブゴールとして⼀定ステップごとに
low policyに与える
②low policyはサブゴールへ出来るだけ早く訪れるように⾏動
まず3ステップ以内に
ここまで進め!
(⼀定ステップ数)=	3の時
ここへ移動!
サブゴールに近づいたため
多くの報酬がもらえる
low	policyの報酬関数
high policyは元の報酬関数に従い学習
(右図の場合,ケーキ獲得で+10)
サブ
ゴール
サブ
ゴール
https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.amazonaws.com%2F0%2F105335%2F1c55ba8e-0401-d4e9-72d5-
8c418feb8d9d.png?ixlib=rb-1.2.2&auto=format&gif-q=60&q=75&s=931e2ff7a10dc159dc1c861de42a74c5
off-policyへの適⽤のための修正
12
high	policyは,以下のような複数ステップのデータを格納することになる
【問題点】
low	policyも学習しているため,
過去のこのデータは現在のlow	policyから得られるデータから乖離している可能性がある
【解決策】
過去のlow	policyの⾏動の可能性を最⼤化する,ゴール𝒈で過去のゴール𝒈 𝒕を再ラベリングする!!!
※乖離が酷いと,学習に悪影響を与える
off-policyへの適⽤のための修正
13
1. 10つのgを決定
• ⽬標gの決め⽅としては,平均𝑠$%& − 𝑠$の正規分布から8つサンプリング
• その8つに加え,𝑠$%& − 𝑠$,元の⽬標𝑔$を加えた10つを対象
2. 現在の状態,ゴールgを元に,low	policyが⾏動を決定
3. 2の出⼒と過去の⾏動𝑎*の⼆乗誤差が最⼩であるgへ更新する
これにより,過去の⾏動と現在の⾏動が近いゴールへ更新することで,
過去のサンプルが現在のpolicyに従って得られる可能性を⾼める.
(同じゴールを⽬指したときに,過去と現在で⾏動にあまり差がないものをゴールとするイメージ)
⼿順
結論,以下の式の最⼤化を⾏うgへ再ラベリングする
Contents
• 背景
• 提案法
• 検証実験
実験環境
15
• Ant	Gather
• 環境内にランダムに配置される爆弾を避けながら,りんごを集める(報酬:	リンゴ+1,爆弾 -1)
• Ant	Maze
• 「コ」型の迷路を探索し,ゴールを⽬指す
• Ant	Push
• ブロックを退けて,ブロックに阻まれたゴールを⽬指す
• Ant	Fall
• ブロックを割れ⽬に押し込んで道を作り,ゴールを⽬指す
Ant	Gather Ant	Maze
従来法との⽐較
16
成功率報酬値
• 従来法では全く学習できていないタスクにおいて,提案法は学習できていることが分かる
• FuNでは,意味のある状態表現を元に報酬値を決定するが,今回の結果から,
このアプローチが,「ゴールに近づけば報酬を与える」という単純な報酬設定と⽐べて劣っていることがわかる
Ablation study
17
• With	lower-level	re-labeling( ランダムなゴールを⽬標として得られたlow	policy⽤のデータを新たに追加)
• high	policyからの指⽰だけでなく,考えられるゴール全てを学習する必要があるため,学習が困難になる
• With	pre-training(low	policyの事前学習&パラメータの固定化し,high	policyのみを学習)
• 簡単なタスクにおいては有効に働くが,複雑なタスクでは,逆に有害になる(オンラインでの学習が必要となるため)
• No	off-policy	correction(ゴールgの修正なし)
• 全てのタスクにおいて性能が低下し,特に複雑なタスクにおいては,うまくいかない傾向にある
• no	HRL(HRLなし)
• HRLをなくすと,全く学習できなくなる
まとめ
18
⼿法の新規性:
• 直接的な状態ベクトルの利⽤によって, Hierarchical	Reinforcement	Learning(HRL)の学習を単純化
• HRLへのoff-policyの導⼊による,サンプル効率の向上
⼿法の発案の流れ
1. 「従来法では,状態ベクトルの潜在表現学習の必要性やサンプル効率の悪さが問題視されている….」
2. 「直接的な状態ベクトルの利⽤における学習の単純化・off-policyの導⼊によって,これらを解決!!!」
検証実験
• mujocoによって構築された,複雑なタスクによって,従来法と提案法を⽐較
• 提案法は,従来法と⽐べて,到達報酬値・タスクの成功率において,優位に⽴った

More Related Content

Featured

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 

Featured (20)

Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 

【論文紹介】 Data-Efficient Hierarchical Reinforcement Learning