【論文紹介】 Data-Efficient Hierarchical Reinforcement Learning

【論⽂紹介】
Data-Efficient
Hierarchical Reinforcement Learning

先に結論
⼿法の新規性:
• 直接的な状態ベクトルの利⽤によって， Hierarchical Reinforcement Learning（HRL）の学習を単純化
• HRLへのoff-policyの導⼊による，サンプル効率の向上
⼿法の発案の流れ
1. 「従来法では，状態ベクトルの潜在表現学習の必要性やサンプル効率の悪さが問題視されている….」
2. 「直接的な状態ベクトルの利⽤における学習の単純化・off-policyの導⼊によって，これらを解決！！！」
検証実験
• mujocoによって構築された，複雑なタスクによって，従来法と提案法を⽐較
• 提案法は，従来法と⽐べて，到達報酬値・タスクの成功率において，優位に⽴った
1
（参考⽂献）
Ofir Nachum, Shane Gu, Honglak Lee, and Sergey Levine. Data-efficient hierarchical reinforcement learning. Neural Information Processing Systems pp 3307-3317 2018

Contents
• 背景
• 提案法
• 検証実験

Hierarchical Reinforcement Learning（HRL）
4
概要・・・具体的な制御を⾏うlow policyと抽象的な制御を⾏うhigh policyを⽤いる⼿法
左へ進むなどの具体的な⾏動ドアへ向かうなどの抽象的な⾏動
https://www.slideshare.net/yukono1/nips2017pfn-hierarchical-reinforcement-learning

5
HRLの特徴
①上位の⾏動は下位の⾏動よりも抽象的で意味のある⾏動(系列)を表していると
考えられるため，より意味のある探索が期待できる
（例）
「トルクにXだけ⼒を加える」よりも「前に進む」の⽅が探索⾏動として意味がある．
②学習の時定数を⼤きくする(cステップに1つの遷移を使う)ことで
実質のエピソードの⻑さが短くなり，報酬の伝搬が効率的になり学習がしやすくなる

従来のHRLの問題点
6
• 学習の複雑性
• 意味のある状態表現の学習が必要であるため，その学習がうまくいっていなければ，
有意義な報酬値がlow policyに与えられない
• 過去のサンプルを利⽤するoff-policyの導⼊は，好ましくない
• HRLのように，複数の政策を同時に学習する場合には，
off-policyを利⽤すると，学習の不安定性が増幅する
これらを解消したHRLを提案することを⽬指す！！！

8
HIRO（HIerarchical Reinforcement learning with Off-policy correction）
• high policyが⽬標状態を指定，low policyがその状態への到達する制御を⾏う
という構図にし，どのタスクでも事前設定なしに統⼀して⽤いることができる⼿法を提案
• サンプル効率の点から，それぞれの政策をoff-policyで別々に学習

おおまかな⼿法の要素
• 学習への直接的な状態の利⽤
• off-policyへの適⽤のための修正

学習への直接的な状態の利⽤
10
【背景】
• 意味のある状態表現の学習が必要である
• その学習がうまくいっていなければ，有意義な報酬値がlow policyに与えられない
【解決策】
状態ベクトルを⽬標として直接⽤い、状態観測の変化をより⾼いレベルの政策の⾏動空間として⽤いる
また，low policyの報酬関数にも，直接的な状態ベクトルを利⽤する
下位政策の報酬関数
これにより、low policyがすぐに報酬シグナルを受け取ることができる

HIROによる⾏動の流れ
①high policyはある状態への到達を
サブゴールとして⼀定ステップごとに
low policyに与える
②low policyはサブゴールへ出来るだけ早く訪れるように⾏動
まず3ステップ以内に
ここまで進め！
（⼀定ステップ数）= 3の時
ここへ移動！
サブゴールに近づいたため
多くの報酬がもらえる
low policyの報酬関数
high policyは元の報酬関数に従い学習
（右図の場合，ケーキ獲得で+10）
サブ
ゴール
サブ
ゴール
https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.amazonaws.com%2F0%2F105335%2F1c55ba8e-0401-d4e9-72d5-
8c418feb8d9d.png?ixlib=rb-1.2.2&auto=format&gif-q=60&q=75&s=931e2ff7a10dc159dc1c861de42a74c5

off-policyへの適⽤のための修正
12
high policyは，以下のような複数ステップのデータを格納することになる
【問題点】
low policyも学習しているため，
過去のこのデータは現在のlow policyから得られるデータから乖離している可能性がある
【解決策】
過去のlow policyの⾏動の可能性を最⼤化する，ゴール𝒈で過去のゴール𝒈 𝒕を再ラベリングする！！！
※乖離が酷いと，学習に悪影響を与える

off-policyへの適⽤のための修正
13
1. 10つのgを決定
• ⽬標gの決め⽅としては，平均𝑠$%& − 𝑠$の正規分布から8つサンプリング
• その8つに加え，𝑠$%& − 𝑠$，元の⽬標𝑔$を加えた10つを対象
2. 現在の状態，ゴールgを元に，low policyが⾏動を決定
3. 2の出⼒と過去の⾏動𝑎*の⼆乗誤差が最⼩であるgへ更新する
これにより，過去の⾏動と現在の⾏動が近いゴールへ更新することで，
過去のサンプルが現在のpolicyに従って得られる可能性を⾼める．
（同じゴールを⽬指したときに，過去と現在で⾏動にあまり差がないものをゴールとするイメージ）
⼿順
結論，以下の式の最⼤化を⾏うgへ再ラベリングする

実験環境
15
• Ant Gather
• 環境内にランダムに配置される爆弾を避けながら，りんごを集める（報酬: リンゴ+1，爆弾 -1）
• Ant Maze
• 「コ」型の迷路を探索し，ゴールを⽬指す
• Ant Push
• ブロックを退けて，ブロックに阻まれたゴールを⽬指す
• Ant Fall
• ブロックを割れ⽬に押し込んで道を作り，ゴールを⽬指す
Ant Gather Ant Maze

従来法との⽐較
16
成功率報酬値
• 従来法では全く学習できていないタスクにおいて，提案法は学習できていることが分かる
• FuNでは，意味のある状態表現を元に報酬値を決定するが，今回の結果から，
このアプローチが，「ゴールに近づけば報酬を与える」という単純な報酬設定と⽐べて劣っていることがわかる

Ablation study
17
• With lower-level re-labeling（ランダムなゴールを⽬標として得られたlow policy⽤のデータを新たに追加）
• high policyからの指⽰だけでなく，考えられるゴール全てを学習する必要があるため，学習が困難になる
• With pre-training（low policyの事前学習＆パラメータの固定化し，high policyのみを学習）
• 簡単なタスクにおいては有効に働くが，複雑なタスクでは，逆に有害になる（オンラインでの学習が必要となるため）
• No off-policy correction（ゴールgの修正なし）
• 全てのタスクにおいて性能が低下し，特に複雑なタスクにおいては，うまくいかない傾向にある
• no HRL（HRLなし）
• HRLをなくすと，全く学習できなくなる

まとめ
18
⼿法の新規性:
• 直接的な状態ベクトルの利⽤によって， Hierarchical Reinforcement Learning（HRL）の学習を単純化
• HRLへのoff-policyの導⼊による，サンプル効率の向上
⼿法の発案の流れ
1. 「従来法では，状態ベクトルの潜在表現学習の必要性やサンプル効率の悪さが問題視されている….」
2. 「直接的な状態ベクトルの利⽤における学習の単純化・off-policyの導⼊によって，これらを解決！！！」
検証実験
• mujocoによって構築された，複雑なタスクによって，従来法と提案法を⽐較
• 提案法は，従来法と⽐べて，到達報酬値・タスクの成功率において，優位に⽴った

【論文紹介】 Data-Efficient Hierarchical Reinforcement Learning

Recommended

Recommended

More Related Content

Featured

Featured (20)

【論文紹介】 Data-Efficient Hierarchical Reinforcement Learning