確率ロボティクス第六回

確率ロボティクスと移動ロボットの行動生成
第6回
上田隆一

本日の内容
• finite Markov Decision Process
（有限マルコフ決定過程）
Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 2

行動決定
• 疑問: 我々は日々、その瞬間瞬間、何を基準に
自分の行うことを決め、行っているのか？
• 移動の例（長期間→短期間）
– どの高校を選ぶ？→どの大学を選ぶ？→院に行く？
– どの経路で大学（津田沼駅）に行くか
– どうやって散らかった部屋から出るか
• 操作（簡単→複雑）
– どうやって目の前の箸を取るか
– どうやってビル建てる？

行動決定の原理
• 他者の存在をあまり気にしない場合
（他、色々条件はあるけど）、以下の共通項がありそう
– 何か達成すると嬉しい or 何か達成しないと罰
– 途中には選択肢が多いので選んで実行しないといけない
– 途中、正しく選択肢を選んで行っても後で間違えると台無し
– 途中でいいこともあるけどトラブルも多い
• 人生から制御まで扱える枠組みはないだろう
か？

有限マルコフ決定過程
（finite Markov decision process, finite MDP）
• 何度も選択と実行を繰り返してゴールに
到達する過程をモデル化したもの
• モデル
– 離散時間
– 有限個の状態: 途中の状況を有限個で識別したもの
• 状態は「マルコフ性」を満たす必要
– 行動: 状態遷移を起こす
– 報酬: 状態遷移をスカラで評価（負の報酬 = 罰・コスト）
– ゴールの状態（終端状態）に点数が付いている
– 報酬と点数の合計で行動決定の点数とする

状態のマルコフ性
• 何か行動した時にある状態から次の状態に移る
確率が時間に依存せず一定
（あるいは一定とみなす）
• マルコフ決定過程を考える時は
報酬も時間に依存しないと考える
• 例
– 状態「船橋駅にいる」から状態「津田沼駅にいる」
は電車に乗れば必ず遷移できる
• 時間が負の報酬なら、必ず「3分のコスト」とする
– 実際はどうでしょう？

価値関数
• 「状態の価値」
– ある状態において、将来どれくらいの報酬
がもらえそうなのかの期待値
– 終端状態も価値を持つ
• 例
– 津田沼駅まで最短時間で行くというタスク
– 「新小岩駅にいる状態」: 15分
• 以下の時間経過（コスト）の合計
– 新小岩→市川
– 市川→船橋
– 船橋→津田沼

グラフでの表現
• ノード: 状態
• アーク: 行動（状態遷移）
• 問題: 下のグラフの各ノードの価値は？
-4
-2
ゴール1（価値-2）
ゴール2（価値0）
-1
-2-3
-6
-3
-4
-1
-2

どうやって解きましたか？
• ゴールの方から解いていくと分かりやすい
– ただしコンピュータでやると「ゴールの方」は不明
• 最も価値が高くなる（コストが低くなる）
状態遷移を選択
-4
-2
-1
-2-3
-6
-3
-4
-1
-2
−2
−５
−6
−7
−8

最適な行動・経路
• 価値の増加と釣り合う状態遷移を選ぶと
「最適」となる
-4
-2
-1
-2-3
-6
-3
-4
-1
-2
−2
−５
−6
−7
−8

計算機での価値の計算
• どこが終端状態に近いのかは
データからはすぐにわからない
A
E
B
-4
-2
G1（価値-2）
G2（価値0）
-1
-2
D
-3
-6
-3C
-4
-1
-2
状態遷移の表
A-B: -2
A-C: -2
B-A: -2
B-C: -1
B-E: -4
C-A: --2
C-B: -1
C-D: -4
D-C: -4
D-E: -3
D-G1: -3
D-G2: -6
E-B: -4
E-D: -3
E-G1: -1
E-G2: -2
価値の表
G1: -2
G2: 0
A: ?
B: ?
C: ?
D: ?
E: ?

価値反復
1. 最初に仮の値を入れておく
2. 各状態の各状態遷移について
A. 遷移後の状態の価値に状態遷移の報酬を足したものを計算
B. Aで計算した値で最良の値をその状態の価値として採用
3. 2を繰り返す
価値
（初期値）
G1: -2
G2: 0
A: -100
B: -100
C: -100
D: -100
E: -100
価値
（1回目）
G1: -2
G2: 0
A: -102
B: -101
C: -102
D: -5
E: -2
状態遷移と報酬
A-B: -2 A-C: -2
B-A: -2 B-C: -1 B-E: -4
C-A: -2 C-B: -1 C-D: -4
D-C: -4 D-E: -3
D-G1: -3 D-G2: -6
E-B: -4 E-D: -3
E-G1: -1 E-G2: -2
価値
（2回目）
G1: -2
G2: 0
A: -103
B: -6
C: -7
D: -5
E: -2
価値
（3回目）
G1: -2
G2: 0
A: -8
B: -6
C: -7
D: -5
E: -2
（注意: A-Eの順番を変えると1回で終わる）

最適方策
• 各状態の最大な価値を実現する行動決定
• 状態に対して決まる
状態遷移と報酬
A-B: -2 A-C: -2
B-A: -2 B-C: -1 B-E: -4
C-A: -2 C-B: -1 C-D: -4
D-C: -4 D-E: -3
D-G1: -3 D-G2: -6
E-B: -4 E-D: -3
E-G1: -1 E-G2: -2
価値
（収束）
G1: -2
G2: 0
A: -8
B: -6
C: -7
D: -5
E: -2
方策
（最適方策）
G1: ---
G2: ---
A: A→B
B: B→C or B→E
C: C→B
D: D→G1
E: E→G2

有限マルコフ決定過程とロボット
• 例1: マニピュレータの動作計画
– 大抵、計算時間がかかるので普通は別の方法を使うが、
原理的には解ける
– ただし計算機の性能が向上すると応用範囲は広がる
– 状態の作り方を工夫すると適用範囲内に
– 手順
• 例えば関節角を1[deg]ずつ刻んで状態を作る
– ダイナミクスを考慮するなら角速度も
• （360[deg]動くとして）360^n 状態を作る
• 何かとぶつかる状態を列挙（負の価値の大きい終端状態とする）
• 持って行きたい終端状態を決める
• 時間を負の報酬にする
• 価値反復
• 価値から最適な経路を選択

• 例2: 移動ロボット
– 環境をグリッドに切って状態を作る方法
• 3次元しかないのでマニピュレータよりは実用的
• 実時間処理は大変
• 状態遷移を確率的に扱う必要がある（後述）
– 環境に名前をつけて状態を抽出する方法
• 「キッチン」、「寝室」等
• グリッドを切るより状態数は数なくなる
• ただし状態遷移をどう実行するかは難しくなる
• 基本、ロボットは何でも（finite）MDPで動く
– 計算量、雑音、他者の存在を気にしなければ。

MDPと探索手法
• finite MDPから、その基本的な解き方である価値
反復までを説明
– 価値反復は計算量が大きいのになぜ取り上げるか？
– 学部で習った幾何学的な方法 or
探索手法 or if文でいいんじゃないの？

最適性
• 他の手法を使うときも、「最適性」の視点が
必要となる
• 最適性の原理
– あるマルコフ性を満たす状態にいるとき、その前に何が
起こっていようがその後の最適な行動はその状態だけに
依存
• コードを書くときは次のことに最大限の配慮を
– その状態の判断が本当にその状態だけで
正しく決まるだろうか？

例1: 自分で行動決定のコードを書く場合
• 自分で自律ロボットの行動決定のコードを
書いてif文で場合分けを書きました、という状況
• if文で書いた条件 = 状態
– 本当に場合分けはそれでいいのか
• 例えば速度の考慮は本当にしなくて良いのか？
• モータか何かのヒステリシスは？
• バッテリーの消費量が動きに影響しないか？
– よくなければコードを直して動かしての
繰り返し地獄で時間を無駄に

例2: 価値反復やその他総当たりの
方法を使わない場合
• 価値関数や方策に相当するものが得られても・・・
– 条件が揃った場合にしか最適にしかならない
• このような条件を探すことは重要な研究のテーマ
• そうでない場合には最適ではない
• 終端状態にたどり着かない場合がある
• 価値反復で収束した価値関数
– 全状態で最適で終端状態に至る行動が決まる
– 手抜きするとそれが満たされなくなる

確率的な状態遷移
• ロボットの場合、状態遷移は通常、確率的
– 誤差（デッドレコニングでやったように）
– 状態を作るときに離散化
• 離散化した状態のどこにいるかで遷移後の状態に違い
– そもそも状態がわからない（これは後日）
• このようなときに価値関数はどうやって求める？

確率的な状態遷移
• 例: 下図のようにどこに遷移するか不確定な場合
– ここでは行動は選べないとしましょう
– 1タイムステップごとに強制的にどこかに遷移
– 価値は、遷移後の価値と報酬の期待値計算となる
A
E
B -4
-2
G1（価値-2）
G2（価値0）
-1
-2
D
-3
-6
-3C
-4
-1
-2 → P=0.5

• 計算結果
• 行動が選べる場合は、最大の期待値を選び、
それを実現する行動を選択すると最適方策に
-4
-2
G1（価値-2）
G2（価値0）
-1
-2-3
-6
-3
-4
-1
-2 → P=0.5-2.5
-4.3
-6.5
-7.9
-9.2

確率的な状態遷移モデルの算出
• パーティクルフィルタと同じ方法で求めることが可能
– ただし幾何計算で求められるならその方が良い
前進した時の事後の
位置のばらつき
離散状態内での
不確定性

続きは
• 数式で
• 教科書
– https://webdocs.cs.ualberta.ca/~sutton/book/ebo
ok/node33.html

本日のまとめ
• 有限マルコフ決定過程について
– 行動決定の問題は
状態、行動、報酬、状態遷移、終端状態
で説明可能
• 価値反復
– 計算量が多い
– 他の手法を使う時は価値及び最大方策をちゃんと
算出できているだろうかを考える。

確率ロボティクス第六回

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 確率ロボティクス第六回

Similar to 確率ロボティクス第六回 (7)

More from Ryuichi Ueda

More from Ryuichi Ueda (20)

Recently uploaded

Recently uploaded (8)

確率ロボティクス第六回