SlideShare a Scribd company logo
POMDP下での強化学習の
基礎と応⽤
尾崎安範
尾崎安範 (@alfredplpl)
• 例によって⾃⼰紹介
サイバーエージェント 研究員 兼
⼤阪⼤学 招聘研究員 兼
⼤阪⼤学 ⽯⿊研究室 社会⼈博⼠2年⽣
← NTT研(開発寄り) 研究員
← 東⼤ 情報理⼯
最近やっていること
ロボットによる接客を強化学習する研究開発
POMDPなロボット接客を
強化学習したい︕
今⽇の⽬標
• POMDPの問題設定と解法のアプローチを学ぶこととする
解法を厳密に説明すると1時間では終わらなくなるため、
問題設定とその問題設定があると認識してもらえることが⽬標とする
• また、POMDPの実問題を紹介し、
「こんな雰囲気で解くんだなぁ」と感じてもらうこととする
完全に理解するのはとてもではないが時間が⾜りない
• なお、私も理解が及んでないところもあるので、適宜参加者
の⽅で詳しい⼈がフォローしてもらえると助かります。
今⽇のあらすじ
• POMDPの基礎
定式化
⻁問題
環境が既知である場合の解き⽅
環境が未知である場合の解き⽅
モデルフリーの解き⽅
モデルベースの解き⽅
• POMDPの応⽤
ゲーム
ロボット
【おさらい】MDPとは
• マルコフ決定過程 (Markov Decision Process; MDP) とは現在の
⾏動と状態を必ず知ることができる状態遷移が確率的に起こ
る動的なモデルである。
• グラフィカルモデルで表現すると下の通り
[1]より引⽤
POMDPとは
• 部分観測マルコフ決定過程 (Partially Observable Markov
Decision Process; POMDP) は、⼀部しか観測できない状況であ
るモデルである。状態は直接わからない(潜在変数)。
MDPを⼀般化したモデルにあたる
• グラフィカルモデルで表現すると下の通り
[1]より引⽤
POMDPのイメージ
• ⼈⼿によるお掃除を考えてみよう
⼈は視野内のゴミを観測することができる。
しかし、視野外のゴミは観測することができない
• どうやってすべてのゴミを取り除けばよいのだろうか
⼈から⾒えるゴミ
⼈から⾒えないゴミ
⾒えている範囲
POMDPの定式化
• POMDPは離散時間の確率過程𝑃であると仮定すると、次のと
おりに定義される
𝑃 ≜ 𝒮, 𝒜, 𝑠!!
, 𝑝", 𝑟, 𝒪, 𝑝#
𝒮: 状態集合
𝒜: ⾏動集合
𝑠!!
: 初期状態の確率
𝑝": 状態遷移確率
𝑟: 報酬関数
𝒪: 観測集合
𝑝#: 観測遷移確率
各種モデルの関係性
• 他のグラフィカルモデルとの位置づけを整理するとスッキリ
⾏動なし ⾏動あり
状態観測が完全 マルコフ連鎖 (MC) MDP
状態観測が⼀部 隠れマルコフモデル (HMM) POMDP
決定論 確率論
状態観測が完全 有限オートマトン マルコフ連鎖 (MC)
[15]より引⽤
信念MDP
• POMDPをそのまま解くのではなくMDPの枠組みで解いてい
きたい。そこで、信念状態という考え⽅を導⼊する
• 信念状態𝑏$ 𝑠 はエージェントが潜在変数である状態が、ど
の状態にあるかというのを確率的に保持するための関数であ
る
• 信念状態𝑏$ 𝑠 を使うと、 𝑏$ 𝑠 と観測𝑜$%&で信念状態を更新
するような再帰式𝑏$%& 𝑠′ を作ることができる
したがって、履歴に直接よらなくなるため、マルコフ性は維持される
𝑏$ 𝑠 ≜ 𝑃𝑟 𝑆$ = 𝑠|𝐻$ = ℎ
履歴 ℎ (history) の定義:
ℎ ≜ 𝑎!, 𝑟!, 𝑜!, … , 𝑎"#$, 𝑟"#$, 𝑜"#$
POMDPの代表例: ⻁問題
• 具体的な代表例である⻁問題でPOMDPの理解を深めてみる
• ⻁問題とはドアが2つ左右にあり、どちらかには⻁がいて、
どちらかには宝があるという不確実な状態を想定する
⻁がいる⽅を開けてしまうと負の報酬
宝がある⽅を開けると正の報酬
ドアから⾳を聞くとちょっと負の報酬
信念状態
状態
⻁問題の各変数
• ⻁問題(既知の環境)P = 𝒮, 𝒜, 𝑠!!
, 𝑝", 𝑟, 𝒪, 𝑝# は次の通り。
𝒮: {tiger-left, tiger-right}
𝒜: {open-left, open-right, listen}
𝑠!!
: 𝑠!!
𝑠 = tiger − left = 0.5, 𝑠!!
𝑠 = tiger − right = 0.5
𝑝": (次ページのとおり)
𝑟: (次ページのとおり)
𝒪: {left-sound, right-sound}
𝑝#: (次ページのとおり)
⻁問題を状態遷移図にすると
• 各変数から状態遷移図を作ると以下の通り
• また観測確率関数は表の通り
[1]より引⽤
⻁問題における信念状態と履歴
• ここではひたすらlistenすることを考える。その時の観測か
ら信念状態𝑏$ 𝑠 は再帰的に更新されていく
[1]より引⽤
環境が既知である場合の解き⽅
• 実問題を解く上では環境は未知であることが多いので、
この場合は本発表では概要だけ説明する
• 環境が既知である場合、MDPと同様にプランニングにより解
くことができる。
• POMDPの厳密な解き⽅として、モナハンの価値反復法があ
る。しかし、組合せ爆発を起こす⼿法なので、実⽤的には使
われない。このため、点近似の価値反復法 (PBVI) がある。
モナハンの価値反復法を⼀回だけ反復した時の価値関数。
縦が信念状態に対する価値、
横が⻁が左にいるという信念状態
線の⾊が価値を最⼤にする⽅策
([1]より引⽤)
環境が未知である場合の解き⽅
• モデルベースの場合とモデルフリーの場合の2つのパターン
に分かれる
さらにモデルベースではデータからプランニングするものと
シミュレータからプランニングするものに分かれる
モデルベースでの強化学習
([1]より引⽤)
モデルフリーでの強化学習
([1]より引⽤)
モデルベースの解き⽅
• データだけがある場合
⾏動を抜けばHMMであることからバウムウェルチアルゴリズムで遷移
確率を推定することができる。またノンパラベイズを使えば状態数すら
推定できる
• シミュレータがある場合
部分観測モンテカルロプランニング (POMCP) という解法がある
基本的にはモンテカルロ⽊探索の拡張版
モデルフリーの解き⽅
• モデルフリーでの解き⽅として、直近数ステップの観測を保
存するメモリなしのアプローチと、観測を全く保存せず⽅策
内部で記憶するメモリありのアプローチがある
• メモリなしの場合
SARSAなどを⽤いる
• メモリありの場合
ニューラルネットワークの⼀種LSTMを使い、
履歴を内部状態として記憶するアプローチを使う
POMDPの応⽤
• POMDPは実世界の様々な問題を表現することに適している
⼀⼈称シューティングゲーム
⾃動⾞の⾃動運転
対話システムの制御
その他は参考⽂献[3]を参照のこと
• ここではいくつかの具体例をあげて説明する
ゲームの例
• 例えば、⼀⼈称シューティングゲーム(FPS)の場合、環境
はゲーム空間になるが、プレイヤーは⾃分から⾒える範囲し
か観測できないことを前提としている
最たる例がViZDoom
ViZDoomの画⾯とメタデータ([4]より引⽤)
ViZDoomの定式化例
• ViZDoom P = 𝒮, 𝒜, 𝑠!!
, 𝑝", 𝑟, 𝒪, 𝑝# を定式化した結果はたくさ
んあるし、シナリオによるが、たとえば以下の通りとなる。
𝒮: 位置、健康状態、弾数
𝒜: {左に動く, 右に動く, 撃つ}
𝑠!!
: 中央に固定
𝑝": (未知)
𝑟: 敵を倒した、時間切れ
𝒪: マップ内で⾒れる⼀⼈称の画像すべて
𝑝#:(未知) [5]より引⽤
ViZDoomのベースライン解法
• MDPとして考えて、関数近似で解く[5]
畳み込みニューラルネットワークを使って、⽅策をDQNで解く
状態は全く記憶できていない
[5]より引⽤
ViZDoomの改善された解法
• LSTMによるメモリありのアプローチを採⽤する[6]
[6]より引⽤
ロボットの例
• ロボットではナビゲーションなどの問題がPOMDPとなる。
• 例えば、市街地における⾃動⾞の⾃動運転の場合、環境は実
世界の市街地を対象とするが、実世界そのものを完全に把握
することはできない。そこで、センサからの情報などしか観
測できないことを前提としている
[7]より引⽤
⾃動運転の定式化例
• ⾃動運転 P = 𝒮, 𝒜, 𝑠!!
, 𝑝", 𝑟, 𝒪, 𝑝# を定式化した結果は、
たとえば以下の通りとなる。
𝒮: 三次元位置など
𝒜: アクセル、ブレーキ、ステアリングなど
𝑠!!
: 駐⾞場が⾼い分布(ほぼ未知)
𝑝": (未知)
𝑟: ⽬的地に到達したかどうか
𝒪: 世界から得られる画像すべて(ほぼ未知)
𝑝#:(未知)
⾃動運転へのアプローチ
• アプローチはいくつか提案されている[7]
⼈が運転した結果を模倣
シミュレータで獲得した⽅策を実世界に転移
• また、制御の抽象度によっても分類されている[8]
センサの値から⾏動する
センサの値と経路のプランニング結果から⾏動する
などなど
• ただし、POMDPで定式化して実世界に適⽤した例は
とても少ない
• 実世界で⼈間が運転した結果を元にニューラルネットワーク
を⾏動を模倣させ、実世界にも試してみた[9]
POMDPであることはあまり気にしていない気がする
⾃動運転の解き⽅の代表例
[9]より引⽤
⾃動運転の解き⽅の例
• 駐⾞場で移動するタスクにおいて、シミュレータ環境で深層
学習させた結果を実世界に適⽤した[10]
というMDPとはいうけど、
POMDPに近い気がする
[10]より引⽤
まとめ
• 部分観測マルコフ決定過程 (Partially Observable Markov
Decision Process; POMDP) は、⼀部しか観測できない状況であ
るモデルである。状態は直接わからない。
環境が既知であるとき、モナハンの価値反復法で解ける
環境が未知であるとき、部分観測モンテカルロプランニングなどで解く
近年では深層強化学習を使って近似的に解くことが多い
• POMDPの解法を本発表よりも詳しく学びたい⼈は参考⽂献
[1,2,13,14]を読んでください
• また、POMDPの問題を実際に解いてみたいという⼈は参考
⽂献[14]にソルバーがあるので使ってみてください
おまけ1︓LSTMの有効性
• MDPなゲームをたまに画⾯を隠すことでPOMDPにした場合、
DQNにLSTMをいれるとスコアが改善した[11]
[11]より引⽤
参考⽂献
[1] 森村哲郎, “強化学習 (機械学習プロフェッショナルシリーズ),” 2019
[2] セバスチャン・スランら, “確率ロボティクス”, 2007
[3] Cassandra et al., “A Survey of POMDP Applications,”
[4] Wydmuch et al., “ViZDoom Competitions: Playing Doom from Pixels,” 2018,
https://github.com/mwydmuch/ViZDoom
[5] Kempka, et al., “ViZDoom: A Doom-based AI Research Platform for Visual
Reinforcement Learning,” 2016
[6] Lample et al., “Playing FPS Games with Deep Reinforcement Learning”, 2016
参考⽂献
[7] Kiran et al., “Deep Reinforcement Learning for Autonomous Driving: A Survey” 2020
[8] Zhu., “A Survey of Deep RL and IL for Autonomous Driving Policy Learning,” 2021
[9] Bojarski et al., “End to End Learning for Self-Driving Cars,” 2016
[10] Folkers et al., “Controlling an Autonomous Vehicle with Deep Reinforcement
Learning,” 2019
[11] Hausknecht et al., “Deep Recurrent Q-Learning for Partially Observable MDPs” 2015
[12] “POMDPs for Dummies”,
https://cs.brown.edu/research/ai/pomdp/tutorial/index.html
[13] 牧野ら, “これからの強化学習”, 2016
[14] Anthony R. Cassandra, “The POMDP Page”, https://www.pomdp.org/
[15] 渡辺有祐、”グラフィカルモデル” 2016

More Related Content

What's hot

ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
Deep Learning JP
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
Shota Imai
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 

What's hot (20)

ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 

Similar to POMDP下での強化学習の基礎と応用

Mob Programming - or why it is a good idea to have only one Computer per Team...
Mob Programming - or why it is a good idea to have only one Computer per Team...Mob Programming - or why it is a good idea to have only one Computer per Team...
Mob Programming - or why it is a good idea to have only one Computer per Team...
Lars Haßler
 
Munich 2016 - Z011597 Martin Packer - How To Be A Better Performance Specialist
Munich 2016 - Z011597 Martin Packer - How To Be A Better Performance SpecialistMunich 2016 - Z011597 Martin Packer - How To Be A Better Performance Specialist
Munich 2016 - Z011597 Martin Packer - How To Be A Better Performance Specialist
Martin Packer
 
Robot Learning with Structured Knowledge And Richer Sensing
Robot Learning with Structured Knowledge And Richer SensingRobot Learning with Structured Knowledge And Richer Sensing
Robot Learning with Structured Knowledge And Richer Sensing
Akihiko Yamaguchi
 
Mob Programming - or why it is a good idea to have only one Computer per Team
Mob Programming - or why it is a good idea to have only one Computer per TeamMob Programming - or why it is a good idea to have only one Computer per Team
Mob Programming - or why it is a good idea to have only one Computer per Team
Lars Haßler
 
Practical resource monitoring with munin (English editon)
Practical resource monitoring with munin  (English editon)Practical resource monitoring with munin  (English editon)
Practical resource monitoring with munin (English editon)
Masahito Zembutsu
 
#1 Berlin Students in AI, Machine Learning & NLP presentation
#1 Berlin Students in AI, Machine Learning & NLP presentation#1 Berlin Students in AI, Machine Learning & NLP presentation
#1 Berlin Students in AI, Machine Learning & NLP presentation
parlamind
 
Introduction to ChatGPT
Introduction to ChatGPTIntroduction to ChatGPT
Introduction to ChatGPT
Damian T. Gordon
 

Similar to POMDP下での強化学習の基礎と応用 (7)

Mob Programming - or why it is a good idea to have only one Computer per Team...
Mob Programming - or why it is a good idea to have only one Computer per Team...Mob Programming - or why it is a good idea to have only one Computer per Team...
Mob Programming - or why it is a good idea to have only one Computer per Team...
 
Munich 2016 - Z011597 Martin Packer - How To Be A Better Performance Specialist
Munich 2016 - Z011597 Martin Packer - How To Be A Better Performance SpecialistMunich 2016 - Z011597 Martin Packer - How To Be A Better Performance Specialist
Munich 2016 - Z011597 Martin Packer - How To Be A Better Performance Specialist
 
Robot Learning with Structured Knowledge And Richer Sensing
Robot Learning with Structured Knowledge And Richer SensingRobot Learning with Structured Knowledge And Richer Sensing
Robot Learning with Structured Knowledge And Richer Sensing
 
Mob Programming - or why it is a good idea to have only one Computer per Team
Mob Programming - or why it is a good idea to have only one Computer per TeamMob Programming - or why it is a good idea to have only one Computer per Team
Mob Programming - or why it is a good idea to have only one Computer per Team
 
Practical resource monitoring with munin (English editon)
Practical resource monitoring with munin  (English editon)Practical resource monitoring with munin  (English editon)
Practical resource monitoring with munin (English editon)
 
#1 Berlin Students in AI, Machine Learning & NLP presentation
#1 Berlin Students in AI, Machine Learning & NLP presentation#1 Berlin Students in AI, Machine Learning & NLP presentation
#1 Berlin Students in AI, Machine Learning & NLP presentation
 
Introduction to ChatGPT
Introduction to ChatGPTIntroduction to ChatGPT
Introduction to ChatGPT
 

More from Yasunori Ozaki

インタラクションのためのコンピュータビジョンのお仕事
インタラクションのためのコンピュータビジョンのお仕事インタラクションのためのコンピュータビジョンのお仕事
インタラクションのためのコンピュータビジョンのお仕事
Yasunori Ozaki
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
Yasunori Ozaki
 
CHI 2021 Human, ML & AI のまとめ
CHI 2021 Human, ML & AI のまとめCHI 2021 Human, ML & AI のまとめ
CHI 2021 Human, ML & AI のまとめ
Yasunori Ozaki
 
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
Yasunori Ozaki
 
Reinforcement Learning: An Introduction 輪読会第1回資料
Reinforcement Learning: An Introduction 輪読会第1回資料Reinforcement Learning: An Introduction 輪読会第1回資料
Reinforcement Learning: An Introduction 輪読会第1回資料
Yasunori Ozaki
 
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
Yasunori Ozaki
 
Detecting attended visual targets in video の勉強会用資料
Detecting attended visual targets in video の勉強会用資料Detecting attended visual targets in video の勉強会用資料
Detecting attended visual targets in video の勉強会用資料
Yasunori Ozaki
 
IROS 2019 参加報告詳細版
IROS 2019 参加報告詳細版IROS 2019 参加報告詳細版
IROS 2019 参加報告詳細版
Yasunori Ozaki
 
Interact with AI (CHI 2019)
Interact with AI (CHI 2019)Interact with AI (CHI 2019)
Interact with AI (CHI 2019)
Yasunori Ozaki
 
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
Yasunori Ozaki
 
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
Yasunori Ozaki
 
ビジョンとロボットの強化学習
ビジョンとロボットの強化学習ビジョンとロボットの強化学習
ビジョンとロボットの強化学習
Yasunori Ozaki
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
Kaggleのテクニック
Yasunori Ozaki
 
10分でわかるRandom forest
10分でわかるRandom forest10分でわかるRandom forest
10分でわかるRandom forest
Yasunori Ozaki
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
Yasunori Ozaki
 
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Yasunori Ozaki
 
Introduction of my works
Introduction of my worksIntroduction of my works
Introduction of my worksYasunori Ozaki
 

More from Yasunori Ozaki (17)

インタラクションのためのコンピュータビジョンのお仕事
インタラクションのためのコンピュータビジョンのお仕事インタラクションのためのコンピュータビジョンのお仕事
インタラクションのためのコンピュータビジョンのお仕事
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
 
CHI 2021 Human, ML & AI のまとめ
CHI 2021 Human, ML & AI のまとめCHI 2021 Human, ML & AI のまとめ
CHI 2021 Human, ML & AI のまとめ
 
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
 
Reinforcement Learning: An Introduction 輪読会第1回資料
Reinforcement Learning: An Introduction 輪読会第1回資料Reinforcement Learning: An Introduction 輪読会第1回資料
Reinforcement Learning: An Introduction 輪読会第1回資料
 
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
 
Detecting attended visual targets in video の勉強会用資料
Detecting attended visual targets in video の勉強会用資料Detecting attended visual targets in video の勉強会用資料
Detecting attended visual targets in video の勉強会用資料
 
IROS 2019 参加報告詳細版
IROS 2019 参加報告詳細版IROS 2019 参加報告詳細版
IROS 2019 参加報告詳細版
 
Interact with AI (CHI 2019)
Interact with AI (CHI 2019)Interact with AI (CHI 2019)
Interact with AI (CHI 2019)
 
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
 
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
 
ビジョンとロボットの強化学習
ビジョンとロボットの強化学習ビジョンとロボットの強化学習
ビジョンとロボットの強化学習
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
Kaggleのテクニック
 
10分でわかるRandom forest
10分でわかるRandom forest10分でわかるRandom forest
10分でわかるRandom forest
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
 
Introduction of my works
Introduction of my worksIntroduction of my works
Introduction of my works
 

Recently uploaded

block diagram and signal flow graph representation
block diagram and signal flow graph representationblock diagram and signal flow graph representation
block diagram and signal flow graph representation
Divya Somashekar
 
H.Seo, ICLR 2024, MLILAB, KAIST AI.pdf
H.Seo,  ICLR 2024, MLILAB,  KAIST AI.pdfH.Seo,  ICLR 2024, MLILAB,  KAIST AI.pdf
H.Seo, ICLR 2024, MLILAB, KAIST AI.pdf
MLILAB
 
Gen AI Study Jams _ For the GDSC Leads in India.pdf
Gen AI Study Jams _ For the GDSC Leads in India.pdfGen AI Study Jams _ For the GDSC Leads in India.pdf
Gen AI Study Jams _ For the GDSC Leads in India.pdf
gdsczhcet
 
Design and Analysis of Algorithms-DP,Backtracking,Graphs,B&B
Design and Analysis of Algorithms-DP,Backtracking,Graphs,B&BDesign and Analysis of Algorithms-DP,Backtracking,Graphs,B&B
Design and Analysis of Algorithms-DP,Backtracking,Graphs,B&B
Sreedhar Chowdam
 
一比一原版(SFU毕业证)西蒙菲莎大学毕业证成绩单如何办理
一比一原版(SFU毕业证)西蒙菲莎大学毕业证成绩单如何办理一比一原版(SFU毕业证)西蒙菲莎大学毕业证成绩单如何办理
一比一原版(SFU毕业证)西蒙菲莎大学毕业证成绩单如何办理
bakpo1
 
CFD Simulation of By-pass Flow in a HRSG module by R&R Consult.pptx
CFD Simulation of By-pass Flow in a HRSG module by R&R Consult.pptxCFD Simulation of By-pass Flow in a HRSG module by R&R Consult.pptx
CFD Simulation of By-pass Flow in a HRSG module by R&R Consult.pptx
R&R Consult
 
WATER CRISIS and its solutions-pptx 1234
WATER CRISIS and its solutions-pptx 1234WATER CRISIS and its solutions-pptx 1234
WATER CRISIS and its solutions-pptx 1234
AafreenAbuthahir2
 
Sachpazis:Terzaghi Bearing Capacity Estimation in simple terms with Calculati...
Sachpazis:Terzaghi Bearing Capacity Estimation in simple terms with Calculati...Sachpazis:Terzaghi Bearing Capacity Estimation in simple terms with Calculati...
Sachpazis:Terzaghi Bearing Capacity Estimation in simple terms with Calculati...
Dr.Costas Sachpazis
 
addressing modes in computer architecture
addressing modes  in computer architectureaddressing modes  in computer architecture
addressing modes in computer architecture
ShahidSultan24
 
Industrial Training at Shahjalal Fertilizer Company Limited (SFCL)
Industrial Training at Shahjalal Fertilizer Company Limited (SFCL)Industrial Training at Shahjalal Fertilizer Company Limited (SFCL)
Industrial Training at Shahjalal Fertilizer Company Limited (SFCL)
MdTanvirMahtab2
 
Event Management System Vb Net Project Report.pdf
Event Management System Vb Net  Project Report.pdfEvent Management System Vb Net  Project Report.pdf
Event Management System Vb Net Project Report.pdf
Kamal Acharya
 
Automobile Management System Project Report.pdf
Automobile Management System Project Report.pdfAutomobile Management System Project Report.pdf
Automobile Management System Project Report.pdf
Kamal Acharya
 
J.Yang, ICLR 2024, MLILAB, KAIST AI.pdf
J.Yang,  ICLR 2024, MLILAB, KAIST AI.pdfJ.Yang,  ICLR 2024, MLILAB, KAIST AI.pdf
J.Yang, ICLR 2024, MLILAB, KAIST AI.pdf
MLILAB
 
在线办理(ANU毕业证书)澳洲国立大学毕业证录取通知书一模一样
在线办理(ANU毕业证书)澳洲国立大学毕业证录取通知书一模一样在线办理(ANU毕业证书)澳洲国立大学毕业证录取通知书一模一样
在线办理(ANU毕业证书)澳洲国立大学毕业证录取通知书一模一样
obonagu
 
Quality defects in TMT Bars, Possible causes and Potential Solutions.
Quality defects in TMT Bars, Possible causes and Potential Solutions.Quality defects in TMT Bars, Possible causes and Potential Solutions.
Quality defects in TMT Bars, Possible causes and Potential Solutions.
PrashantGoswami42
 
ethical hacking-mobile hacking methods.ppt
ethical hacking-mobile hacking methods.pptethical hacking-mobile hacking methods.ppt
ethical hacking-mobile hacking methods.ppt
Jayaprasanna4
 
Planning Of Procurement o different goods and services
Planning Of Procurement o different goods and servicesPlanning Of Procurement o different goods and services
Planning Of Procurement o different goods and services
JoytuBarua2
 
Architectural Portfolio Sean Lockwood
Architectural Portfolio Sean LockwoodArchitectural Portfolio Sean Lockwood
Architectural Portfolio Sean Lockwood
seandesed
 
NO1 Uk best vashikaran specialist in delhi vashikaran baba near me online vas...
NO1 Uk best vashikaran specialist in delhi vashikaran baba near me online vas...NO1 Uk best vashikaran specialist in delhi vashikaran baba near me online vas...
NO1 Uk best vashikaran specialist in delhi vashikaran baba near me online vas...
Amil Baba Dawood bangali
 
ASME IX(9) 2007 Full Version .pdf
ASME IX(9)  2007 Full Version       .pdfASME IX(9)  2007 Full Version       .pdf
ASME IX(9) 2007 Full Version .pdf
AhmedHussein950959
 

Recently uploaded (20)

block diagram and signal flow graph representation
block diagram and signal flow graph representationblock diagram and signal flow graph representation
block diagram and signal flow graph representation
 
H.Seo, ICLR 2024, MLILAB, KAIST AI.pdf
H.Seo,  ICLR 2024, MLILAB,  KAIST AI.pdfH.Seo,  ICLR 2024, MLILAB,  KAIST AI.pdf
H.Seo, ICLR 2024, MLILAB, KAIST AI.pdf
 
Gen AI Study Jams _ For the GDSC Leads in India.pdf
Gen AI Study Jams _ For the GDSC Leads in India.pdfGen AI Study Jams _ For the GDSC Leads in India.pdf
Gen AI Study Jams _ For the GDSC Leads in India.pdf
 
Design and Analysis of Algorithms-DP,Backtracking,Graphs,B&B
Design and Analysis of Algorithms-DP,Backtracking,Graphs,B&BDesign and Analysis of Algorithms-DP,Backtracking,Graphs,B&B
Design and Analysis of Algorithms-DP,Backtracking,Graphs,B&B
 
一比一原版(SFU毕业证)西蒙菲莎大学毕业证成绩单如何办理
一比一原版(SFU毕业证)西蒙菲莎大学毕业证成绩单如何办理一比一原版(SFU毕业证)西蒙菲莎大学毕业证成绩单如何办理
一比一原版(SFU毕业证)西蒙菲莎大学毕业证成绩单如何办理
 
CFD Simulation of By-pass Flow in a HRSG module by R&R Consult.pptx
CFD Simulation of By-pass Flow in a HRSG module by R&R Consult.pptxCFD Simulation of By-pass Flow in a HRSG module by R&R Consult.pptx
CFD Simulation of By-pass Flow in a HRSG module by R&R Consult.pptx
 
WATER CRISIS and its solutions-pptx 1234
WATER CRISIS and its solutions-pptx 1234WATER CRISIS and its solutions-pptx 1234
WATER CRISIS and its solutions-pptx 1234
 
Sachpazis:Terzaghi Bearing Capacity Estimation in simple terms with Calculati...
Sachpazis:Terzaghi Bearing Capacity Estimation in simple terms with Calculati...Sachpazis:Terzaghi Bearing Capacity Estimation in simple terms with Calculati...
Sachpazis:Terzaghi Bearing Capacity Estimation in simple terms with Calculati...
 
addressing modes in computer architecture
addressing modes  in computer architectureaddressing modes  in computer architecture
addressing modes in computer architecture
 
Industrial Training at Shahjalal Fertilizer Company Limited (SFCL)
Industrial Training at Shahjalal Fertilizer Company Limited (SFCL)Industrial Training at Shahjalal Fertilizer Company Limited (SFCL)
Industrial Training at Shahjalal Fertilizer Company Limited (SFCL)
 
Event Management System Vb Net Project Report.pdf
Event Management System Vb Net  Project Report.pdfEvent Management System Vb Net  Project Report.pdf
Event Management System Vb Net Project Report.pdf
 
Automobile Management System Project Report.pdf
Automobile Management System Project Report.pdfAutomobile Management System Project Report.pdf
Automobile Management System Project Report.pdf
 
J.Yang, ICLR 2024, MLILAB, KAIST AI.pdf
J.Yang,  ICLR 2024, MLILAB, KAIST AI.pdfJ.Yang,  ICLR 2024, MLILAB, KAIST AI.pdf
J.Yang, ICLR 2024, MLILAB, KAIST AI.pdf
 
在线办理(ANU毕业证书)澳洲国立大学毕业证录取通知书一模一样
在线办理(ANU毕业证书)澳洲国立大学毕业证录取通知书一模一样在线办理(ANU毕业证书)澳洲国立大学毕业证录取通知书一模一样
在线办理(ANU毕业证书)澳洲国立大学毕业证录取通知书一模一样
 
Quality defects in TMT Bars, Possible causes and Potential Solutions.
Quality defects in TMT Bars, Possible causes and Potential Solutions.Quality defects in TMT Bars, Possible causes and Potential Solutions.
Quality defects in TMT Bars, Possible causes and Potential Solutions.
 
ethical hacking-mobile hacking methods.ppt
ethical hacking-mobile hacking methods.pptethical hacking-mobile hacking methods.ppt
ethical hacking-mobile hacking methods.ppt
 
Planning Of Procurement o different goods and services
Planning Of Procurement o different goods and servicesPlanning Of Procurement o different goods and services
Planning Of Procurement o different goods and services
 
Architectural Portfolio Sean Lockwood
Architectural Portfolio Sean LockwoodArchitectural Portfolio Sean Lockwood
Architectural Portfolio Sean Lockwood
 
NO1 Uk best vashikaran specialist in delhi vashikaran baba near me online vas...
NO1 Uk best vashikaran specialist in delhi vashikaran baba near me online vas...NO1 Uk best vashikaran specialist in delhi vashikaran baba near me online vas...
NO1 Uk best vashikaran specialist in delhi vashikaran baba near me online vas...
 
ASME IX(9) 2007 Full Version .pdf
ASME IX(9)  2007 Full Version       .pdfASME IX(9)  2007 Full Version       .pdf
ASME IX(9) 2007 Full Version .pdf
 

POMDP下での強化学習の基礎と応用