Submit Search
Upload
人工知能概論 7
•
Download as PPTX, PDF
•
7 likes
•
5,135 views
Tadahiro Taniguchi
Follow
Visit http://ai.tanichu.com/
Read less
Read more
Education
Report
Share
Report
Share
1 of 31
Download now
Recommended
人工知能概論 6
人工知能概論 6
Tadahiro Taniguchi
人工知能概論 8
人工知能概論 8
Tadahiro Taniguchi
人工知能概論 5
人工知能概論 5
Tadahiro Taniguchi
人工知能概論 3
人工知能概論 3
Tadahiro Taniguchi
人工知能概論 2
人工知能概論 2
Tadahiro Taniguchi
人工知能概論 10
人工知能概論 10
Tadahiro Taniguchi
人工知能概論 1
人工知能概論 1
Tadahiro Taniguchi
人工知能概論 4
人工知能概論 4
Tadahiro Taniguchi
Recommended
人工知能概論 6
人工知能概論 6
Tadahiro Taniguchi
人工知能概論 8
人工知能概論 8
Tadahiro Taniguchi
人工知能概論 5
人工知能概論 5
Tadahiro Taniguchi
人工知能概論 3
人工知能概論 3
Tadahiro Taniguchi
人工知能概論 2
人工知能概論 2
Tadahiro Taniguchi
人工知能概論 10
人工知能概論 10
Tadahiro Taniguchi
人工知能概論 1
人工知能概論 1
Tadahiro Taniguchi
人工知能概論 4
人工知能概論 4
Tadahiro Taniguchi
人工知能概論 11
人工知能概論 11
Tadahiro Taniguchi
イラストで学ぶ人工知能概論 9
イラストで学ぶ人工知能概論 9
Tadahiro Taniguchi
人工知能概論 14
人工知能概論 14
Tadahiro Taniguchi
人工知能概論 12
人工知能概論 12
Tadahiro Taniguchi
人工知能概論 13
人工知能概論 13
Tadahiro Taniguchi
強化学習2章
強化学習2章
hiroki yamaoka
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
Deep Learning JP
人工知能概論 15
人工知能概論 15
Tadahiro Taniguchi
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
古典的ゲームAIを用いたAlphaGo解説
古典的ゲームAIを用いたAlphaGo解説
suckgeun lee
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
Masahiro Suzuki
Sift特徴量について
Sift特徴量について
la_flance
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
「知」の循環と拡張を加速する対話空間のメカニズムデザイン(JST未来社会創造事業)
「知」の循環と拡張を加速する対話空間のメカニズムデザイン(JST未来社会創造事業)
Tadahiro Taniguchi
Semantic Segmentation of Driving Behavior Data: Double Articulation Analyzer ...
Semantic Segmentation of Driving Behavior Data: Double Articulation Analyzer ...
Tadahiro Taniguchi
More Related Content
What's hot
人工知能概論 11
人工知能概論 11
Tadahiro Taniguchi
イラストで学ぶ人工知能概論 9
イラストで学ぶ人工知能概論 9
Tadahiro Taniguchi
人工知能概論 14
人工知能概論 14
Tadahiro Taniguchi
人工知能概論 12
人工知能概論 12
Tadahiro Taniguchi
人工知能概論 13
人工知能概論 13
Tadahiro Taniguchi
強化学習2章
強化学習2章
hiroki yamaoka
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
Deep Learning JP
人工知能概論 15
人工知能概論 15
Tadahiro Taniguchi
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
古典的ゲームAIを用いたAlphaGo解説
古典的ゲームAIを用いたAlphaGo解説
suckgeun lee
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
Masahiro Suzuki
Sift特徴量について
Sift特徴量について
la_flance
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
What's hot
(20)
人工知能概論 11
人工知能概論 11
イラストで学ぶ人工知能概論 9
イラストで学ぶ人工知能概論 9
人工知能概論 14
人工知能概論 14
人工知能概論 12
人工知能概論 12
人工知能概論 13
人工知能概論 13
強化学習2章
強化学習2章
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
人工知能概論 15
人工知能概論 15
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
古典的ゲームAIを用いたAlphaGo解説
古典的ゲームAIを用いたAlphaGo解説
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
Sift特徴量について
Sift特徴量について
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
深層生成モデルと世界モデル
深層生成モデルと世界モデル
More from Tadahiro Taniguchi
「知」の循環と拡張を加速する対話空間のメカニズムデザイン(JST未来社会創造事業)
「知」の循環と拡張を加速する対話空間のメカニズムデザイン(JST未来社会創造事業)
Tadahiro Taniguchi
Semantic Segmentation of Driving Behavior Data: Double Articulation Analyzer ...
Semantic Segmentation of Driving Behavior Data: Double Articulation Analyzer ...
Tadahiro Taniguchi
Symbol Emergence in Robotics: Language Acquisition via Real-world Sensorimoto...
Symbol Emergence in Robotics: Language Acquisition via Real-world Sensorimoto...
Tadahiro Taniguchi
ビブリオバトルにおける コミュニティ形成のダイナミクス
ビブリオバトルにおける コミュニティ形成のダイナミクス
Tadahiro Taniguchi
Nonparametric Bayesian Word Discovery for Symbol Emergence in Robotics
Nonparametric Bayesian Word Discovery for Symbol Emergence in Robotics
Tadahiro Taniguchi
Os 12 記号創発ロボティクス / OS趣旨説明@JSAI2015
Os 12 記号創発ロボティクス / OS趣旨説明@JSAI2015
Tadahiro Taniguchi
Symbol emergence in robotics @ Shonan meeting 2013/11/13
Symbol emergence in robotics @ Shonan meeting 2013/11/13
Tadahiro Taniguchi
コミュニケーション場のメカニズムデザイン 自律性を活かす記号過程のための制度設計
コミュニケーション場のメカニズムデザイン 自律性を活かす記号過程のための制度設計
Tadahiro Taniguchi
電子情報通信学会 2012年総合大会 電力問題へのさまざまなアプローチ「人工知能的アプローチ」 講演資料
電子情報通信学会 2012年総合大会 電力問題へのさまざまなアプローチ「人工知能的アプローチ」 講演資料
Tadahiro Taniguchi
2013年度 創発システム研究室 3回生配属ガイダンス資料
2013年度 創発システム研究室 3回生配属ガイダンス資料
Tadahiro Taniguchi
Sci13 招待講演
Sci13 招待講演
Tadahiro Taniguchi
ビブリオバトル2013 普及四年目のアレグレット
ビブリオバトル2013 普及四年目のアレグレット
Tadahiro Taniguchi
「ビブリオバトルのすすめかた」@教員向け言語能力向上研修会(書評合戦)
「ビブリオバトルのすすめかた」@教員向け言語能力向上研修会(書評合戦)
Tadahiro Taniguchi
Designing wisdom through the web
Designing wisdom through the web
Tadahiro Taniguchi
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
Tadahiro Taniguchi
AML-dynamics ライスボールセミナー
AML-dynamics ライスボールセミナー
Tadahiro Taniguchi
More from Tadahiro Taniguchi
(16)
「知」の循環と拡張を加速する対話空間のメカニズムデザイン(JST未来社会創造事業)
「知」の循環と拡張を加速する対話空間のメカニズムデザイン(JST未来社会創造事業)
Semantic Segmentation of Driving Behavior Data: Double Articulation Analyzer ...
Semantic Segmentation of Driving Behavior Data: Double Articulation Analyzer ...
Symbol Emergence in Robotics: Language Acquisition via Real-world Sensorimoto...
Symbol Emergence in Robotics: Language Acquisition via Real-world Sensorimoto...
ビブリオバトルにおける コミュニティ形成のダイナミクス
ビブリオバトルにおける コミュニティ形成のダイナミクス
Nonparametric Bayesian Word Discovery for Symbol Emergence in Robotics
Nonparametric Bayesian Word Discovery for Symbol Emergence in Robotics
Os 12 記号創発ロボティクス / OS趣旨説明@JSAI2015
Os 12 記号創発ロボティクス / OS趣旨説明@JSAI2015
Symbol emergence in robotics @ Shonan meeting 2013/11/13
Symbol emergence in robotics @ Shonan meeting 2013/11/13
コミュニケーション場のメカニズムデザイン 自律性を活かす記号過程のための制度設計
コミュニケーション場のメカニズムデザイン 自律性を活かす記号過程のための制度設計
電子情報通信学会 2012年総合大会 電力問題へのさまざまなアプローチ「人工知能的アプローチ」 講演資料
電子情報通信学会 2012年総合大会 電力問題へのさまざまなアプローチ「人工知能的アプローチ」 講演資料
2013年度 創発システム研究室 3回生配属ガイダンス資料
2013年度 創発システム研究室 3回生配属ガイダンス資料
Sci13 招待講演
Sci13 招待講演
ビブリオバトル2013 普及四年目のアレグレット
ビブリオバトル2013 普及四年目のアレグレット
「ビブリオバトルのすすめかた」@教員向け言語能力向上研修会(書評合戦)
「ビブリオバトルのすすめかた」@教員向け言語能力向上研修会(書評合戦)
Designing wisdom through the web
Designing wisdom through the web
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
AML-dynamics ライスボールセミナー
AML-dynamics ライスボールセミナー
Recently uploaded
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」
inspirehighstaff03
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
Ken Fukui
International Politics I - Lecture 1
International Politics I - Lecture 1
Toru Oga
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdf
oganekyokoi
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」
inspirehighstaff03
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」
inspirehighstaff03
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
inspirehighstaff03
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
inspirehighstaff03
My Inspire High Award 2024 「正義って存在するの?」
My Inspire High Award 2024 「正義って存在するの?」
inspirehighstaff03
What I did before opening my business..pdf
What I did before opening my business..pdf
oganekyokoi
My Inspire High Award 2024 「家族とは何か」
My Inspire High Award 2024 「家族とは何か」
inspirehighstaff03
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
inspirehighstaff03
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
Ken Fukui
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
ssusere0a682
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
Ken Fukui
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
Ken Fukui
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
inspirehighstaff03
TEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdf
yukisuga3
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
inspirehighstaff03
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
inspirehighstaff03
Recently uploaded
(20)
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
International Politics I - Lecture 1
International Politics I - Lecture 1
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdf
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024 「正義って存在するの?」
My Inspire High Award 2024 「正義って存在するの?」
What I did before opening my business..pdf
What I did before opening my business..pdf
My Inspire High Award 2024 「家族とは何か」
My Inspire High Award 2024 「家族とは何か」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
TEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdf
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
人工知能概論 7
1.
立命館大学 情報理工学部 知能情報学科 谷口忠大
2.
Information このスライドは「イラ ストで学ぶ人工知能概 論」を講義で活用した り,勉強会で利用した りするために提供され ているスライドです.
「イラストで学ぶ人工 知能概論」をご購入頂 けていない方は,必ず ご購入いただいてから ご利用ください.
3.
STORY 多段決定(2) 迷路に入る前に迷路の地図が完全にわかっているなどといっ た仮定はそもそもおかしいのではないだろうか.また,どの 状態からどの状態の遷移でどれだけの利得が得られるという 知識を事前に知っているという仮定も怪しいように思う.ま た,ある状態からある状態へ移動しようとするときに,その 行動が必ず達成されるという仮定も疑わしい.場合によって は滑ることもあるだろう.では,何も利得や地図の知識を持 たないままにホイールダック2号は経験のみに基づいて適切 な経路を学習することはできるだろうか.
4.
仮定 多段決定(2) ホイールダック2号は迷路の完全な地図を持ってい ないものとする.
ホイールダック2号は連続的な迷路の空間から適切 な離散状態空間を構成できるものとする. ホイールダック2号は自分が状態空間のどの状態に いるかを認識できるものとする. ホイールダック2号は物理的につながっている場 所・状態へは行動に応じて確率的に遷移するとする.
5.
Contents 7.1 強化学習とは何か?
7.2 マルコフ決定過程 7.3 割引累積報酬 7.4 価値関数 7.5 学習方法の例:Q学習
6.
7.1.1 試行錯誤の中での学習 試行錯誤で学ぶ人間
人間の様々な学習の進め方の中で,試行錯誤を通した 学習がある. やってみては,その結果・評価を観察し,徐々に「や り方」を改善していく. 例)サッカーのフリーキック,ボーリング etc.etc. スタート位置, 足の動かし方 手の振り上げ方 方向 etc.etc…. 倒れた本数 フィードバック
7.
7.1.1 オペラント条件づけ 自発的な試行錯誤の結果として得られる報酬 によって行動形成がなされることを心理学で オペラント条件づけと呼ぶ.
スキナー箱(Skinner 1938) 報酬 ハトはスイッチを押して餌を食べる ことを学習していく 強化 強化:その行動を とりやすくなること.
8.
7.1.2 強化学習理論 試行錯誤による学習をロボットにさせるための機械 学習法
強化学習は学習という語が含まれているが,動的計 画法や制御理論における最適制御論などと近接した 概念. 前回の動的計画法との相違点 はじめから状態空間や遷移則を与えないために,知識 や環境の不確実性を扱わねばならず,そのために確定 システムではなく確率システムとしてシステムをモデ ル化している. 情報を得ながらの学習,つまり,オンラインでの学習
9.
7.1.3 方策と価値 方策(policy)
ある状態にいたときに,どういう行動をどれほどの確 率で選択するか. 価値関数(value function) 状態や行動の価値 A*アルゴリズムや動的計画法と異なり, 「経路」を求めることが問題ではなく,方 策/価値関数を求めることが目的となる.
10.
Contents 7.1 強化学習とは何か?
7.2 マルコフ決定過程 7.3 割引累積報酬 7.4 価値関数 7.5 学習方法の例:Q学習
11.
7.2.1 状態遷移確率と報酬関数 強化学習はマルコフ決定過程(MDP,Markov Decision
Process) に基づいて定式化される. 方策(policy) 将来にわたって得られる報酬の期待値を最大化す る方策を見つけることが強化学習の問題
12.
Contents 7.1 強化学習とは何か?
7.2 マルコフ決定過程 7.3 割引累積報酬 7.4 価値関数 7.5 学習方法の例:Q学習
13.
割引累積報酬(discounted return)
Rt γ (0 ≤ γ < 1) は割引率(discount rate) と呼ばれる定数 である. 割引累積報酬は基本的には将来にわたって得られる 報酬の和になっているが,遠い未来であればあるほ ど,割り引いて換算される. γ=1 では T→∞で発散する. 7.3.1 割引累積報酬の意味
14.
7.3.2 割引率と未来の報酬価値
15.
演習7-1割引累積報酬の計算 方策1は「右へ行けたら右,だめなら上」,方策2は 「上へ行けたら上,だめなら右」という方策だとする. 両方行けない場合はその場にとどまる. 割引率γ=
0.5 の時のA,B,C,D,Eの状態における方策1に従 う場合,方策2に従う場合,それぞれで割引累積報酬の 値を求めよ. A B D E C 1 2 0 3 0 0 A B C D E 方策1 方策2
16.
演習7-2 割引累積報酬の計算 方策1は「右へ行けたら右,だめなら上」,方策2は 「上へ行けたら上,だめなら右」という方策だとする. 両方行けない場合はその場にとどまる.
割引率γ= 1 の時のA,B,C,D,Eの状態における方策1に従う 場合,方策2に従う場合,それぞれで割引累積報酬の値 を求めよ. A B D E C 1 2 0 3 0 0 A B C D E 方策1 方策2
17.
7.3.5 まとめ:割引率と報酬と評価値 割引率γ が異なれば,よりよい方策は異なる. 各状態における割引累積報酬は方策によって異なる. 割引累積報酬を方策の評価値と考えた場合には,そ の評価値は状態によって異なる.
18.
Contents 7.1 強化学習とは何か?
7.2 マルコフ決定過程 7.3 割引累積報酬 7.4 価値関数 7.5 学習方法の例:Q学習
19.
7.4.1 状態価値関数 よりよい方策を学習するためには,正しく状態と行 動の価値を見積もる必要がある.このために価値関 数が定義される.
状態価値関数 「その方策π に従えば,その状態s からスタートして 将来にどれだけの割引累積報酬を得られるか」
20.
7.4.2 ホイールダック2 号と分かれ 道(確率編) 0.1 0.1 0.8 価値関数の値を高める方策π
こそよい方策といえ
21.
7.4.3 行動価値関数 行動価値関数(action-value
function) 最適行動価値関数
22.
未来はドンドン分岐する 視点 1. 問題を簡単にする上で状態価値の間に良い性質は無い か? 2.
オンライン学習に変更するためのよい近似方法は無い
23.
ベルマン方程式 現状態の状態価値は次の報酬と次状態の価値だ けで定義出来る.下の式をベルマン方程式と呼 ぶ. A S C E B 1 2 0 3 0 0 F ? ? 気にしない! Vπ(S) Vπ(C) Vπ(B) Vπ(A) rt+1 14:00
24.
行動価値関数のベルマン方程式 ベルマン方程式に基づいて強化学習の問題を解く 様々な手法が提案されている. 例)
SARSA,アクタークリティック法,Q学習など
25.
演習7-3 ベルマン方程式[証明] 価値関数の定義式を用いて,下記のベルマン方程式 が成立することを示せ. 価値関数の定義式
26.
Contents 7.1 強化学習とは何か?
7.2 マルコフ決定過程 7.3 割引累積報酬 7.4 価値関数 7.5 学習方法の例:Q学習
27.
最適行動価値関数の確定遷移に対して 学習アルゴリズム
TD誤差(Temporal difference error) 7.5.1 Q 学習 Q-learning
28.
Algorithm 方策による 行動選択 報酬と状態 の観測 Q値の更新
29.
7.5.2 行動選択の方策 ランダム法
全ての行動を等確率で選択する. グリーディ法 各状態においてその時に最適と思われる行動を選択する. ε-グリーディ法 確率εでランダムに行動を選択肢,確率(1-ε)でグリーディ法を 行う. ボルツマン選択 パラメータTにより exp(Q(s,a)/T)に比例した確率で行動選択 を行う.Tが大きくなればランダム法へ,Tが小さくなればグ リーディ法に近づく. exploration or exploitation trade-off 「知識探索」か「知識活用」か? 人生そのものだね. 14:20 探索のために「最善でない手」も取らねばならない.
30.
演習7-4 Q学習の1-stepを追って見る. 行動at Q値 右
8 左 10 停止 5 St St+1 行動at Q値 右 10 左 8 停止 5 rt+1=4 select ホイールダック2号は状態Stで行動「右」をとった結果St+1に遷移 した. それぞれの状態での現在の学習中の行動価値の値は表のとおりであ る. 割引率は0.9とする. 1. TD誤差δtはいくらか?
31.
第7回 多段階決定(2) 割引累積報酬と,その割引率の変化による影響につ いて具体的な比較を通して学んだ.
割引累積報酬の期待値を表現する関数として状態価 値関数と行動価値関数について学んだ. ベルマン方程式として適切な価値関数が満たすべき 漸化式を得た. Q 学習のアルゴリズムとQ 学習における方策の決定 方法について学んだ.
Download now