Submit Search
Upload
ゲームのモデリング
•
4 likes
•
1,572 views
K
Keiko Mizuno
Follow
第94回Tokyo.Rの発表資料です。
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 23
Recommended
Tokyo r94 beginnerssession3
Tokyo r94 beginnerssession3
kotora_0507
テーブル・テキスト・画像の反実仮想説明
テーブル・テキスト・画像の反実仮想説明
tmtm otm
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
Deep Learning JP
Recommended
Tokyo r94 beginnerssession3
Tokyo r94 beginnerssession3
kotora_0507
テーブル・テキスト・画像の反実仮想説明
テーブル・テキスト・画像の反実仮想説明
tmtm otm
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
Deep Learning JP
Semantic segmentation
Semantic segmentation
Takuya Minagawa
物体検出フレームワークMMDetectionで快適な開発
物体検出フレームワークMMDetectionで快適な開発
Tatsuya Suzuki
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
Deep Learning JP
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
Deep Learning JP
強化学習における好奇心
強化学習における好奇心
Shota Imai
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
Kensho Hara
よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理
Masatoshi Yoshida
SSII2020TS: 機械学習モデルの判断根拠の説明 〜 Explainable AI 研究の近年の展開 〜
SSII2020TS: 機械学習モデルの判断根拠の説明 〜 Explainable AI 研究の近年の展開 〜
SSII
Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-
Joe Suzuki
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
Kazuyuki Miyazawa
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
Naoaki Okazaki
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
カルマンフィルタ入門
カルマンフィルタ入門
Yasunori Nihei
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知
Hideo Terada
From idea to production in a day – Leveraging Azure ML and Streamlit to build...
From idea to production in a day – Leveraging Azure ML and Streamlit to build...
Florian Roscheck
VIP Call Girls Service Charbagh { Lucknow Call Girls Service 9548273370 } Boo...
VIP Call Girls Service Charbagh { Lucknow Call Girls Service 9548273370 } Boo...
Call Girls In Delhi Whatsup 9873940964 Enjoy Unlimited Pleasure
More Related Content
What's hot
Semantic segmentation
Semantic segmentation
Takuya Minagawa
物体検出フレームワークMMDetectionで快適な開発
物体検出フレームワークMMDetectionで快適な開発
Tatsuya Suzuki
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
Deep Learning JP
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
Deep Learning JP
強化学習における好奇心
強化学習における好奇心
Shota Imai
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
Kensho Hara
よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理
Masatoshi Yoshida
SSII2020TS: 機械学習モデルの判断根拠の説明 〜 Explainable AI 研究の近年の展開 〜
SSII2020TS: 機械学習モデルの判断根拠の説明 〜 Explainable AI 研究の近年の展開 〜
SSII
Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-
Joe Suzuki
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
Kazuyuki Miyazawa
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
Naoaki Okazaki
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
カルマンフィルタ入門
カルマンフィルタ入門
Yasunori Nihei
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知
Hideo Terada
What's hot
(20)
Semantic segmentation
Semantic segmentation
物体検出フレームワークMMDetectionで快適な開発
物体検出フレームワークMMDetectionで快適な開発
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
強化学習における好奇心
強化学習における好奇心
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理
SSII2020TS: 機械学習モデルの判断根拠の説明 〜 Explainable AI 研究の近年の展開 〜
SSII2020TS: 機械学習モデルの判断根拠の説明 〜 Explainable AI 研究の近年の展開 〜
Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-
全力解説!Transformer
全力解説!Transformer
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
カルマンフィルタ入門
カルマンフィルタ入門
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知
Recently uploaded
From idea to production in a day – Leveraging Azure ML and Streamlit to build...
From idea to production in a day – Leveraging Azure ML and Streamlit to build...
Florian Roscheck
VIP Call Girls Service Charbagh { Lucknow Call Girls Service 9548273370 } Boo...
VIP Call Girls Service Charbagh { Lucknow Call Girls Service 9548273370 } Boo...
Call Girls In Delhi Whatsup 9873940964 Enjoy Unlimited Pleasure
Russian Call Girls Dwarka Sector 15 💓 Delhi 9999965857 @Sabina Modi VVIP MODE...
Russian Call Girls Dwarka Sector 15 💓 Delhi 9999965857 @Sabina Modi VVIP MODE...
Call Girls In Delhi Whatsup 9873940964 Enjoy Unlimited Pleasure
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
shivangimorya083
100-Concepts-of-AI by Anupama Kate .pptx
100-Concepts-of-AI by Anupama Kate .pptx
Anupama Kate
Data Science Jobs and Salaries Analysis.pptx
Data Science Jobs and Salaries Analysis.pptx
FurkanTasci3
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in Kishangarh
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in Kishangarh
9953056974 Low Rate Call Girls In Saket, Delhi NCR
꧁❤ Aerocity Call Girls Service Aerocity Delhi ❤꧂ 9999965857 ☎️ Hard And Sexy ...
꧁❤ Aerocity Call Girls Service Aerocity Delhi ❤꧂ 9999965857 ☎️ Hard And Sexy ...
Call Girls In Delhi Whatsup 9873940964 Enjoy Unlimited Pleasure
Call Girls In Mahipalpur O9654467111 Escorts Service
Call Girls In Mahipalpur O9654467111 Escorts Service
Sapana Sha
꧁❤ Greater Noida Call Girls Delhi ❤꧂ 9711199171 ☎️ Hard And Sexy Vip Call
꧁❤ Greater Noida Call Girls Delhi ❤꧂ 9711199171 ☎️ Hard And Sexy Vip Call
shivangimorya083
Delhi Call Girls Punjabi Bagh 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Delhi Call Girls Punjabi Bagh 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
shivangimorya083
VIP High Profile Call Girls Amravati Aarushi 8250192130 Independent Escort Se...
VIP High Profile Call Girls Amravati Aarushi 8250192130 Independent Escort Se...
Suhani Kapoor
Ukraine War presentation: KNOW THE BASICS
Ukraine War presentation: KNOW THE BASICS
Aishani27
Spark3's new memory model/management
Spark3's new memory model/management
akshesh doshi
High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...
High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...
soniya singh
Dubai Call Girls Wifey O52&786472 Call Girls Dubai
Dubai Call Girls Wifey O52&786472 Call Girls Dubai
hf8803863
Full night 🥵 Call Girls Delhi New Friends Colony {9711199171} Sanya Reddy ✌️o...
Full night 🥵 Call Girls Delhi New Friends Colony {9711199171} Sanya Reddy ✌️o...
shivangimorya083
Deep Generative Learning for All - The Gen AI Hype (Spring 2024)
Deep Generative Learning for All - The Gen AI Hype (Spring 2024)
Universitat Politècnica de Catalunya
Brighton SEO | April 2024 | Data Storytelling
Brighton SEO | April 2024 | Data Storytelling
Neil Barnes
04242024_CCC TUG_Joins and Relationships
04242024_CCC TUG_Joins and Relationships
ccctableauusergroup
Recently uploaded
(20)
From idea to production in a day – Leveraging Azure ML and Streamlit to build...
From idea to production in a day – Leveraging Azure ML and Streamlit to build...
VIP Call Girls Service Charbagh { Lucknow Call Girls Service 9548273370 } Boo...
VIP Call Girls Service Charbagh { Lucknow Call Girls Service 9548273370 } Boo...
Russian Call Girls Dwarka Sector 15 💓 Delhi 9999965857 @Sabina Modi VVIP MODE...
Russian Call Girls Dwarka Sector 15 💓 Delhi 9999965857 @Sabina Modi VVIP MODE...
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
100-Concepts-of-AI by Anupama Kate .pptx
100-Concepts-of-AI by Anupama Kate .pptx
Data Science Jobs and Salaries Analysis.pptx
Data Science Jobs and Salaries Analysis.pptx
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in Kishangarh
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in Kishangarh
꧁❤ Aerocity Call Girls Service Aerocity Delhi ❤꧂ 9999965857 ☎️ Hard And Sexy ...
꧁❤ Aerocity Call Girls Service Aerocity Delhi ❤꧂ 9999965857 ☎️ Hard And Sexy ...
Call Girls In Mahipalpur O9654467111 Escorts Service
Call Girls In Mahipalpur O9654467111 Escorts Service
꧁❤ Greater Noida Call Girls Delhi ❤꧂ 9711199171 ☎️ Hard And Sexy Vip Call
꧁❤ Greater Noida Call Girls Delhi ❤꧂ 9711199171 ☎️ Hard And Sexy Vip Call
Delhi Call Girls Punjabi Bagh 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Delhi Call Girls Punjabi Bagh 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
VIP High Profile Call Girls Amravati Aarushi 8250192130 Independent Escort Se...
VIP High Profile Call Girls Amravati Aarushi 8250192130 Independent Escort Se...
Ukraine War presentation: KNOW THE BASICS
Ukraine War presentation: KNOW THE BASICS
Spark3's new memory model/management
Spark3's new memory model/management
High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...
High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...
Dubai Call Girls Wifey O52&786472 Call Girls Dubai
Dubai Call Girls Wifey O52&786472 Call Girls Dubai
Full night 🥵 Call Girls Delhi New Friends Colony {9711199171} Sanya Reddy ✌️o...
Full night 🥵 Call Girls Delhi New Friends Colony {9711199171} Sanya Reddy ✌️o...
Deep Generative Learning for All - The Gen AI Hype (Spring 2024)
Deep Generative Learning for All - The Gen AI Hype (Spring 2024)
Brighton SEO | April 2024 | Data Storytelling
Brighton SEO | April 2024 | Data Storytelling
04242024_CCC TUG_Joins and Relationships
04242024_CCC TUG_Joins and Relationships
ゲームのモデリング
1.
実験ゲームの統計モデリング 水野景子 (関西学院大学社会学研究科/日本学術振興会) 2021/09/11 Tokyo.R
2.
自己紹介 水野 景子
(みずの けいこ) • 関西学院大学社会学研究科D1 • 日本学術振興会特別研究員 (DC1) • Twitter: @Mizuno_K5 • ウェブサイト: http://keikomizuno.com/ 研究テーマ (専門は社会心理学) • 社会的ジレンマ状況での意思決定モデルの構築&実証 • サンクション(報酬や罰)の逆効果はなぜ起こるのか • 社会的価値志向性(SVO)を階層モデルで測定 2021/09/10 アヒル本読書会 2 @Mizuno_K5
3.
お話しする内容 Stanによるモデル内のパラメータ推定 階層モデルの推定がしやすいのもベイズ推定法の長所
自由にモデルを書けるうえ、それらの比較も簡単! 2021/09/11 Tokyo.R
4.
実験ゲームの統計モデリング 水野景子 (関西学院大学社会学研究科/日本学術振興会) 2021/09/11 Tokyo.R
5.
実験ゲームの統計モデリング 水野景子 (関西学院大学社会学研究科/日本学術振興会) 2021/09/11 Tokyo.R
6.
ギャラドス vs リザードン 2021/09/11
Tokyo.R こうげき 攻撃わざが効く場合と 効かない場合がある ギャラドス(自分) リザードン(相手)
7.
ポケモンを何も知らない人 2021/09/11 Tokyo.R こうげきわざ ・たきのぼり(水) ・パワーウィップ(草)
8.
強化学習 「たきのぼり」と「パワーウィップ」はそれぞれ こうげきが効く確率が決まっている • それぞれ60%と40%とする
その他 (自分が交代、”育て方”、すばやさ関係など)は一切無視 何度も繰り返すうちにどちらを選べばよいかわかる 2021/09/11 Tokyo.R
9.
Q学習モデル (1) 𝑄(𝑡+1) 𝑡𝑎𝑘𝑖 = 𝑄𝑡 𝑡𝑎𝑘𝑖 +
𝜶(𝑅𝑡 − 𝑄𝑡 𝑡𝑎𝑘𝑖 ) 𝑄(𝑡+1) 𝑘𝑢𝑠𝑎 = 𝑄𝑡 𝑘𝑢𝑠𝑎 + 𝜶 (𝑅𝑡 − 𝑄𝑡 𝑘𝑢𝑠𝑎 ) 2021/09/11 Tokyo.R 次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差 たきのぼりとパワーウィップの価値(𝑄)が更新される 次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差 𝑹𝒕:報酬 攻撃がうまくいくと+100 𝜶: 学習率 1回の経験でどれほど Q値を更新するか(0~1) (履歴の参照度合いともいえる) 仮定 初めのQ値はどちらも0で選ばれたほうのわざだけQ値を更新 報酬の大きさや学習率はどちらのわざも同じ
10.
Q学習モデル (2) 2021/09/11 Tokyo.R Q値によってわざの選択が行われる たきのぼりが選ばれる確率𝑷(𝒕𝒂𝒌𝒊)は 𝑃
𝑡𝑎𝑘𝑖 = exp 𝜷 ∗ 𝑄𝑡 𝑡𝑎𝑘𝑖 exp(𝜷 ∗ 𝑄𝑡 𝑡𝑎𝑘𝑖 + exp(𝜷 ∗ 𝑄𝑡 𝑘𝑢𝑠𝑎 ) 𝑃 𝑡𝑎𝑘𝑖 = 1 1 + exp(−𝜷 ∗ 𝑄𝑡 𝑡𝑎𝑘𝑖 − 𝑄𝑡 𝑘𝑢𝑠𝑎 ) 分母と分子をexp 𝛽 ∗ 𝑄𝑡 𝑡𝑎𝑘𝑖 で割る 𝜷: 逆温度 Q値の差をどれほど 行動に反映するか (探索傾向ともいえる) たくさん選択肢がある場合 二択の場合
11.
学習率𝜶と逆温度𝜷をStanで推定してみよう 2021/09/11 Tokyo.R 学習率: 1回の経験でどれほどQ値を更新するか
(履歴の参照度合い) 逆温度: Q値の差をどれほど行動に反映するか (探索傾向) ポケモンを知らない人を 集めてくる 40回試行錯誤
12.
ベイズ推定の本領発揮!階層モデル 2021/09/11 Tokyo.R ポケモンを知らない人たち 学習率と逆温度は ひとりひとり 違うのでは? 全員で共通の値 𝜶 𝜶
𝜶 一人ずつ推定 𝜶𝟏 𝜶𝟐 𝜶𝟑 個人差を扱えない! 推定効率がよくない! 階層モデルで推定 𝜶 𝜶𝟏 𝜶𝟐 𝜶𝟑 個人差も扱えるし推定効率もよい
13.
StanでQ学習モデルを書く(Q値の更新部分) 2021/09/11 Tokyo.R 個人ごとに学習率と逆温度を推定してね! 初回の価値(Q値)は0でよろしく! 選ばれたほうのわざだけ Q値を更新してね!
14.
StanでQ学習モデルを書く(わざの選択部分) 2021/09/11 Tokyo.R Q値の差と逆温度によって選択が決まる
15.
推定結果(個人ごと) 2021/09/11 Tokyo.R 学習率: 履歴の参照度合い。大きいほど直前しか見てない(0~1) 逆温度:
探索傾向。0のとき完全にランダムに選択
16.
今回使ったモデル (Q値の更新部分) 𝑄(𝑡+1) 𝑡𝑎𝑘𝑖 = 𝑄𝑡 𝑡𝑎𝑘𝑖 +
𝜶(𝑅𝑡 − 𝑄𝑡 𝑡𝑎𝑘𝑖 ) 𝑄(𝑡+1) 𝑘𝑢𝑠𝑎 = 𝑄𝑡 𝑘𝑢𝑠𝑎 + 𝜶 (𝑅𝑡 − 𝑄𝑡 𝑘𝑢𝑠𝑎 ) 2021/09/11 Tokyo.R 次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差 たきのぼりとパワーウィップの価値(𝑄)が更新される 次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差 𝑹𝒕:報酬 攻撃がうまくいくと+100 𝜶: 学習率 1回の経験でどれほど Q値を更新するか (履歴の参照度合いともいえる) 仮定 初めのQ値はどちらも0で選ばれたほうのわざだけQ値を更新 報酬の大きさや学習率はどちらのわざも同じ
17.
もっと色々考えられるよね? 2021/09/11 Tokyo.R 攻撃がうまくいくと+100 っていう設定だったけど、 うまくいかなかったら-100に なるのでは 初めのQ値はどちらも0 っていう設定だったけど、 流石に水が炎に有利くらいは 知ってるだろ 学習率はどちらのわざも同じ っていう設定だったけど、 「たきのぼり」がうまくいった ときのほうが覚えやすいのでは
18.
全部Stanで書けます! 2021/09/11 Tokyo.R 攻撃がうまくいくと+100 っていう設定だったけど、 うまくいかなかったら-100に なるのでは 初めのQ値はどちらも0 っていう設定だったけど、 流石に水が炎に有利くらいは 知ってるだろ 学習率はどちらのわざも同じ っていう設定だったけど、 「たきのぼり」がうまくいった ときのほうが覚えやすいのでは
19.
モデルの改良(1) 2021/09/11 Tokyo.R 攻撃がうまくいくと+100 っていう設定だったけど、 うまくいかなかったら-100にな るのでは 失敗したら報酬が-100になるif文を書く!
20.
モデルの改良(2) 2021/09/11 Tokyo.R 初めのQ値はどちらも0 っていう設定だったけど、 流石に水が炎に有利くらいは 知ってるだろ 初期値も推定するか重みをつける!
21.
モデルの改良(3) 2021/09/11 Tokyo.R 学習率はどちらのわざも同じ っていう設定だったけど、 「たきのぼり」がうまくいった ときのほうが覚えやすいのでは 学習率を2種類用意する!
22.
モデル同士の比較も簡単にできる 2021/09/11 Tokyo.R どのモデルがデータを予測できているか? 情報量規準による比較 事後予測チェック
23.
Enjoy ! Stanによるパラメータ推定をポケモン×強化学習で説明
階層モデルの推定がしやすいのもベイズ推定法の長所 自由にモデルを書けるうえ、それらの比較も簡単! 2021/09/11 Tokyo.R