Submit Search
Upload
Casual learning-machinelearningwithexcelno8
•
1 like
•
380 views
K
KazuhiroSato8
Follow
エクテックカジュアル勉強会 『Excelで機械学習入門(第8回)』 投影資料です。
Read less
Read more
Education
Report
Share
Report
Share
1 of 140
Download now
Download to read offline
Recommended
Casual learning machine learning with_excel_no6
Casual learning machine learning with_excel_no6
KazuhiroSato8
Casual learning machine_learning_with_excel_no7
Casual learning machine_learning_with_excel_no7
KazuhiroSato8
Casual learning machine learning with_excel_no5
Casual learning machine learning with_excel_no5
KazuhiroSato8
Casual learning machine learning with_excel_no3
Casual learning machine learning with_excel_no3
KazuhiroSato8
Casual learning machine learning with_excel_no2
Casual learning machine learning with_excel_no2
KazuhiroSato8
Casual learning machine learning with_excel_no4
Casual learning machine learning with_excel_no4
KazuhiroSato8
Deep learning入門
Deep learning入門
magoroku Yamamoto
ディープニューラルネット入門
ディープニューラルネット入門
TanUkkii
Recommended
Casual learning machine learning with_excel_no6
Casual learning machine learning with_excel_no6
KazuhiroSato8
Casual learning machine_learning_with_excel_no7
Casual learning machine_learning_with_excel_no7
KazuhiroSato8
Casual learning machine learning with_excel_no5
Casual learning machine learning with_excel_no5
KazuhiroSato8
Casual learning machine learning with_excel_no3
Casual learning machine learning with_excel_no3
KazuhiroSato8
Casual learning machine learning with_excel_no2
Casual learning machine learning with_excel_no2
KazuhiroSato8
Casual learning machine learning with_excel_no4
Casual learning machine learning with_excel_no4
KazuhiroSato8
Deep learning入門
Deep learning入門
magoroku Yamamoto
ディープニューラルネット入門
ディープニューラルネット入門
TanUkkii
Large-Scale Object Classification Using Label Relation Graphs
Large-Scale Object Classification Using Label Relation Graphs
Takuya Minagawa
17ゼロから作るディープラーニング2章パーセプトロン
17ゼロから作るディープラーニング2章パーセプトロン
Keiichirou Miyamoto
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tatsuya Tojima
170318 第3回関西NIPS+読み会: Learning What and Where to Draw
170318 第3回関西NIPS+読み会: Learning What and Where to Draw
Shinagawa Seitaro
20160716 ICML paper reading, Learning to Generate with Memory
20160716 ICML paper reading, Learning to Generate with Memory
Shinagawa Seitaro
DS Exercise Course 3
DS Exercise Course 3
大貴 末廣
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
Ken Morishita
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論
Naoaki Okazaki
0728 論文紹介第三回
0728 論文紹介第三回
Kohei Wakamatsu
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
ブースティング入門
ブースティング入門
Retrieva inc.
深層学習と確率プログラミングを融合したEdwardについて
深層学習と確率プログラミングを融合したEdwardについて
ryosuke-kojima
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
20150803.山口大学集中講義
20150803.山口大学集中講義
Hayaru SHOUNO
FOBOS
FOBOS
Hidekazu Oiwa
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
Shinya Akiba
ChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なこと
Jiro Nishitoba
GenisysでTableauを導入した話
GenisysでTableauを導入した話
Yuki Katada
『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ
Hisao Soyama
More Related Content
What's hot
Large-Scale Object Classification Using Label Relation Graphs
Large-Scale Object Classification Using Label Relation Graphs
Takuya Minagawa
17ゼロから作るディープラーニング2章パーセプトロン
17ゼロから作るディープラーニング2章パーセプトロン
Keiichirou Miyamoto
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tatsuya Tojima
170318 第3回関西NIPS+読み会: Learning What and Where to Draw
170318 第3回関西NIPS+読み会: Learning What and Where to Draw
Shinagawa Seitaro
20160716 ICML paper reading, Learning to Generate with Memory
20160716 ICML paper reading, Learning to Generate with Memory
Shinagawa Seitaro
DS Exercise Course 3
DS Exercise Course 3
大貴 末廣
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
Ken Morishita
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論
Naoaki Okazaki
0728 論文紹介第三回
0728 論文紹介第三回
Kohei Wakamatsu
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
ブースティング入門
ブースティング入門
Retrieva inc.
深層学習と確率プログラミングを融合したEdwardについて
深層学習と確率プログラミングを融合したEdwardについて
ryosuke-kojima
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
20150803.山口大学集中講義
20150803.山口大学集中講義
Hayaru SHOUNO
FOBOS
FOBOS
Hidekazu Oiwa
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
Shinya Akiba
ChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なこと
Jiro Nishitoba
What's hot
(20)
Large-Scale Object Classification Using Label Relation Graphs
Large-Scale Object Classification Using Label Relation Graphs
17ゼロから作るディープラーニング2章パーセプトロン
17ゼロから作るディープラーニング2章パーセプトロン
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
170318 第3回関西NIPS+読み会: Learning What and Where to Draw
170318 第3回関西NIPS+読み会: Learning What and Where to Draw
20160716 ICML paper reading, Learning to Generate with Memory
20160716 ICML paper reading, Learning to Generate with Memory
DS Exercise Course 3
DS Exercise Course 3
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論
0728 論文紹介第三回
0728 論文紹介第三回
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
ブースティング入門
ブースティング入門
深層学習と確率プログラミングを融合したEdwardについて
深層学習と確率プログラミングを融合したEdwardについて
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
20150803.山口大学集中講義
20150803.山口大学集中講義
FOBOS
FOBOS
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
ChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なこと
Similar to Casual learning-machinelearningwithexcelno8
GenisysでTableauを導入した話
GenisysでTableauを導入した話
Yuki Katada
『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ
Hisao Soyama
「Asakusa0.7の新機能で、テストデータをどうドキュメントするのか的な実用的なアレ」 by @okachimachiorz1
「Asakusa0.7の新機能で、テストデータをどうドキュメントするのか的な実用的なアレ」 by @okachimachiorz1
鉄平 土佐
DS Exercise Course 1
DS Exercise Course 1
大貴 末廣
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
Shunsuke Nakamura
Interop2017
Interop2017
tak9029
データサイエンスことはじめ
データサイエンスことはじめ
大貴 末廣
第1回Rを使って統計分析を勉強する会
第1回Rを使って統計分析を勉強する会
Nobuto Inoguchi
農業AIハッカソンマイクロソフト様発表資料
農業AIハッカソンマイクロソフト様発表資料
Kohei Mochida
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
Kenta Oono
全部Excelだけで実現しようとして後悔するデータ分析 2nd Edition
全部Excelだけで実現しようとして後悔するデータ分析 2nd Edition
__john_smith__
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
Hajime Fujita
RandExcel
RandExcel
Takanori Omote
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
Kensuke Mitsuzawa
Tableau人材を育てるには? ~truestar文化に学ぶエフォートレスな勉強会のすゝめ~
Tableau人材を育てるには? ~truestar文化に学ぶエフォートレスな勉強会のすゝめ~
AkiKusaka
Power BI チュートリアル 導入・初級編
Power BI チュートリアル 導入・初級編
Osamu Masutani
時代のニーズに合わせた学習意欲を向上させるための実践的な組込みシステム教育教材の開発
時代のニーズに合わせた学習意欲を向上させるための実践的な組込みシステム教育教材の開発
Yuuki Kojima
ヒトの機械学習
ヒトの機械学習
Tatsuya Shirakawa
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
Shunsuke Nakamura
Annotating object instances with a polygon rnn
Annotating object instances with a polygon rnn
Takanori Ogata
Similar to Casual learning-machinelearningwithexcelno8
(20)
GenisysでTableauを導入した話
GenisysでTableauを導入した話
『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ
「Asakusa0.7の新機能で、テストデータをどうドキュメントするのか的な実用的なアレ」 by @okachimachiorz1
「Asakusa0.7の新機能で、テストデータをどうドキュメントするのか的な実用的なアレ」 by @okachimachiorz1
DS Exercise Course 1
DS Exercise Course 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
Interop2017
Interop2017
データサイエンスことはじめ
データサイエンスことはじめ
第1回Rを使って統計分析を勉強する会
第1回Rを使って統計分析を勉強する会
農業AIハッカソンマイクロソフト様発表資料
農業AIハッカソンマイクロソフト様発表資料
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
全部Excelだけで実現しようとして後悔するデータ分析 2nd Edition
全部Excelだけで実現しようとして後悔するデータ分析 2nd Edition
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
RandExcel
RandExcel
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
Tableau人材を育てるには? ~truestar文化に学ぶエフォートレスな勉強会のすゝめ~
Tableau人材を育てるには? ~truestar文化に学ぶエフォートレスな勉強会のすゝめ~
Power BI チュートリアル 導入・初級編
Power BI チュートリアル 導入・初級編
時代のニーズに合わせた学習意欲を向上させるための実践的な組込みシステム教育教材の開発
時代のニーズに合わせた学習意欲を向上させるための実践的な組込みシステム教育教材の開発
ヒトの機械学習
ヒトの機械学習
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
Annotating object instances with a polygon rnn
Annotating object instances with a polygon rnn
More from KazuhiroSato8
Casual learning anomaly_detection_with_machine_learning_no1
Casual learning anomaly_detection_with_machine_learning_no1
KazuhiroSato8
Casual data analysis_with_python_vol2
Casual data analysis_with_python_vol2
KazuhiroSato8
Casual datascience vol5
Casual datascience vol5
KazuhiroSato8
Basic deep learning_framework
Basic deep learning_framework
KazuhiroSato8
Casual learning machine_learning_with_excel_no1
Casual learning machine_learning_with_excel_no1
KazuhiroSato8
エクテック カジュアル勉強会 データサイエンスを学ぶ第2回
エクテック カジュアル勉強会 データサイエンスを学ぶ第2回
KazuhiroSato8
エクテック カジュアル勉強会 データサイエンスを学ぶ第1回
エクテック カジュアル勉強会 データサイエンスを学ぶ第1回
KazuhiroSato8
Casual data analysis_with_python_vol1
Casual data analysis_with_python_vol1
KazuhiroSato8
Casual datascience vol4
Casual datascience vol4
KazuhiroSato8
Casual datascience vol3
Casual datascience vol3
KazuhiroSato8
Casual datascience vol2
Casual datascience vol2
KazuhiroSato8
Casual datascience vol1
Casual datascience vol1
KazuhiroSato8
More from KazuhiroSato8
(12)
Casual learning anomaly_detection_with_machine_learning_no1
Casual learning anomaly_detection_with_machine_learning_no1
Casual data analysis_with_python_vol2
Casual data analysis_with_python_vol2
Casual datascience vol5
Casual datascience vol5
Basic deep learning_framework
Basic deep learning_framework
Casual learning machine_learning_with_excel_no1
Casual learning machine_learning_with_excel_no1
エクテック カジュアル勉強会 データサイエンスを学ぶ第2回
エクテック カジュアル勉強会 データサイエンスを学ぶ第2回
エクテック カジュアル勉強会 データサイエンスを学ぶ第1回
エクテック カジュアル勉強会 データサイエンスを学ぶ第1回
Casual data analysis_with_python_vol1
Casual data analysis_with_python_vol1
Casual datascience vol4
Casual datascience vol4
Casual datascience vol3
Casual datascience vol3
Casual datascience vol2
Casual datascience vol2
Casual datascience vol1
Casual datascience vol1
Recently uploaded
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
yuitoakatsukijp
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
koheioishi1
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ssusere0a682
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
YukiTerazawa
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
Tokyo Institute of Technology
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ssusere0a682
Recently uploaded
(6)
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
Casual learning-machinelearningwithexcelno8
1.
カジュアル勉強会 @仙台 Excelで機械学習入門 第8回 株式会社
エクテック データサイエンティスト
2.
第10回までの流れ 1回~3回 4回~10回 AI周辺の 基本知識 最適化の基本 推論の基本 重回帰分析 機械学習 サポートベクタマシン ナイーブベイズ ニューラルネットワーク RNN/BPTT 強化学習/Q学習
3.
前段
4.
勉強会に参加する以上...
5.
『なにか』を 持って帰って欲しい
6.
『すべて』は難しいけれど 気になった、興味をもった キーワードでも良いので ⼿元に持って帰って いただけると幸いです
7.
環境について (Surroundings)
8.
Excel 2013, 2016 Google
Spreadsheets
9.
本日のアジェンダ 1. 強化学習とQ学習 2. Q学習のアルゴリズム 3.
Q学習をExcelで体験
10.
強化学習とQ学習
11.
試⾏錯誤を繰り返す
12.
これはニューラルネットと同じ
13.
より⼤きな価値のある⾏動を 模索して最適な解を得ようとする
14.
『強化学習』
15.
『強化学習』 機械学習を⽤いるロボットは 主要な学習アルゴリズムとして 強化学習を採⽤している
16.
その代表例が Q学習(Q Learning)
17.
様々なパターンを挑戦させて より⼤きな価値のある⾏動を 探す⽅法を、機械が⾃ら学習する
18.
⾃⾝の「⾏動」から「状態」を把握 ⽬標を達成できたら『報酬』を与える
19.
この⾏動と報酬を繰り返すことで 組み合わせることで 機械⾃らが学んでいく
20.
機械⾃らが学んでいく
21.
1つの例
22.
巣 餌
23.
巣 餌何度もたどることで 道が濃くなる
24.
AI(⼈⼯知能) 強化学習 機械学習 深層学習 Q学習
25.
Q学習のアルゴリズム
26.
アリの具体例から Q学習を理解する
27.
正⽅形の壁の中に仕切られた8個の部屋が あります。部屋と部屋とをつなぐ通路が あり、アリは⾃由に⾏き来でき、 報酬となる飴があります。 この飴にたどり着く最短経路の探索に Q学習を利⽤します。
28.
エージェント 環境 ⾏動 報酬
29.
30.
環境
31.
エージェント
32.
報酬
33.
⾏動
34.
状態 1
35.
状態 2
36.
状態 3
37.
状態 4
38.
状態 5
39.
状態 7
40.
状態 8
41.
状態 9
42.
(1,1) (1,2) (1,3) (2,2)(2,1) (3,1)
(3,2) (3,3) (2,3)には ⼊れない
43.
(1,1) (1,2) (1,3) (2,2)(2,1) (3,1)
(3,2) (3,3) i⾏j列に ある部屋を 部屋(i,j) と表現 (2,3)
44.
(1,1) (1,2) (1,3) (2,2)(2,1) (3,1)
(3,2) (3,3) i⾏j列に ある部屋を 部屋(i,j) と表現 (2,3) i⾏j列にある部屋(i,j)と状態番号s s = 3(i-1)+j
45.
状態1から 状態9まで 左図のよう に進む
46.
状態1から 状態9まで 左図のよう に進む 部屋(1,1)から飴のある部屋までを 最短で探しにいきます
47.
状態1から 状態9まで 左図のよう に進む 部屋(1,1)の状態を最初の “ステップ”と呼ぶことにします
48.
部屋(1,1) 状態1
49.
部屋(1,2) 状態2
50.
部屋(2,2) 状態5
51.
部屋(3,2) 状態8
52.
部屋(3,3) 状態9
53.
部屋(3,3) 状態9 部屋(1,1)から部屋(3,3)までに 5ステップで到着できます
54.
部屋(3,3) 状態9 到着の可否は別として、学習が1区切り ついたときを “エピソード”といいます
55.
Q値
56.
Q学習を語る上で、 必要不可⽋な”Q値”
57.
Q値 = Q(s,
a) s: state(状態) a: action(⾏動)
58.
アリの例で⾔えば、 アリは飴までの道のりで “フェロモン”を利⽤しています
59.
“フェロモン”(⾹り)の 強さに当たる “Q値”
60.
Q値は『⾏動の価値』 と表現されます
61.
『価値』は、ある状態から次の⾏動を おこしたときに期待される 『魅⼒度』『報酬』を指します
62.
Q値=匂いの強さ この匂いの強弱を頼りに 道を選択、探索していきます
63.
状態s Q(s, 下) Q(s, 上) Q(s,
右)Q(s, 左) ある状態では最⼤で 四つの選択ができます
64.
状態s Q(s, 下) Q(s, 上) Q(s,
右)Q(s, 左) ある状態では最⼤で 四つの選択ができます 原則として匂いの強い⽅へ移動します (Q値の⼤きい⽅へ移動する)
65.
Q(s, 下)=7 Q(s, 右)=4 Q(s,
左)=3 Q値の⼤きい⽅を 選択します 部屋(1,2)
66.
Q値の表とアリとの対応
67.
Q(s, a) 状態 s ⾏動a Q(s, a)は 離散的な値を とるので、 表(テーブル) で表現する
68.
Q(s, 下)=7 Q(s, 右)=4 Q(s,
左)=3 Q値の⼤きい⽅を 選択します 部屋(1,2)
69.
状態 ⾏動 上 下 左
右 … … … … … … … … … … 2 Na 7 3 4
70.
即時報酬
71.
⽬的の部屋へと最短ルートを探索する とき、今いる部屋の隣に飴があるかも
72.
「隣の部屋に移動する」という 1⾏動で飴が⼿に⼊る
73.
「隣の部屋に移動する」という 1⾏動で飴が⼿に⼊る 即時報酬
74.
「隣の部屋に移動する」という 1⾏動で飴が⼿に⼊る 即時報酬 (負の即時報酬も可能)
75.
とはいえ、即時報酬のみに囚われている と⽬的のゴールにはたどり着けません
76.
77.
即時報酬のみに囚われると 延々とループしてしまう
78.
数式と記号の整理
79.
t: ステップ番号を表す変数 st: ステップtにおける状態を表す変数 at:
ステップtで選択する⾏動を表す変数 rt: ステップtに、その場で受け取る 即時報酬
80.
状態1から 状態9まで 左図のよう に進む
81.
t=1 s1=1 r1=0 a1=右
82.
t=2 s2=2 r2=0 a2=下
83.
t=3 s3=5 r3=2.71 a3=下
84.
t=4 s4=8 r4=0 a4=右
85.
t=5 s5=9 r5=100 a5=Na
86.
Q値の更新
87.
その部屋の出⼝から出るとき Q値の更新をする必要がある
88.
匂いの情報を更新して 再訪時に最短の道を 選択しやすくするため
89.
『魅⼒度(価値)』
90.
部屋X 部屋Y 部屋Yへ進んだとき 『魅⼒度』を記⼊
91.
部屋X 部屋Y b d ac r x 部屋Yに通じる部屋Xの出⼝に 記された匂いの強さ(Q値)を
x
92.
部屋X 部屋Y b d ac r x これから進む部屋Yの4つの出⼝の 匂いの強さ(Q値)を
a, b, c, d
93.
部屋X 部屋Y b d ac r x これから進む部屋Yの4つの出⼝の 匂いの強さ(Q値)を
a, b, c, d xに設定する部屋Yの「魅⼒度」 = max(a,b,c,d)
94.
部屋X 部屋Y b d ac r x これから進む部屋Yの4つの出⼝の 匂いの強さ(Q値)を
a, b, c, d この「魅⼒度」を鵜呑みにする と危険な場合も...
95.
部屋X 部屋Y b d ac r x これから進む部屋Yの4つの出⼝の 匂いの強さ(Q値)を
a, b, c, d この「魅⼒度」は減衰することも 考慮に⼊れる必要がある
96.
部屋X 部屋Y b d ac r x これから進む部屋Yの4つの出⼝の 匂いの強さ(Q値)を
a, b, c, d 減衰率, 割引率 γ(がんま)
97.
部屋X 部屋Y b d ac r x これから進む部屋Yの4つの出⼝の 匂いの強さ(Q値)を
a, b, c, d xに設定する部屋Yの「魅⼒度」 = γmax(a,b,c,d) (0<γ<1)
98.
部屋X 部屋Y b d ac r x これから進む部屋Yの4つの出⼝の 匂いの強さ(Q値)を
a, b, c, d xに設定する部屋Yの「魅⼒度」 = r + γmax(a,b,c,d) (0<γ<1)
99.
学習率
100.
『次の部屋』の匂いの強さ = r +
γmax(a,b,c,d)
101.
この『匂いの強さ』を『元の部屋』 の出⼝情報xの更新情報として そのまま採⽤はしない
102.
理由は簡単で、 元の部屋の情報量であって 部屋Yに正しい情報が記録されている ことの保証はされていないから
103.
もっというと、アリが学習を 完了したかどうかの保証がない ということになります
104.
このとき、 『学習率』を導⼊します ※仮に、α(あるふぁ)とします
105.
以前の情報 xと、新たに求めた 匂いの強さの情報 r+γmax(a,b,c,d) から計算される更新量
xは x ← (1-α)x + {r+γmax(a,b,c,d)}
106.
以前の情報 xと、新たに求めた 匂いの強さの情報 r+γmax(a,b,c,d) から計算される更新量
xは x ← (1-α)x + {r+γmax(a,b,c,d)} 新情報 旧情報
107.
部屋X 部屋Y b d ac r 旧情報
x 部屋X 部屋Y b d ac r 新情報 x
108.
状態1 状態2 7 43 4 x=5 部屋X
部屋Y 7 43 4 x=(1-α)*5+α(4+γ*7)
109.
Q学習の記号で改めて表現すると
110.
x = Q(st,
a)
111.
Q(st, a)←Q(st, at)+ α(γt+1+γ
maxQ(st+1, at+1)-Q(st, at)) at+1 ∈ A(St+1)
112.
先ほどの式の左辺の値 → アリの再訪したときに観測できる値
113.
この値を、『遅延報酬』 といいます(Q学習の原理)
114.
部屋X 部屋Y 状態st 状態st+1 Q(st+1,4) Q(st+1,1) Q(st+1,2) Q(st+1,3) Q(st,1) 期待報酬=γt+1+γmaxQ(st+1,
at+1) γt+1 at+1 ∈ A(St+1)
115.
ε-greedy法
116.
匂いの強さのみで学習していると あるとき、迷路にハマり永遠と ループしてしまう可能性が 潜在的にある
117.
匂いの強さだけでなく 新しい道を探すという 『冒険⼼』もまた必要となる
118.
匂いの強さだけでなく 新しい道を探すという 『冒険⼼』もまた必要となる ε(いぷしろん)という確率的な 気まぐれさを導⼊する
119.
ε (アリの冒険⼼の割合) 匂いの強さで ⽅向を決める 気ままに 進む
120.
exploit explore 2 2 51 2 2 51 exploit: Q値をもとに選択 explore:
気ままに選択
121.
exploit explore 2 2 51 2 2 51 exploit: Q値をもとに選択 explore:
気ままに選択 勝⼿気ままに greedy(欲張りな)⾏動をする
122.
exploit explore 2 2 51 2 2 51 exploit: Q値をもとに選択 explore:
気ままに選択 最初はεを⼤きく 学習終盤はεを⼩さく
123.
exploit explore 2 2 51 2 2 51 exploit: Q値をもとに選択 explore:
気ままに選択 修正ε-greedy法
124.
学習の終了条件
125.
γt+1+γ maxQ(st+1, at+1)-Q(st,
at) → 0 at+1 ∈ A(St+1)
126.
γt+1+γ maxQ(st+1, at+1)-Q(st,
at) → 0 at+1 ∈ A(St+1) 0に収束すれば、学習完了。
127.
γt+1+γ maxQ(st+1, at+1)
→ Q(st, at) at+1 ∈ A(St+1)
128.
γt+1+γ maxQ(st+1, at+1)
→ Q(st, at) at+1 ∈ A(St+1) 期待報酬とQ値が⼀緒になれば 飽和状態となっている
129.
γt+1+γ maxQ(st+1, at+1)
→ Q(st, at) at+1 ∈ A(St+1) εも⼗分⼩さいため、最終的に exploitな⾏動をすれば⽬的にたどり着く
130.
Q学習をExcelで体験
131.
パラメータ設定 エピソード 結果
132.
Q値は、最初のステップは ランダムに設定される 初期位置 部屋(1,1)
133.
コピペ コピペ
134.
エピソード1が完了 次にエピソード2へ コピペ 初期位置へ戻す
135.
乱数がεより ⼩さければ “explore”乱数設定 選択された⾏動 エージェントの 次の位置
136.
次のステップの 最⼤のQ値を探す
137.
選択した⾏動に 対応する Q値を更新
138.
いかがでしたでしょうか。
139.
次回は Deep Q Learning DQNに⼊ります
140.
EoF
Download now