SlideShare a Scribd company logo
1 of 16
Download to read offline
ScienceAndTechnology
特徴量関数近似による
強化学習の汎用化
2016/09/08
mabonki0725
ScienceAndTechnology 自己紹介
データ分析と統計モデル構築15年
学習データ以外のデータでも予測が当たることに驚く
統計数理研究所の機械学習ゼミに6年間通学
殆どの統計モデルを開発
(判別木 SVM DeepLearning ベイジアンネット 等)
ロボット技術習得のため産業技術大学院に入学
米国の機械学習の莫大な論文量に呆然としている
日米のAI関係の投資額は1000倍差がある
 (2015年 米国5.7兆円 日本政府投資額64億円)
ScienceAndTechnology 機械学習の進展
2000年頃までは古典的な頻度統計があった
データが貴重で計算機のパワーも小さい
2000年以降ベイズ統計が発展する
豊富なデータと計算機パワーで隠れ変数を暴く
DeepLearningの特徴量抽出能力が認識される
Hintonの教師なしDeepLearningが再認識させる
強化学習+DeepLearningのAlpha碁が出現
DeepMind社が状況認識と最適行動を合体する(DQNモデル)
粒子フィルター+強化学習による自動運転が実現
Thurnの確率ロボテックス技術
Freeの機械学習ソフトによって他分野の参入が容易
Pythonは全ての言語の長所を取り込む
ScienceAndTechnology 趣旨
Alpha碁はDQN(DeepQlearningNet)を採用している
DQNは画像から特徴量を抽出して、特徴量で強化学習する
DeepLearningで特徴量抽出 Qlearningで強化学習
sarsa(λ)モデルは特徴量による強化学習(DQNの後半)
(例)特徴量:重回帰では変数のこと 学習:重みの最適化
特徴量による強化学習モデルの汎用性を示す
問題に関わらずゴールと特徴量と行動の定義だけで、最
適な行動を学習させることができる
ScienceAndTechnology
強化学習とは
状況(s)で複数の行動(a)毎に報酬(r)があり、戦略(π)で行動を選択する
行動(a)の選択は現在の状況(s)のみで決定される(マルコフ決定過程)
状況(s)で将来の報酬(r)の合計が最大と予測する行動(a)を選択する
戦略(π)によって異なる行動(a)採る(強気、弱気、経験的、冒険的等)
  強化学習は次の行動を決めるため、
将来の報酬の合計である
価値関数V(s’) の算出が目的 
ScienceAndTechnology 脳と強化学習の類似 
大脳
パターン認識
画像
小脳
行動伝達
大脳基底核
強化学習
報酬:ドーパミン
目
大脳基底核の脳波と
強化学習の価値関数の
プロット図が同形を示す
銅谷賢治
ScienceAndTechnology
価値関数V の算出方法
将来の状況と行動の分岐を繰返し展開して末端から
BackUpして関数を算出する(rollout)
将来価値にγ:減少率があるので無限に展開しなくて
良い(n期先まで展開)。
動的計画法 (遷移を定常になるまで繰返し)
モンテカルロ法 (ランダムに経路を辿り出現確率で計算)
TD(λ)法 (V関数の重みをTD誤差で計算)
Sarsa(λ)法 (V関数の重みをSDGで計算)
ニューロ法 (V関数をニューロで汎用化)
DQN (DeepLearningで特徴量を抽出して計算)
ScienceAndTechnology 特徴量で価値関数を近似
価値関数Vを線形関数で近似 (Sarsaλ法)
Vθ(S)=θ1*特徴量1(S)+・・+θn*特徴量n(S)
特徴量1(S)~特徴量n(S)は状況Sを表現する
  例)碁:盤の局面 特徴量は石の配置
行動の選択子がa1~amで、その結果の状態S1
~Sm の時、Vθ(S1)~Vθ(Sm)の最大となる行動
を選択する。(戦略πによっては常に採らない)
重みΘは行動を多数回繰返す度、その結果より
更新され改善される。 
実現報酬Zと近似Vθとの差で更新
ScienceAndTechnology 特徴量による価値関数近似
sarsa(λ) プログラム 
C言語で90行で実現
方策πで行動選択
状況を更新
重みを更新
実際の報酬との差
重み改善幅
ScienceAndTechnology
強化学習の汎用化
問題毎に特徴量のみ設定する
局面毎に報酬を設定しなくてよい
目標や障害との位置によって適切な報酬を決めるのは困難 
下記のみ設定すれば汎用的に解ける
①行動の設定
②特徴量の設定
③行動後の特徴量の変化
④初期条件
⑤終了条件
ScienceAndTechnology (例1)馬力不足の車の登り学習
馬力不足の車があり坂を登れない。後退、前進を繰返
して下降時の加速度を利用して坂登りを学習します
汎用プラットホームに設定する値
① 行動 前進 後進 自由降下
③ 行動後の特徴量 前進:P=P+V 後進:P=P-V V=C1-sin(P*C2)
④ 初期条件 出発点
② 特徴量 位置P 速度V
⑤ 終了条件 終点に達する
ScienceAndTechnology (例1)馬力不足の車の登り学習
最初は4000回で達するが最後は3回の操作で登る
ScienceAndTechnology (例2)壁の障害を避ける学習
汎用プラットホームに設定する値
① 行動 ㊧ ㊨ ㊤ ㊦
③ 行動後の特徴量 ㊧x +=1 ㊨x-=1 ㊤y+=1 ㊦y-=1 但し壁は通れない
④ 初期条件 左下隅
② 特徴量 横座標X 縦座標Y
⑤ 終了条件 右上隅に到着
ScienceAndTechnology (例2)壁の障害を避ける学習
最初は7000回かかるが最後は60回で出口に達する
ScienceAndTechnology まとめ
強化学習sarsa(λ)の特徴量近似モデルは全く別の
問題を特徴量の指定のみによって汎用的に解ける
ことを示した
逆に適切な特徴量の指定が大事
DQN=DeepLearning(特徴量抽出)+強化学習
ゲーム作成ソフトUnityとDQNで強いキャラクターを
作る試みがある
DeepLearningや強化学習ツールは簡単に手に入る
今や理論の問題では無く、どの分野に応用すると面
白いかのデザイナー志向の時代
逆にデザイナーの要求を応えるため理論が進展す
ると考えるべき
皆で面白いモデルを試作し合って1000倍投資額が
違う米国を見返そう
ScienceAndTechnology 参考文献
Mastering the Game of Go with Deep Neural Network and Tree Seach
DeepMind
Playing Atari with Deep Reinforcement Learning DeepMind
Reinforcement Learning Sutton
心の分子機構への計算理論的アプローチ 銅谷 賢治
Probablistic Robtics Thurn
Maximum Entropy Deep Inverse Reinforcement Learning ICPR2014
Inverse Reinforcement Learning with Locally Consistent Reward Functions 
NIPS2015

More Related Content

Similar to 強化学習の汎用化Ai

企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキル企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキルRakuten Group, Inc.
 
信頼できるAIシステム開発の勘どころ ~AI開発方法論×AI品質保証~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
信頼できるAIシステム開発の勘どころ ~AI開発方法論×AI品質保証~(NTTデータ テクノロジーカンファレンス 2020 発表資料)信頼できるAIシステム開発の勘どころ ~AI開発方法論×AI品質保証~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
信頼できるAIシステム開発の勘どころ ~AI開発方法論×AI品質保証~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
データアナリティクスの新たな一歩とそれを支えるインフラ
データアナリティクスの新たな一歩とそれを支えるインフラデータアナリティクスの新たな一歩とそれを支えるインフラ
データアナリティクスの新たな一歩とそれを支えるインフラGoogle Cloud Platform - Japan
 
パネルディスカッション: Bigdata の利用と産業連関分析
パネルディスカッション: Bigdata の利用と産業連関分析パネルディスカッション: Bigdata の利用と産業連関分析
パネルディスカッション: Bigdata の利用と産業連関分析scirexcenter
 
エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習Preferred Networks
 
機械学習 温故知新(第47回 Machine Learning 15minutes! Broadcast)
機械学習 温故知新(第47回 Machine Learning 15minutes! Broadcast)機械学習 温故知新(第47回 Machine Learning 15minutes! Broadcast)
機械学習 温故知新(第47回 Machine Learning 15minutes! Broadcast)Tetsuroh Watanabe
 
米国修士課程ベストセラーに学ぶ体系的ソフトウェアエンジニアリングの必要性  ~DX, AI, MaaS, …に惑わされない実践的エンジニアリングアプローチ~
米国修士課程ベストセラーに学ぶ体系的ソフトウェアエンジニアリングの必要性  ~DX, AI, MaaS, …に惑わされない実践的エンジニアリングアプローチ~米国修士課程ベストセラーに学ぶ体系的ソフトウェアエンジニアリングの必要性  ~DX, AI, MaaS, …に惑わされない実践的エンジニアリングアプローチ~
米国修士課程ベストセラーに学ぶ体系的ソフトウェアエンジニアリングの必要性  ~DX, AI, MaaS, …に惑わされない実践的エンジニアリングアプローチ~Akira Ikeda
 
失敗しないためのデータ活用の勘所
失敗しないためのデータ活用の勘所失敗しないためのデータ活用の勘所
失敗しないためのデータ活用の勘所Kazuya Mori
 
Smartcity project
Smartcity projectSmartcity project
Smartcity projecte-solutions
 
kintone Cafe Japan 2016: kintone x 機械学習で実現する簡単名刺管理
kintone Cafe Japan 2016: kintone x 機械学習で実現する簡単名刺管理kintone Cafe Japan 2016: kintone x 機械学習で実現する簡単名刺管理
kintone Cafe Japan 2016: kintone x 機械学習で実現する簡単名刺管理Takahiro Kubo
 
第4次産業革命 AIでビジネスの現場が変わる
第4次産業革命 AIでビジネスの現場が変わる第4次産業革命 AIでビジネスの現場が変わる
第4次産業革命 AIでビジネスの現場が変わるDIVE INTO CODE Corp.
 
【日商USA】webinar 2022.10.27 スタートアップの祭典 DISRUPT 2022 フィードバックセミナー
【日商USA】webinar 2022.10.27 スタートアップの祭典 DISRUPT 2022 フィードバックセミナー【日商USA】webinar 2022.10.27 スタートアップの祭典 DISRUPT 2022 フィードバックセミナー
【日商USA】webinar 2022.10.27 スタートアップの祭典 DISRUPT 2022 フィードバックセミナーNISSHO USA
 
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史Leading Edge Co.,Ltd.
 
「IoTビジネスの嘘とホント~必要な検討事項と技術検証~」Developer Summit kansai 20160915
「IoTビジネスの嘘とホント~必要な検討事項と技術検証~」Developer Summit kansai 20160915「IoTビジネスの嘘とホント~必要な検討事項と技術検証~」Developer Summit kansai 20160915
「IoTビジネスの嘘とホント~必要な検討事項と技術検証~」Developer Summit kansai 20160915知礼 八子
 
機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30)
機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30)機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30)
機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30)Nobukazu Yoshioka
 
科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想
科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想
科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想scirexcenter
 

Similar to 強化学習の汎用化Ai (20)

企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキル企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキル
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
20181030 fun
20181030 fun20181030 fun
20181030 fun
 
信頼できるAIシステム開発の勘どころ ~AI開発方法論×AI品質保証~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
信頼できるAIシステム開発の勘どころ ~AI開発方法論×AI品質保証~(NTTデータ テクノロジーカンファレンス 2020 発表資料)信頼できるAIシステム開発の勘どころ ~AI開発方法論×AI品質保証~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
信頼できるAIシステム開発の勘どころ ~AI開発方法論×AI品質保証~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
データアナリティクスの新たな一歩とそれを支えるインフラ
データアナリティクスの新たな一歩とそれを支えるインフラデータアナリティクスの新たな一歩とそれを支えるインフラ
データアナリティクスの新たな一歩とそれを支えるインフラ
 
パネルディスカッション: Bigdata の利用と産業連関分析
パネルディスカッション: Bigdata の利用と産業連関分析パネルディスカッション: Bigdata の利用と産業連関分析
パネルディスカッション: Bigdata の利用と産業連関分析
 
ゼロから学ぶAI
ゼロから学ぶAIゼロから学ぶAI
ゼロから学ぶAI
 
エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習
 
機械学習 温故知新(第47回 Machine Learning 15minutes! Broadcast)
機械学習 温故知新(第47回 Machine Learning 15minutes! Broadcast)機械学習 温故知新(第47回 Machine Learning 15minutes! Broadcast)
機械学習 温故知新(第47回 Machine Learning 15minutes! Broadcast)
 
ET-IoT2021-SEPA9thJa
ET-IoT2021-SEPA9thJaET-IoT2021-SEPA9thJa
ET-IoT2021-SEPA9thJa
 
米国修士課程ベストセラーに学ぶ体系的ソフトウェアエンジニアリングの必要性  ~DX, AI, MaaS, …に惑わされない実践的エンジニアリングアプローチ~
米国修士課程ベストセラーに学ぶ体系的ソフトウェアエンジニアリングの必要性  ~DX, AI, MaaS, …に惑わされない実践的エンジニアリングアプローチ~米国修士課程ベストセラーに学ぶ体系的ソフトウェアエンジニアリングの必要性  ~DX, AI, MaaS, …に惑わされない実践的エンジニアリングアプローチ~
米国修士課程ベストセラーに学ぶ体系的ソフトウェアエンジニアリングの必要性  ~DX, AI, MaaS, …に惑わされない実践的エンジニアリングアプローチ~
 
失敗しないためのデータ活用の勘所
失敗しないためのデータ活用の勘所失敗しないためのデータ活用の勘所
失敗しないためのデータ活用の勘所
 
Smartcity project
Smartcity projectSmartcity project
Smartcity project
 
kintone Cafe Japan 2016: kintone x 機械学習で実現する簡単名刺管理
kintone Cafe Japan 2016: kintone x 機械学習で実現する簡単名刺管理kintone Cafe Japan 2016: kintone x 機械学習で実現する簡単名刺管理
kintone Cafe Japan 2016: kintone x 機械学習で実現する簡単名刺管理
 
第4次産業革命 AIでビジネスの現場が変わる
第4次産業革命 AIでビジネスの現場が変わる第4次産業革命 AIでビジネスの現場が変わる
第4次産業革命 AIでビジネスの現場が変わる
 
【日商USA】webinar 2022.10.27 スタートアップの祭典 DISRUPT 2022 フィードバックセミナー
【日商USA】webinar 2022.10.27 スタートアップの祭典 DISRUPT 2022 フィードバックセミナー【日商USA】webinar 2022.10.27 スタートアップの祭典 DISRUPT 2022 フィードバックセミナー
【日商USA】webinar 2022.10.27 スタートアップの祭典 DISRUPT 2022 フィードバックセミナー
 
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
 
「IoTビジネスの嘘とホント~必要な検討事項と技術検証~」Developer Summit kansai 20160915
「IoTビジネスの嘘とホント~必要な検討事項と技術検証~」Developer Summit kansai 20160915「IoTビジネスの嘘とホント~必要な検討事項と技術検証~」Developer Summit kansai 20160915
「IoTビジネスの嘘とホント~必要な検討事項と技術検証~」Developer Summit kansai 20160915
 
機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30)
機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30)機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30)
機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30)
 
科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想
科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想
科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想
 

More from Masato Nakai

Padoc_presen4R.pdf
Padoc_presen4R.pdfPadoc_presen4R.pdf
Padoc_presen4R.pdfMasato Nakai
 
Factor analysis for ml by padoc 6 r
Factor analysis for ml by padoc 6 rFactor analysis for ml by padoc 6 r
Factor analysis for ml by padoc 6 rMasato Nakai
 
報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習Masato Nakai
 
Padocview anonimous2
Padocview anonimous2Padocview anonimous2
Padocview anonimous2Masato Nakai
 
presentation for padoc
presentation for padocpresentation for padoc
presentation for padocMasato Nakai
 
Ai neuro science_pdf
Ai neuro science_pdfAi neuro science_pdf
Ai neuro science_pdfMasato Nakai
 
Deep IRL by C language
Deep IRL by C languageDeep IRL by C language
Deep IRL by C languageMasato Nakai
 
Open pose時系列解析7
Open pose時系列解析7Open pose時系列解析7
Open pose時系列解析7Masato Nakai
 
Deep genenergyprobdoc
Deep genenergyprobdocDeep genenergyprobdoc
Deep genenergyprobdocMasato Nakai
 
粒子フィルターによる自動運転
粒子フィルターによる自動運転粒子フィルターによる自動運転
粒子フィルターによる自動運転Masato Nakai
 
Icpによる原画像推定
Icpによる原画像推定Icpによる原画像推定
Icpによる原画像推定Masato Nakai
 
Siftによる特徴点抽出
Siftによる特徴点抽出Siftによる特徴点抽出
Siftによる特徴点抽出Masato Nakai
 

More from Masato Nakai (20)

Padoc_presen4R.pdf
Padoc_presen4R.pdfPadoc_presen4R.pdf
Padoc_presen4R.pdf
 
Factor analysis for ml by padoc 6 r
Factor analysis for ml by padoc 6 rFactor analysis for ml by padoc 6 r
Factor analysis for ml by padoc 6 r
 
報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習
 
Padocview anonimous2
Padocview anonimous2Padocview anonimous2
Padocview anonimous2
 
presentation for padoc
presentation for padocpresentation for padoc
presentation for padoc
 
Ai neuro science_pdf
Ai neuro science_pdfAi neuro science_pdf
Ai neuro science_pdf
 
Deep IRL by C language
Deep IRL by C languageDeep IRL by C language
Deep IRL by C language
 
Open pose時系列解析7
Open pose時系列解析7Open pose時系列解析7
Open pose時系列解析7
 
Team ai 3
Team ai 3Team ai 3
Team ai 3
 
Semi vae memo (2)
Semi vae memo (2)Semi vae memo (2)
Semi vae memo (2)
 
Open posedoc
Open posedocOpen posedoc
Open posedoc
 
Dr.raios papers
Dr.raios papersDr.raios papers
Dr.raios papers
 
Deep genenergyprobdoc
Deep genenergyprobdocDeep genenergyprobdoc
Deep genenergyprobdoc
 
Irs gan doc
Irs gan docIrs gan doc
Irs gan doc
 
Semi vae memo (1)
Semi vae memo (1)Semi vae memo (1)
Semi vae memo (1)
 
Ai論文サイト
Ai論文サイトAi論文サイト
Ai論文サイト
 
Vae gan nlp
Vae gan nlpVae gan nlp
Vae gan nlp
 
粒子フィルターによる自動運転
粒子フィルターによる自動運転粒子フィルターによる自動運転
粒子フィルターによる自動運転
 
Icpによる原画像推定
Icpによる原画像推定Icpによる原画像推定
Icpによる原画像推定
 
Siftによる特徴点抽出
Siftによる特徴点抽出Siftによる特徴点抽出
Siftによる特徴点抽出
 

強化学習の汎用化Ai