Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
mooopan
PDF, PPTX
3,439 views
ChainerRLの紹介
Chainer Meetup #04 発表資料 https://chainer.connpass.com/event/46953/
Software
◦
Read more
0
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 9
2
/ 9
3
/ 9
4
/ 9
5
/ 9
6
/ 9
7
/ 9
8
/ 9
9
/ 9
More Related Content
PPTX
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御
by
Ryosuke Okuta
PDF
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
by
Sotetsu KOYAMADA(小山田創哲)
PDF
Introduction to A3C model
by
WEBFARMER. ltd.
PDF
Continuous control with deep reinforcement learning (DDPG)
by
Taehoon Kim
PDF
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
by
John Liu
PDF
アクターモデルについて
by
Takamasa Mitsuji
PPTX
2017-05-30_deepleaning-and-chainer
by
Keisuke Umezawa
PDF
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
by
徹 上野山
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御
by
Ryosuke Okuta
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
by
Sotetsu KOYAMADA(小山田創哲)
Introduction to A3C model
by
WEBFARMER. ltd.
Continuous control with deep reinforcement learning (DDPG)
by
Taehoon Kim
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
by
John Liu
アクターモデルについて
by
Takamasa Mitsuji
2017-05-30_deepleaning-and-chainer
by
Keisuke Umezawa
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
by
徹 上野山
Similar to ChainerRLの紹介
PPTX
Jupyter NotebookとChainerで楽々Deep Learning
by
Jun-ya Norimatsu
PPTX
Chainerで学ぶdeep learning
by
Retrieva inc.
PPTX
RL4J で始める深層強化学習
by
Yuki Tagami
PDF
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
by
Katsuya Ito
PDF
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
by
Preferred Networks
PDF
日本神経回路学会セミナー「DeepLearningを使ってみよう!」資料
by
Kenta Oono
PPTX
「機械学習とは?」から始める Deep learning実践入門
by
Hideto Masuoka
PDF
Chainerの使い方と自然言語処理への応用
by
Yuya Unno
PPTX
Start Deep Reinforcement Learning with RL4J
by
Yuki Tagami
PPTX
強化学習を可視化する chainerrl-visualizerを動かしてみた
by
mogamin
PDF
Chainerの使い方と自然言語処理への応用
by
Seiya Tokui
PDF
MineRL Competition Tutorial with ChainerRL
by
Preferred Networks
PDF
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
by
Kenta Oono
PDF
Chainer, Cupy入門
by
Yuya Unno
PPTX
20180727 Deep Learningの未来と Chainerの貢献
by
Keisuke Umezawa
PDF
Introduction to Chainer (LL Ring Recursive)
by
Kenta Oono
PDF
深層学習フレームワーク Chainer の開発と今後の展開
by
Seiya Tokui
PDF
20180830 implement dqn_platinum_data_meetup_vol1
by
Keisuke Nakata
PDF
深層学習フレームワークChainerとその進化
by
Yuya Unno
PDF
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
by
de:code 2017
Jupyter NotebookとChainerで楽々Deep Learning
by
Jun-ya Norimatsu
Chainerで学ぶdeep learning
by
Retrieva inc.
RL4J で始める深層強化学習
by
Yuki Tagami
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
by
Katsuya Ito
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
by
Preferred Networks
日本神経回路学会セミナー「DeepLearningを使ってみよう!」資料
by
Kenta Oono
「機械学習とは?」から始める Deep learning実践入門
by
Hideto Masuoka
Chainerの使い方と自然言語処理への応用
by
Yuya Unno
Start Deep Reinforcement Learning with RL4J
by
Yuki Tagami
強化学習を可視化する chainerrl-visualizerを動かしてみた
by
mogamin
Chainerの使い方と自然言語処理への応用
by
Seiya Tokui
MineRL Competition Tutorial with ChainerRL
by
Preferred Networks
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
by
Kenta Oono
Chainer, Cupy入門
by
Yuya Unno
20180727 Deep Learningの未来と Chainerの貢献
by
Keisuke Umezawa
Introduction to Chainer (LL Ring Recursive)
by
Kenta Oono
深層学習フレームワーク Chainer の開発と今後の展開
by
Seiya Tokui
20180830 implement dqn_platinum_data_meetup_vol1
by
Keisuke Nakata
深層学習フレームワークChainerとその進化
by
Yuya Unno
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
by
de:code 2017
More from mooopan
PDF
Model-Based Reinforcement Learning @NIPS2017
by
mooopan
PDF
最近のDQN
by
mooopan
PDF
"Playing Atari with Deep Reinforcement Learning"
by
mooopan
PDF
Trust Region Policy Optimization
by
mooopan
PDF
Safe and Efficient Off-Policy Reinforcement Learning
by
mooopan
PDF
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
by
mooopan
PDF
A3Cという強化学習アルゴリズムで遊んでみた話
by
mooopan
PDF
Clipped Action Policy Gradient
by
mooopan
PDF
Learning Continuous Control Policies by Stochastic Value Gradients
by
mooopan
Model-Based Reinforcement Learning @NIPS2017
by
mooopan
最近のDQN
by
mooopan
"Playing Atari with Deep Reinforcement Learning"
by
mooopan
Trust Region Policy Optimization
by
mooopan
Safe and Efficient Off-Policy Reinforcement Learning
by
mooopan
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
by
mooopan
A3Cという強化学習アルゴリズムで遊んでみた話
by
mooopan
Clipped Action Policy Gradient
by
mooopan
Learning Continuous Control Policies by Stochastic Value Gradients
by
mooopan
ChainerRLの紹介
1.
ChainerRLの紹介 Chainer Meetup #4
2.
自己紹介 - 藤田康博 /
mooopan / muupan - 2015- Preferred Networks - Chainerで強化学習を書いている
3.
ChainerRL - 深層強化学習(deep reinforcement
learning)ライブラリ - 2017/02/20 公開 - GitHub: https://github.com/pfnet/chainerrl - Preferred Research Blog: https://research.preferred.jp/2017/02/chainerrl/ こういうのが学習できる →
4.
実装済みアルゴリズム - Deep Q-Network
(Mnih et al., 2015) - Double DQN (Hasselt et al., 2016) - Normalized Advantage Function (Gu et al., 2016) - (Persistent) Advantage Learning (Bellemare et al., 2016) - Deep Deterministic Policy Gradient (Lillicrap et al., 2016) - SVG(0) (Heese et al., 2015) - Asynchronous Advantage Actor-Critic (Mnih et al., 2016) - Asynchronous N-step Q-learning (Mnih et al., 2016) - Actor-Critic with Experience Replay (Wang et al., 2017) <- NEW! - etc. - いっぱい並べているけど共通部分は多い
5.
ChainerRLによる強化学習の流れ - エージェントが環境とのインタラクションを通じて報酬を最大化する行動を学習する - 環境(environment)を定義する 環境 行動 観測,
報酬
6.
ChainerRLによる強化学習の流れ - モデルを定義する - Q-function:観測
-> 各行動の価値(将来の報酬の和の期待値) - Policy:観測 -> 行動の確率分布 Distribution: Softmax, Mellowmax, Gaussian ActionValue: Discrete, Quadratic
7.
ChainerRLによる強化学習の流れ - エージェントを定義する - インタラクションさせる
8.
おわりに - ChainerRL Quickstart
Guide - Jupyter NotebookでQ-functionを定義してDouble DQNでCart Pole Balancingを学習 https://github.com/pfnet/chainerrl/blob/master/examples/quickstart/quickstart.ipynb - ChainerRLはまだβ版なのでインタフェース等変わる可能性があります - むしろ積極的に改善していきたいのでぜひご意見ください - フィードバックください(欲しい機能・アルゴリズムとかでもOK)
9.
ChainerのTrainer - 今のところ使ってない - 強化学習においてDatasetとは?iterationとは? -
うまい使い方あったら教えてください
Download