SlideShare a Scribd company logo
強化学習の実業務への応用について
2019-02-16 Math & Coding 強化学習を語ろう!
株式会社スクラムサイン 代表取締役 北村友和
kitamura@scrumsign.com
Title
北村 友和
仕事:株式会社スクラムサイン 
  機械学習アプリケーションの設計開発
  データ分析チームの立ち上げ支援
  強化学習と確率プログラミングに関心。積極的に事例を作っています。
趣味:コミュニティ運営(Math & Coding 主催)
  講師が教えるのではなく、参加者同士が互いに知識と知恵を持ち寄り
  教えあい学ぶ場に楽しさを感じています。
自己紹介
(ゲームの世界でなく)
強化学習を実業務で応用していくために
Today s Main Theme
学習プロセス
 探索と利用
  試行錯誤しながら学ぶことができるか?
マルコフ決定過程
 現時点の情報から次の決定を下すことができるか?
 その決定により確率的に次の状態へ遷移するか?
強化学習に向いている問題設定の確認
今回は医療関係のクライアントより事例提供の許可をいただきました。
(本資料のデータはすべてダミーであり実際のデータではありません。)
下記のケースを想定して強化学習で解いてみました。
毎日数百名の患者が来院しスタッフ(看護師)が採血しています。
患者によって採血しやすい人とそうでない人がいること。
スタッフも人によってベテランから新人まで技量に差があります。
一定の割合で、採血に失敗します。
事例:病院の採血
採血の失敗率を下げて患者の満足度を上げたい。
スタッフの技量の向上を図りたい。
解きたい課題
相反する要求を満たす最適な行動選択を強化学習で学ぶことが可能
か?
失敗率を下げる
 ベテランスタッフが対応する
技能の向上を図る
 自分の技量より少し難しい患者にトライする
 失敗率があがる
Goalの設計
スタッフが適切な難易度の患者を担当できること
行動を各スタッフごとにTryかPassかを選択させて待ち行
列の状況およびスタッフの空き状況と自分の力量に応じたTry
とPassを選択できるように学習したい。
(現状はマネージャーが経験と勘で行っているようです。)
Goalの設計
PoC(概念検証)
機械学習が仮にうまく進むと、
新人は自分の力量にあった患者を選別 > 失敗率下がる
ベテランスタッフ 難易度が高い患者を選別 > 失敗率上がる
はず!
Goalの設計
患者難易度スタッフ技量
推定問題
確率モデル
患者とスタッフ
マッチング問題
一つのモデルで一度に解くのは難しいので
問題を分割しました
強化学習
推定した値を特徴量や
報酬として利用する
確率モデルと強化学習を合わせて解いていく
モデリングの方針
コミュニティメンバーとのディスカッション
当初は連続時間のMDPを考えてい
た。Rewardは患者の待ち時間を
ペナルティとして与える方式を検
討していたが途中で方針転換。
離散時間の行動として報酬も
技量:skillと患者困難度:
difficultyで表現
実装:モデリング
ネットワーク
 DQN(隠れ層 2層(入力次元と同じ full connected relu) 出力2次元 linear)
特徴量
患者困難度:連続値(6)
スタッフ技量:連続値(3)
スタッフの空き予定時間:連続値(3)
対応スタッフ:one-hot(3)
行動
 try pass 2次元
報酬
成功 : difficulty/skill (0割 調整ずみ)
失敗: -skill/difficulty(0割 調整ずみ)
待ち時間なしのpass 0
待ち時間ありのpass -skill/difficulty * (待ち時間/2*待ち時間の最大値)
関数近似では、当初ニューラルネットではないものを実装しようとしたがニューラルネットの方が楽に実装できるので
時間の関係でDQNで実装する。
学習の推移 ランダムに行動選択
学習の推移 ランダムに行動選択
学習の推移 DQNではどうか?
学習の推移 DQN
学習の結果 ベテランにPassすることを覚えた。
モデリングの見直し
ネットワーク
 DQN(入力12次元 隠れ層 2層(12次元 full connected relu) 出力2次元 linear)
loss function: mse ,optimizer: Adam
 learning rate = 0.00001
特徴量
患者困難度:連続値(3)
スタッフ技量:連続値(3)
スタッフの空き状況:one-hot(3)
対応スタッフ:one-hot(3)
行動
 try passの二択
報酬
成功 +1
失敗-1
待ち時間なしのpass 0
待ち時間ありのpass -0.5
 2step後までを考慮した報酬で学習
注)報酬関数と特徴ベクトルを見直したり learning rateを小さくしたりした。
学習の推移 DQN モデルと報酬関数見直し
学習の推移 DQN モデルと報酬関数見直し
自分の実力に応じた患者を選んでTryするようになった。
ここからさらにブラッシュアップしていきます。
強化学習の楽しさ
うまくいかない時、Agentの気持ちを考えたりする。
(報酬によって挙動がごろっとかわる)
強化学習についての論文が日々すごい勢いで発表されている。
報酬関数設計やシュミレータ作成、学習モデルなど考えるこ
とが多くクライアントやチームメンバーとのやりとりなど、
大変だが設計プロセスが楽しい。




難しい概念や技術も、シンプルな例で確認したりメンバーが対話することで本質的な理解
を得られると考えます。本グループは、そのようなことができるようなコミュニティとな
ることを目指して運営しています。興味がある方はぜひご参加ください。
https://math-coding.connpass.com
Math & Codingの紹介


ご静聴ありがとうございました。
Last

More Related Content

Similar to 20190216 reinforcement learning_talks_community

Hour of-code-2016冬-シンポジウム
Hour of-code-2016冬-シンポジウムHour of-code-2016冬-シンポジウム
Hour of-code-2016冬-シンポジウム
Yuta Tonegawa
 
McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎
McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎
McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎
Hironori Washizaki
 
新人教育は誰れのために
新人教育は誰れのために新人教育は誰れのために
新人教育は誰れのために
Tetsuhiro Yamada
 
Ezostyle WAN2010_02_21
Ezostyle WAN2010_02_21Ezostyle WAN2010_02_21
Ezostyle WAN2010_02_21
networkwan
 
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
ブレークスルーパートナーズ 赤羽雄二
 
くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~
くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~
くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~
Takashi Ushigami
 
無料学習 & Communityのすゝめ
無料学習 & Communityのすゝめ無料学習 & Communityのすゝめ
無料学習 & Communityのすゝめ
Shohei Oda
 
ゲームを用いた疑似体験によるシステムデザインの導入教育
ゲームを用いた疑似体験によるシステムデザインの導入教育ゲームを用いた疑似体験によるシステムデザインの導入教育
ゲームを用いた疑似体験によるシステムデザインの導入教育
情報処理学会 情報システム教育委員会
 
2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?
2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?
2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?
Tsuyoshi Yoshida
 
社会人の学びを促す学びのプロデュース術
社会人の学びを促す学びのプロデュース術社会人の学びを促す学びのプロデュース術
社会人の学びを促す学びのプロデュース術
Masaya Ando
 
作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~
作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~
作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~
Kazuhiro Abe
 
利根川講演@長野塩尻20170120
利根川講演@長野塩尻20170120利根川講演@長野塩尻20170120
利根川講演@長野塩尻20170120
Yuta Tonegawa
 
インターンシップ制度について
インターンシップ制度についてインターンシップ制度について
インターンシップ制度について
Yuichi Morito
 
20130309 web sig_security
20130309 web sig_security20130309 web sig_security
20130309 web sig_security
loftwork
 
強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...
強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...
強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...
WebSig24/7
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
Hiroyuki Masuda
 
小学校プログラミング教育教員向け研修<学校教育での実践>
小学校プログラミング教育教員向け研修<学校教育での実践>小学校プログラミング教育教員向け研修<学校教育での実践>
小学校プログラミング教育教員向け研修<学校教育での実践>
Asakura Megumi
 
就活セミナー 2012 11 10
就活セミナー 2012 11 10就活セミナー 2012 11 10
就活セミナー 2012 11 10Toshiki Ashitani
 
ほめなれワーク
ほめなれワークほめなれワーク
ほめなれワーク
広告制作会社
 
#MSIgnite x Japan Microsoft MVP/RD - Learning story
#MSIgnite x Japan Microsoft MVP/RD - Learning story#MSIgnite x Japan Microsoft MVP/RD - Learning story
#MSIgnite x Japan Microsoft MVP/RD - Learning story
Rie Moriguchi
 

Similar to 20190216 reinforcement learning_talks_community (20)

Hour of-code-2016冬-シンポジウム
Hour of-code-2016冬-シンポジウムHour of-code-2016冬-シンポジウム
Hour of-code-2016冬-シンポジウム
 
McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎
McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎
McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎
 
新人教育は誰れのために
新人教育は誰れのために新人教育は誰れのために
新人教育は誰れのために
 
Ezostyle WAN2010_02_21
Ezostyle WAN2010_02_21Ezostyle WAN2010_02_21
Ezostyle WAN2010_02_21
 
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
 
くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~
くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~
くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~
 
無料学習 & Communityのすゝめ
無料学習 & Communityのすゝめ無料学習 & Communityのすゝめ
無料学習 & Communityのすゝめ
 
ゲームを用いた疑似体験によるシステムデザインの導入教育
ゲームを用いた疑似体験によるシステムデザインの導入教育ゲームを用いた疑似体験によるシステムデザインの導入教育
ゲームを用いた疑似体験によるシステムデザインの導入教育
 
2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?
2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?
2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?
 
社会人の学びを促す学びのプロデュース術
社会人の学びを促す学びのプロデュース術社会人の学びを促す学びのプロデュース術
社会人の学びを促す学びのプロデュース術
 
作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~
作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~
作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~
 
利根川講演@長野塩尻20170120
利根川講演@長野塩尻20170120利根川講演@長野塩尻20170120
利根川講演@長野塩尻20170120
 
インターンシップ制度について
インターンシップ制度についてインターンシップ制度について
インターンシップ制度について
 
20130309 web sig_security
20130309 web sig_security20130309 web sig_security
20130309 web sig_security
 
強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...
強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...
強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
小学校プログラミング教育教員向け研修<学校教育での実践>
小学校プログラミング教育教員向け研修<学校教育での実践>小学校プログラミング教育教員向け研修<学校教育での実践>
小学校プログラミング教育教員向け研修<学校教育での実践>
 
就活セミナー 2012 11 10
就活セミナー 2012 11 10就活セミナー 2012 11 10
就活セミナー 2012 11 10
 
ほめなれワーク
ほめなれワークほめなれワーク
ほめなれワーク
 
#MSIgnite x Japan Microsoft MVP/RD - Learning story
#MSIgnite x Japan Microsoft MVP/RD - Learning story#MSIgnite x Japan Microsoft MVP/RD - Learning story
#MSIgnite x Japan Microsoft MVP/RD - Learning story
 

Recently uploaded

論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMMハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
osamut
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
Osaka University
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
tazaki1
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
嶋 是一 (Yoshikazu SHIMA)
 
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobodyロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
azuma satoshi
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 

Recently uploaded (7)

論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMMハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
 
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobodyロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 

20190216 reinforcement learning_talks_community