20190216 reinforcement learning_talks_community

強化学習の実業務への応用について
2019-02-16 Math & Coding 強化学習を語ろう！
株式会社スクラムサイン代表取締役北村友和
kitamura@scrumsign.com
Title

北村友和
仕事：株式会社スクラムサイン
機械学習アプリケーションの設計開発
データ分析チームの立ち上げ支援
強化学習と確率プログラミングに関心。積極的に事例を作っています。
趣味:コミュニティ運営(Math & Coding 主催)
講師が教えるのではなく、参加者同士が互いに知識と知恵を持ち寄り
教えあい学ぶ場に楽しさを感じています。
自己紹介

（ゲームの世界でなく）
強化学習を実業務で応用していくために
Today s Main Theme

学習プロセス
探索と利用
試行錯誤しながら学ぶことができるか？
マルコフ決定過程
現時点の情報から次の決定を下すことができるか?
その決定により確率的に次の状態へ遷移するか？
強化学習に向いている問題設定の確認

今回は医療関係のクライアントより事例提供の許可をいただきました。
（本資料のデータはすべてダミーであり実際のデータではありません。）
下記のケースを想定して強化学習で解いてみました。
毎日数百名の患者が来院しスタッフ（看護師）が採血しています。
患者によって採血しやすい人とそうでない人がいること。
スタッフも人によってベテランから新人まで技量に差があります。
一定の割合で、採血に失敗します。
事例：病院の採血

採血の失敗率を下げて患者の満足度を上げたい。
スタッフの技量の向上を図りたい。
解きたい課題

相反する要求を満たす最適な行動選択を強化学習で学ぶことが可能
か？
失敗率を下げる
ベテランスタッフが対応する
技能の向上を図る
自分の技量より少し難しい患者にトライする
失敗率があがる
Goalの設計

スタッフが適切な難易度の患者を担当できること
行動を各スタッフごとにTryかPassかを選択させて待ち行
列の状況およびスタッフの空き状況と自分の力量に応じたTry
とPassを選択できるように学習したい。
(現状はマネージャーが経験と勘で行っているようです。)
Goalの設計

PoC(概念検証)
機械学習が仮にうまく進むと、
新人は自分の力量にあった患者を選別 > 失敗率下がる
ベテランスタッフ難易度が高い患者を選別 > 失敗率上がる
はず！
Goalの設計

患者難易度スタッフ技量
推定問題
確率モデル
患者とスタッフ
マッチング問題
一つのモデルで一度に解くのは難しいので
問題を分割しました
強化学習
推定した値を特徴量や
報酬として利用する
確率モデルと強化学習を合わせて解いていく
モデリングの方針

コミュニティメンバーとのディスカッション
当初は連続時間のMDPを考えてい
た。Rewardは患者の待ち時間を
ペナルティとして与える方式を検
討していたが途中で方針転換。
離散時間の行動として報酬も
技量：skillと患者困難度：
difﬁcultyで表現

実装：モデリング
ネットワーク
DQN(隠れ層 2層（入力次元と同じ full connected relu）出力2次元 linear)
特徴量
患者困難度：連続値(6)
スタッフ技量:連続値(3)
スタッフの空き予定時間:連続値(3)
対応スタッフ:one-hot(3)
行動
try pass 2次元
報酬
成功 : difficulty/skill (0割調整ずみ)
失敗: -skill/difficulty(０割調整ずみ)
待ち時間なしのpass 0
待ち時間ありのpass -skill/difficulty * （待ち時間/2*待ち時間の最大値)
関数近似では、当初ニューラルネットではないものを実装しようとしたがニューラルネットの方が楽に実装できるので
時間の関係でDQNで実装する。

学習の推移ランダムに行動選択

学習の推移 DQNではどうか？

学習の推移 DQN
学習の結果ベテランにPassすることを覚えた。

モデリングの見直し
ネットワーク
DQN(入力１２次元隠れ層 2層（12次元 full connected relu）出力2次元 linear)
loss function: mse ,optimizer: Adam
learning rate = 0.00001
特徴量
患者困難度：連続値(3)
スタッフ技量:連続値(3)
スタッフの空き状況:one-hot(3)
対応スタッフ:one-hot(3)
行動
try passの二択
報酬
成功 +1
失敗-1
待ち時間なしのpass 0
待ち時間ありのpass -0.5
2step後までを考慮した報酬で学習
注）報酬関数と特徴ベクトルを見直したり learning rateを小さくしたりした。

学習の推移 DQN モデルと報酬関数見直し

学習の推移 DQN モデルと報酬関数見直し
自分の実力に応じた患者を選んでTryするようになった。
ここからさらにブラッシュアップしていきます。

強化学習の楽しさ
うまくいかない時、Agentの気持ちを考えたりする。
(報酬によって挙動がごろっとかわる)
強化学習についての論文が日々すごい勢いで発表されている。
報酬関数設計やシュミレータ作成、学習モデルなど考えるこ
とが多くクライアントやチームメンバーとのやりとりなど、
大変だが設計プロセスが楽しい。

難しい概念や技術も、シンプルな例で確認したりメンバーが対話することで本質的な理解
を得られると考えます。本グループは、そのようなことができるようなコミュニティとな
ることを目指して運営しています。興味がある方はぜひご参加ください。
https://math-coding.connpass.com
Math & Codingの紹介

ご静聴ありがとうございました。
Last

20190216 reinforcement learning_talks_community

Recommended

Recommended

More Related Content

Similar to 20190216 reinforcement learning_talks_community

Similar to 20190216 reinforcement learning_talks_community (20)

Recently uploaded

Recently uploaded (7)

20190216 reinforcement learning_talks_community