Reinforcement Learning Inside Business

Copyright © TIS Inc. All rights reserved.
Reinforcement Learning Inside Business
戦略技術センター
久保隆宏
強化学習のビジネス適用に挑戦する現場より

Copyright © TIS Inc. All rights reserved. 2
◼ はじめに
◼ 強化学習活用の現場より
◼ モビリティ
◼ ゲーム
◼ 広告配信
◼ おわりに
Reinforcement Learning inside Business

久保隆宏
TIS株式会社戦略技術センター
◼ 化学系メーカーの業務コンサルタント出身。
◼ 既存の技術では業務改善を行える範囲に限界があるとの実感から、戦
略技術センターへ異動。
◼ 現在は会計/投資分野をテーマとし、主にESG評価への活用をテーマに
研究中。
自己紹介
チュートリアル講演：深層学習
の判断根拠を理解するための研
究とその意義(@PRMU 2017)
機械学習をシステムに組み込む
際の依存性管理について
(@MANABIYA 2018)
あるべきESG投資の評価に向け
た、自然言語処理の活用
(@CCSE 2019)

「強化学習はビジネスで使えるのか？」
この問いは、強化学習を学んでいたら一度は考えたことがあると思います。
事例自体はいくつも公開されています。
ただ、本当に使っているのか研究だけなのかは曖昧です。
そこで、「使っている」企業の方へヒアリングをしてきました。
ビジネスで使う際の効果や課題、そして思いなど、生の声をお届けできた
ら幸いです。
はじめに

◼ 強化学習を採用した背景
◼ (採用時)強化学習に期待していた効果と、実際の差異
◼ 強化学習を扱う際の難しさ
◼ 現在着目している手法・事例
◼ 今後、強化学習が克服すべきと考えている課題
ヒアリング対象企業
◼ D社様: モビリティ/ゲーム開発
◼ A社様: 広告配信/ゲーム開発
◼ G社様: ゲーム開発
◼ P社様: モビリティ
参考: ヒアリング項目
ご協力ありがとうございます！

強化学習活用の現場より

モビリティ
Mobility
photo by Warrick Wynne

◼ モビリティ(交通)は、強化学習の活用が進んでいる領域の一つ。
◼ KDD2018では、モビリティの将来として3階層が提示されている。
Background (1/3)
KDD2018 Artificial Intelligence in Transportation より
◼ 「交通インフラ」の上に「乗り物」が走り、さらに乗り物を利用した
「サービス」が展開されるというイメージ。
◼ 配車最適化以外に、信号機制御などの事例も紹介されている。
◼ 今回は「運行経路の最適化」「配送経路の最適化」についてお話を
伺ってきました。

◼ 運行経路の最適化
◼ タクシードライバーに運行経路の提案を行う。
◼ 「流し」と「配車」の違い。
◼ 流し: お客さんを見つけたらピックアップする。
◼ 配車: お客さんに呼び出されていく。
◼ 「流し」の場合、事前に誰がどこまで行きたいか把握できない。
◼ 「運行経路の最適化」は、「流し」のサポートを行う。
◼ どの辺を走っていればピックアップできそうか？を提案する。
◼ 海外の機械学習勢は配車が多い(Uber/DiDiなど)。
Background (2/3)
流し配車
※画像はイメージです

◼ 配送経路の最適化
◼ 大型物流拠点以後の配送(ラストテンマイルぐらい)の最適化。
◼ 中小の物流業者が担っており、人手で輸送経路を考えている。
◼ 1回2時間ぐらいの配送を4回/日。そのたびに経路を考える・・・
Background (3/3)
「キングダム」より

◼ Value Function
◼ 場所をStateとし、遷移先の状態価値から行き先を提案する。
◼ エピソード長はチューニングを行っている。
◼ 逆強化学習
◼ タクシー運転手の軌跡から、報酬関数を逆算する。
◼ 逆強化学習
◼ ベテランドライバーの軌跡から、報酬関数を逆算する。
Application

◼ Value Function
◼ 既存の最適化手法でも解けるかも(事前に比較したわけではない)。
◼ ただ個別の流しや配車よりトータル(=長期)で見てどうかを評価したい。
◼ この点がプラットフォーム全体での最適化(=収益最大化)に繋がる。
◼ 逆強化学習
◼ 人間の実際の行動から報酬関数を推定するために使用した。
◼ 「流し」には独特のノウハウがあり、逐一報酬にするのは難しい。
◼ お客さんは常に左で拾うため右折をあんまりしない、など。
◼ ただすべては信用できないため、学習データにフィルタを掛けて
いる。
Why RL? (1/3)

◼ 配送経路最適化
◼ 逆強化学習 (Maximum Entropy Deep IRL)
◼ 人間の実際の行動から報酬関数を推定するために使用した。
◼ メタヒューリスティックで解いたが、最短経路優先になる。
◼ ドライバーならではの評価(幹線道路通らないetc)を加味したかった。
Why RL? (2/3)

補足:
数理最適化については"数理最適化とメタヒューリスティクス"が良い資料。
◼ 数理最適化
◼ 問題について厳密な数理解を求める。
◼ 厳密な解を求めるのが可能だが、規模が大きくなると適用困難。
◼ メタヒューリスティック
◼ 定義がややこしいが(参考)、機械学習はこの中に含まれる。
◼ ヒューリスティック(最適解保証なし)＋近似解への収束保証がある手法。
◼ パラメーターを変えることで様々な問題を解ける汎用的(メタ)な解法。
◼ なんかかはやりの手法(「モダン」ヒューリスティックともいわれる)
問題の規模が数理最適化で解けるか、解ける単位に分割可能かが分岐点。
既存のソルバーが提供されている場合もあるため、自作しなくても適用/
組み合わせで様々な問題を解くことができる。
Why RL? (3/3)

◼ 戦略の良さを評価できない
◼ 自分自身がタクシードライバーではないので・・・
◼ 実際使う人と納得感を得ていくプロセスが必要になる。
◼ メタ的な方策を学ばせるのが難しい
◼ この地域はお客がいなくなったので、別の地域へ行こう、など。
◼ 「別の地域へ行く」には、短期的に報酬が下がることになる。
◼ ただ、別の地域へ行けば留まるより報酬は得られるかもしれない。
◼ こうした大局的な判断を学習させるのが難しい。
Difficulty of RL (1/2)

◼ 思ったよりドライバーの経路を再現できなかった。
◼ 最終的には逆強化学習でない手法(パーティクルフィルタ)を使用。
◼ 十分な学習にはそれなりのデータ量が必要
◼ 10万件程度必要だが、実際に取れるのは数千件。
◼ 過学習しやすい(未知の配送経路に対応できない)。

◼ 「流し」を扱う難しさ。
◼ 「流し」の場合、潜在需要を予測する必要がある。
◼ 需要予測のモデルとValue Functionを組み合わせられたらいい。
◼ 「配車」の方がビジネス的にもアルゴリズム的にも予測しやすい。
◼ ただ、「配車」を行うにはアプリがまず普及する必要がある。
◼ DiDiの事例は注目しているが、 DiDiは「配車」。
Focus & Future (1/3)

◼ 少量データによる逆強化学習。
◼ エキスパートのデータが十分に取れないことがある。
◼ 報酬の優先順位を加味できる手法。
◼ 時間、安全性、コスト、ドライバーによって優先度が若干異なる。
◼ 学習済み逆強化学習モデルの汎化/転移。
◼ ある地域で学習したモデルを他の地域でも使用するなど。

◼ 強化学習活用プロジェクトの特性
◼ 不確実性がとても高い。
◼ 小さな事例をどんどん出して経験を蓄積する必要がある。
◼ サンプル効率の悪さはかなりネックになっている。
◼ シミュレーターの作成が難しい。

ゲーム
Game
photo from Hubert Figuière

◼ ゲームは強化学習の十八番と言える。
◼ ただ、人間をメタクソに負かしても「活用」とはいえない。
◼ ゲームへの適用は以下3つのパターンに分けられる。
◼ テストプレイ
◼ ゲーム作成の支援
◼ ゲーム内キャラクター操作
Background (1/2)
テストプレイ(手法は教師あり)
Human-Like Playtesting with
Deep Learning
レベルに応じたマップ生成
Human-Like Playtesting with Deep
Learning
NPC操作(現在の主目的は品質管理)
AIエージェントに「バトルフィールド
1」のプレイを教えるには？

◼ 今回は「テストプレイ」についてお話を伺ってきました。
◼ テストプレイは事例としても多いです。
Background (2/2)

◼ Value Function
◼ シンプルなゲームなら、素のDeep Q-Networkでもプレイ可能。
◼ 「テストプレイ」としての効果はまだ検証段階。
◼ 「テスト」という意味なら、全探索プレイの方が良いケースも。
◼ (バリエーションを試せる進化戦略の方が用いられている印象あり)。
◼ 新要素(新キャラクター)を加えた場合の影響調査に使いたい。
◼ Policy系は学習が安定しないことが多い。
Application

◼ 強化学習 vs 模倣学習/教師あり学習
◼ プレイログを使用した模倣学習/教師あり学習はどこも行っている。
◼ 逆強化学習による報酬の見える化なども行われている。
Why RL?

◼ シミュレーターの開発
◼ ゲームの状態取得、行動実行をAPI経由で行える必要がある。
◼ 元々APIを備えていることは少ないため、環境整備から始まる。
◼ iOSのゲームなので実行にMacが必要など(Mac=エミュレーター)。
◼ プレイ速度が実時間
◼ 人間が実際にプレイするのと同じ時間がかかる。
◼ サンプル効率を考えると・・・？
from: Writing Code for NLP Research

◼ ゲーム特性と強化学習が想定する前提の差異
◼ 例: 麻雀
◼ 自分の戦略と関係のない要素で報酬が決まる(相手のツモ上がり等)。
◼ 最後の一手以外に落ち度がない(振り込み)。
◼ 戦略のスイッチ(上がるか、降りるか)。
◼ 不完全情報の場合、既存の最適化保証が維持されるか?という問題も。
Microsoftがオンライン麻雀対戦プラットフォーム「天
鳳」で10段に到達:
手法は未発表だが、どんな手法を使っているのか注目

◼ シミュレーターレスな学習方法
◼ オフラインでの学習方法の模索。
◼ プレイログを使用したモデルベース手法。
◼ ゲーム制作支援に向けた人との協調
◼ コンテンツ更新は頻繁で、制作支援の必要性は高い。
◼ ただ職人肌の人が多く、支援を欲しがらないケースもある。
◼ AIに任せず自分でやる、など。
◼ 強化学習で安定的な結果を出すことに成功していない背景もある。
◼ (AIこんなもんか?的な)
◼ ベストプラクティスの模索
◼ 強化学習で「こう効果が出せる」という勝ちパターンがまだない。
◼ これは強化学習に限らず、機械学習全般にいえる。
Focus & Future

広告配信
Advertisement
photo from 1950sUnlimited

◼ 広告配信の基本的な仕組み。
Background (1/4)
メディア運営者
メディアの出品
(売り先/価格を指定)
SSP
(Supply Side Platform)
DSP
(Demand Side Platform)
広告の出品
(広告表示先、価格)
企業(広告主)
RTB
(Real Time Bidding)
メディア運営者の条件に合う広告のうち、
最も高い購入価格が高い広告が(メディアの広告枠に)配信される
=広告枠のオークション
訪問ユーザーの属性購入価格の提示

Background (2/4)
広告を呼び出すJavaScript
広告を呼び出す
JavaScript
メディア運営者: Slideshare

Background (3/4)
メディア運営者
(SlideShare)
SSP
(Supply Side Platform)
①出品
機械学習のスライドを見ている
30代男性
RTB
(Real Time Bidding)
DSP
(Demand Side Platform)
企業(広告主)
(LinkedIn, BizReach等)
②入札
¥100で枠を買う by 企業A
¥150で枠を買う by 企業B
¥90で枠を買う by 企業C
③企業Bが落札！
※落札額は2番目の入札者の金額(この場合¥100)とされることが多い。
④企業Bの広告が配信される

◼ DSPで強化学習が使われている。
◼ 状態=どのメディア枠に
◼ 行動=どの広告を出せば
◼ 報酬=クリックされるか
◼ いくらで出すべきか?など他にも考えることはいろいろある。
◼ 詳細:ネット広告講義資料 at 東京大学 2017/07/11
今回は広告配信についてお話を伺ってきました。
Background (4/4)

◼ Bandit Algorithm
◼ 2011年ごろThompson Samplingを利用した事例が出て普及した。
◼ An Empirical Evaluation of Thompson Sampling
◼ 大幅なアルゴリズムの改善はそこからあまりない？
◼ 因果推論
◼ アルゴリズムの性能評価に利用している。
◼ 比較対象のユーザー属性が同じならどの手法が有効か?を検証する。
◼ A/Bテストと同じ考え方で、 Rubin派の手法を用いている。
◼ 非ランダムな状況でも、ランダムな状況と同じ結果を得たい。
◼ 余談だが、因果推論にはRubin派とPearl派などいろいろな流派がある。
◼ Rubin派は帰納的(データの分析/解析重視)、Pearl派は演繹的(因果
の関係/DAG重視)という印象だが、この点は突っ込むと火種にな
るため興味がある方はTheories of causation in psychological
scienceを参照されたし(日本語解説記事)。
Application

◼ 強化学習 vs 教師あり学習
◼ 過去のログから学習する場合、双方にほとんど差はない。
◼ ただ、教師ありの方が汎化性能が低い。
Why RL?

◼ 広告配信の速度
◼ ミリセカンドの単位で取引されるため、計算時間がとてもシビア。
◼ ユーザー属性を利用したContexual Banditも使いたいが、属性をベク
トル化している暇がない。
◼ そのため、ベクトル化せずに直で扱う手法を検討している。
◼ モデルの更新はバッチで行っている。
◼ 速すぎてリアルタイムにはデプロイできない。
◼ いきなり全適用はせず、徐々に適用率を上げていく。
「呪術廻戦」

◼ Policy単体の評価が難しい
◼ ε-greedyのεの調整で大きく差が出る。
◼ オフラインでの評価≠本番での評価
◼ ログデータが本番の分布とどれだけ近いか。
◼ 実際得られるデータは、広告枠を競り落とせたものに限られる。
◼ 「全部出せたら」を推定するには補正が必要。
◼ 補正は手元のデータに基づいて行うため、過学習を招く可能性がある。

◼ 転移学習/AutoMLへの期待
◼ 多様な広告に対し、多様なモデルを構築してカバーする。
◼ 過学習が問題なくなる頻度でモデルを更新する。
◼ 過去データとの乖離が大きくなるころにはモデルを更新する。
Focus & Future

手法としては、逆強化学習が多く使われている印象。
◼ 人間の行動を分析したい。
◼ 人間の行動を反映したい。
こうしたニーズは多いと考えられる。逆強化学習で推定した報酬関数を、
数理計画のソルバーで使うという合わせ技もある。
ただ、逆強化学習はまだ研究が盛んとは言えない領域。
GAIL以降は模倣学習とセットで語られることが多く、単体での研究をあまり見ない印象。
実務での問題点が、まだ研究トピックとして認知されてない？
おわりに (1/4)

活用の課題は、シミュレーターと評価にあり？
◼ シミュレーター
◼ 既存環境(ゲームや配車)に、強化学習が介入できる口(API)が必要。
◼ あらかじめ備えられていることは少ないため、その対応がまず必要。
◼ 実プレイより短い時間でプレイできないと時間的に厳しい。
◼ そもそもシミュレーターレスで学習する手法の開発。
おわりに (2/4)

活用の課題は、シミュレーターと評価にあり？
◼ 評価
◼ どんな行動が最適かは、エキスパートでないと判断が難しい。
◼ 比較実験を行うには状態をそろえる必要があるが、コストが高い
◼ 同じ時間、同じ場所から「流し」をスタートするなど。
◼ 因果推論はこの助けになるかもしれない。
◼ 純粋な戦略以外の要素(εなど)も評価に大きな影響がある。
◼ 安定的な評価が出せて、はじめてエキスパートの信頼が得られる。
◼ エキスパートが先か、結果が先かの鶏卵問題。
おわりに (3/4)

"ビジネス適用に挑戦する現場"から見た強化学習の課題
◼ 強化学習が有用なビジネスシーンは確かに存在する。
◼ 長期的な行動の観点から見た状態・個別行動の評価。
◼ 配車や広告だけでなく、他ビジネス領域でも有効なはず。
◼ ゲームやロボットだけが強化学習の用途ではない。
◼ ビジネスで求められる領域と、学術研究の領域が少しずれている?
◼ 学術はWithout Human、現場はWith Humanの印象。
◼ 現場はお手本となる人/ログがある前提。
◼ 逆強化学習/模倣学習、転移性/ロバスト性が注目技術。
◼ 学術はWithout/Exceed Humanの領域拡大に注力している印象。
◼ 2D => 3D => Real
◼ シングルプレイヤーからマルチプレイヤー
◼ 完全情報から不完全情報
◼ 各領域で人間を超えよう
おわりに (4/4)

Reinforcement Learning Inside Business

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Reinforcement Learning Inside Business

Similar to Reinforcement Learning Inside Business (20)

More from Takahiro Kubo

More from Takahiro Kubo (15)

Reinforcement Learning Inside Business