8. 8
l グラフデータマイニング界で著名なJure先⽣
の講演(Mining Massive Data Setsの著者)
l SafeGraphというモバイルアプリの位置デー
タを匿名化して集約したデータを元に1時間
単位の⼈々の移動パターンを推定 => 現実の
感染率に⾼精度でフィットするモデルを提案
l 経済(移動)の再開度合いが感染率に与える
影響を分析
l 少数のPOIが多くの感染源となっていることを
特定
l 社会経済状況によって感染率が異なることを
正しく予測
(Pre-conference) Keynote: Jure Leskovec (Stanford University)
Mobility network models of COVID-19 explain inequities and inform reopening
https://www.nature.com/articles/s41586-020-2923-3
9. 9
Enabling the quantum revolution ̶ pioneering advances to achieve quantum computing and
impact at scale
https://www.youtube.com/watch?v=FkH3T7guZ6Y 03:03:00〜
量⼦計算に関する平易で応⽤視点の解説
l Practical quantum advantage
○ the crossover time needs to be not more than a few weeks
○ slow read: 10,000 Gbit/s v.s. 1 Gbit/s => small data, big compute
○ slow operation: peta v.s mega => need superquadratic speedup
l Application
○ ground states energy for certain molecules => carbon fixation
Keynote: Krysta Svore (Microsoft Research)
10. 10
l モビリティ関連
○ 7th WebAndTheCity ‒ Web Intelligence and Resilience in Smart Cities
○ Workshop LocWeb 2021 at The Web Conference 2021
○ Hands-on tutorial Flatland: Multi-Agent Reinforcement Learning on Trains
l グラフマイニング
l 因果推論
l 推薦システム
l ⾃然⾔語処理など
Tutorial & Workshop
12. 12
l ⽬的:オンラインのメンタルヘルスサポートプラット
フォームにおける”empathy”を改善したい
l empathic rewriting: テキストの追加と削除により、
与えられた返答がより共感度が⾼くなるように編集す
る問題
l 会話のコンテキスト、感情の深く理解しつつ、会話の
質を維持する必要がある
l 深層強化学習によるアプローチを提案
Best Paper Award
Towards Facilitating Empathic Conversations in Online Mental Health Support:
A Reinforcement Learning Approach
19. 19
l HTE(Heterogeneity of Treatment Effect)が異なるコホートを識別し、処置割り当てを最適化す
る汎⽤的なフレームワークを提案
l 個々のユーザーに適した処置変数を選択することで、全体としての処置効果を⾼め、マイナーグ
ループの体験を良くしたい(more inclusive)
Overview
34. 34
l ユーザーとプロバイダーの利得を同時に最⼤化する推薦問題を強化学習として定式化
l シミュレーションによる提案⼿法の検証
l Top-K Off-Policy Correction for a REINFORCE Recommender System (Chen et al. 2019)を
ベースにしている(奥村さんのブログ参考:https://medium.com/eureka-engineering/youtube-recommender-algorithm-
survey-341a3aa1fbd6)
Overview
36. l user-state: ユーザーのトピックの好みなど
l provider-state: プロバイダーの将来のコンテンツ⽣成の好み、プラットフォームの満⾜度など
l action space: 提供可能なコンテンツ
l reward / utility:
36
RL Formulation
納得感のある報酬を設計できるかはアプリケーションに⼤きく依存しそう
47. 47
Ride-hailing driver modeling
○ Effective modeling of road network graph structures
○ Interactions of large number of agents (hundreds~)
○ Robustness to changes in environmental dynamics and data noise
Overview
Our Goal
Imitating passenger-seeking behaviors of multiple taxis in a road network
with unknown dynamics
49. 49
l Model each road as an independent queue
l Estimate 𝜆𝑠 and 𝜎𝑠 by the maximum likelihood estimation
Pickup Probability Modeling
𝜇): service rate
(=traffic flow)
𝜆): customer arrival rate
𝜎): dropout rate
50. 50
l An agent policy depends on other agents only through expected visitation count, i.e. traffic
flow
l The multi-agent policy learning problem can be formulated as:
Multi-agent RL Objective
Reward function (we aim to learn)
Entropy Regularization
Flow
58. 58
l Area:
○ The most densely populated area in Yokohama,
Japan
l Trajectory:
○ (driver id, trip id, latitude, longitude, timestamp) of
empty vehicles
○ Linked to the road network by map-matching
l Road network:
○ 10765 nodes and 18649 edges
Experimental Data
59. 59
l Divided into 3 groups:
○ Train: 2019-07-01 ~ 2019-09-23 (12 weeks)
○ 19Dec: 2019-12-12 ~ 2020-02-06 (8 weeks
including winter holiday seasons)
○ 20Apr: 2020-04-01 ~ 2020-04-29 (4 weeks
during the most severe taxi demand decline
due to COVID-19)
l Treated each 30-minute period as a different
context (weekdays 7am-10pm)
Experimental Data
60. 60
l Baselines
○ Opt: Shortest time policy to pick-up (flow-independent)
○ SE-Opt: Shortest time policy to pick-up (equilibrium)
○ Tr-Expert: Expert policy estimated from the simple statistics of the training dataset
l Procedure
1. (SEIRL only) Learn the cost function from training dataset
2. Estimate the equilibrium policy for each context (every 30 minutes between 7:00 and 22:00) in
each dataset (19Dec, 20Apr)
3. Compute the equilibrium visitation count (flow) by repeating the policy propagation
4. Compare estimated flows with expert flow by Mismatch Distance Ratio.
Evaluation