[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Social Influence as Intrinsic Motivation for Multi-Agent
Deep Reinforcement Learning
Toru Fujino, SCSLab

書誌情報
• ”Social Influence as Intrinsic Motivation for Multi-Agent Deep
Reinforcement Learning”
• Deep Mind
• ICML 2019 (Honourable mention for best paper)
• 概要
• Multi-Agentの強化学習において, agent間の行動の影響度合い (causal
influence) を報酬として設定するモデルを提案
• 環境の報酬への依存度が下がるので, 単一のモデルを複数の環境で動か
すことなどが将来的には考えられる. よりgeneral
• 断りがない限り, スライド中の図・画像は著者の論文および発
表資料からの引用

関連リンク
• ICMLでの発表スライド:
https://docs.google.com/presentation/d/1xmynjZpnymt7ALBOax3zL8
JcBrdKlEerqQze9UmsR6o/edit#slide=id.g36d5a1cafb_0_977
• 別のワークショップでの同内容の発表動画:
https://youtu.be/Vx5Daxa0Yts?list=PL8xSEJPW_T357zKeK3i4UYQfMR
MvcaDHR&t=2482 (41:22頃から)
• 学習済みモデルの動画 (著者のYouTubeチャンネル):
https://www.youtube.com/channel/UC86PeCToS5yrXOftBh4ye7A
• 論文中で使われるゲームのgithubレポジトリ:
https://github.com/eugenevinitsky/sequential_social_dilemma_game
s

目次
• 背景
• Sequential Social Dilemma
• モデルI + 実験
• モデルII + 実験
• モデルIII + 実験
• まとめ

強化学習ではagentは環境からの報酬によ
り学習をおこなう
• Breakout: ブロックを崩したら1点
• Pong: 相手の裏にボールを通したら1点
• 当然ながら別のゲームなら別のネットワーク (重み) が必要
• 同一のネットワークで複数の環境で動くとより一般的なモデル
と言える. なので嬉しい
OpenAI Gym: https://gym.openai.com/
Breakout Pong

環境に依存しない報酬とは
• Intrinsic Motivation: 内因的な動機にしたがって学習を進める
• 例) 好奇心: 未知の部分に対する興味
• 報酬が環境にあまり依存しない
• 報酬がスパースになりにくい
強化学習における好奇心: https://speakerdeck.com/learn_learning3/qiang-hua-xue-xi-niokeruhao-qi-xin

他のagentとの相互作用を元に学習する
(Social Learning)
• これも環境に依存しない
• 例)
• 他の人の行動を真似る
• 他の人に大きな影響を与えるような行動を学習する
”Why is social learning important?”: https://lalandlab.st-andrews.ac.uk/why-is-social-learning-important/

Multi-Agent Reinforcement Learning (MARL)
• 一つの環境に複数の自律的なagentが存在
• 単独/協力行動によって全体で高い報酬を獲得することが目的
(のことが多い)
• どうやって協力させるか
• Centralisedな学習scheme
• 全agentを全体の報酬を最大化するように最適化する
• 報酬は高くなるがagent間の報酬が不均衡になってしまう
• 自律的なagentに対しては適用しづらい
• Decentralisedな学習scheme
• 各agentは各々の報酬を最大化するように最適化
• タスクによっては協力を促す必要 (e.g. 囚人のジレンマ, 共有地の悲劇)
• 現実の問題により適用しやすい

協力が必要な状況: 共有地の悲劇
• りんごを獲得する (裏切り) と報酬は得られるが, 一方でりんご
を収穫しすぎると新しいりんごが実ってこない (協力).

Social learningにより協力を創発させる
• 他のagentに影響を与えることにincentiveを与える
• Decentralisedな学習が可能になる
• 具体的には, 自分の行動がどれだけ他のagentの行動に影響を与
えたか
• Counterfactuals (実際には取らなかった行動) を用いた推論に
よって自分の行動の影響度を測る
• 「もし別の行動 (counterfactual) を取っていたら他のagentの行動はどう
なっていただろう？」

他のエージェントとの相互作用を報酬に
組み込む
• 具体的には, 自分の行動がどれだけ他のagentの行動に影響を与
えたか
• Counterfactuals (実際には取らなかった行動) を用いた推論に
よって自分の行動の影響度 (causal influence) を測る
• 「もし別の行動 (counterfactual) を取っていたら他のagentの行動はどう
なっていただろう？」

Counterfactualによるcausal influenceの計算
• 例) Agentがkとjの2人だけの場合
• 𝑠: 時刻tの状態
• 𝑎 𝑘
: 時刻tでkが実際に撮った行動
• 𝑎 𝑘: 時刻tでkが実際には取らなかった行動
• 𝑎 𝑗: 時刻tでjが実際に撮った行動
• 実際の取った行動に条件づけたときの相手の行動 𝑝(𝑎 𝑗
|𝑎 𝑘
, 𝑠)と実際に
は取らなかった行動に条件づけたときの相手の行動 𝑝 𝑎 𝑗 𝑎 𝑘, 𝑠 の差

3つのモデルを提案
• モデルI: Basic Social Influence
• 各agentの方策からcausal influenceを計算
• 多少centralisedなモデル
• モデル II: Influential Communication
• agent間にcommunication channelを設ける
• Decentralisedなモデル
• モデル III: Modeling Other Agentsモデル
• 各agentが他の全agentの行動を予測するモデルをそれぞれ独自に持ち,
各timestepで自分の行動の影響度合い (causal influence) を独自に計算

Sequential Social Dilemmas
• 囚人のジレンマ・共有地の悲劇等でみられる問題に時間軸を追
加したゲーム
• 囚人のジレンマ
• 短期的には裏切り, 長期的には協力が利益につながる
Leibo et al., “Multi-agent Reinforcement Learning in Sequential Social Dilemmas”, AAMAS 2017
Prisoner’s dilemma: https://en.wikipedia.org/wiki/Prisoner%27s_dilemma
AB Cooperate Betray
Cooperate (-1, -1) (-3, 0)
Betray (0, -3) (-2, -2)

Sequential Social Dilemma: Cleanup
• 囚人のジレンマに時間軸を追加
• りんごを収穫する (裏切り) と報酬を得られるが, 一方で土地を
綺麗にしないと新しいりんごは実ってこない (協力).

Sequential Social Dilemma: Harvest
• 共有地の悲劇に時間軸を追加
• りんごを獲得する (裏切り) と報酬は得られるが, 一方でりんご
を収穫しすぎると新しいりんごが実ってこない (協力).

Cooperation is hard
• agentにとってはほぼ常に裏切りが最適な行動
• ただ協力する人数が多くなるに連れて報酬は増えていく

報酬: 環境 + 他のagentへの影響度合い
• 各agentは自身の報酬を最大化する方策を学習
• 報酬関数
• e: 環境からの報酬
• c: 他のagentへの影響の度合い

他のagentの方策からcausal influenceを計
算
• 実際に取った行動a^kに対する他のagentの方策と取らなかった
場合の方策の差を計算
• この計算はcentralisedに行われる
• KL距離以外にもJSD距離等でも実験

実験設定
• Social influence rewardの重みは学習を進めながら大きくしてい
く (カリキュラム学習)
• agentの方策はA3Cで学習
• CNN -> FC -> LSTM
• 影響を受けるだけのagent (Influencee) も同時に学習させる

Social Influenceを考慮することにより全体
での獲得報酬が増加
• Visible actions baseline: 環境からの報酬のみで学習する

Influencer only traverses the map when it is
pursuing an apple
• 紫: Social influence rewardで学習されたagent
• りんごが近くにあるときのみ動く
• りんごがあることのシグナルとなるため, 他のagentの行動に影響を与
える

Box Trapped
• 自由に動けるagent (紫)と罠に
捕まっているagent (水色)
• 紫のagentはりんご (緑) を独占
することができる
• 特別な行動をとることで水色
のagentを罠から開放すること
もできる

Causal influenceで学習させるとうまくい
く
通常のA3C agent Causal influenceで学習させたagent

Causal influenceを考慮したagentは88%の
確率で水色のagentを救出
• 通常のRLエージェント (A3C) では0%
• ゲームの早い段階 (t=2) で救出する場合が多い
• 協力行動の双発
救出したtimestep Social influence reward

モデル II: Influential communication
• エージェントの行動で影響力を計算する代わりに, 離散的なシ
ンボルmを送り合う
• 影響を与え合うメッセージ

communicationをする方策と行動する方策
は別々に学習
• 𝜋 𝑒 (行動の方策): 環境からの報酬を元に学習
• 𝜋 𝑚 (comの方策): 環境 + causal influenceの報酬を元に学習

Communication channelを利用することに
より学習が早くなる
• Comm baseline: 環境からの報酬のみで学習

Speaker consistency
• Speaker consistency in [0, 1): agentの行動が送られたmessageとど
れだけ1対1に対応しているかを測る指標

Communication analysis
• Influencerのmessageとinfluenceeの次stepでの行動の相互情報量

影響を大きく受けるエージェントの報酬
が高くなる
• 影響を大きく受ける ≒ communication channelからのmessageに
行動が大きく依存している

モデル III: Model of Other Agents (MOAs)
• 他のエージェントの行動を予測するネットワーク
• 報酬の計算自体はそのまま
• エージェントが見える範囲にいるときのみ報酬を計算

Agents that are the most influenced achieve
higher individual reward
• MOA baseline: 影響の報酬を計算しないモデル

Centralisedな学習をした場合
• 学習はdecentralisedな場合よりも早く進む
• ただエージェント間の報酬が不均衡になる
Centralisedな学習
Decentralisedな学習

まとめ
• 周りのエージェントへの影響度を考慮したSocial learningにより
Multi-Agent RLにおいて協力行動を実現
• 協力行動により高い報酬を達成
• 同一のモデルで複数の環境での検証をする必要がある
• 環境によらない報酬を設定した目的の一つ
• 環境の報酬にもまだ依存している
• 学習の初期段階では環境からの報酬に依存 (カリキュラム学習)

Speaker consistency
• agentの行動aがmessage mとどれだけ一貫しているか
• [0, 1). 1に近いほど一貫している (特定の行動とメッセージが1対1に対応
している)
• 第一項が大きい (1に近い) ほどmからaが予測しやすい
• 第二項が大きい (1に近い) ほどaからmが予測しやすい

Cheap talk between self-interested agents
doesn’t work
• 行動ではないので, 協力的に機能するとは限らない.
• 自分だけに利するようにメッセージを送ることもできる
• 送られてきたメッセージが役に立たない場合, 受け取ったエー
ジェントがメッセージを無視することも考えられる
• 行動に対する方策pi_eは環境からの報酬で学習するので, メッ
セージmはその報酬に直接つながる情報と考えられる

[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning

Similar to [DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (16)

[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning