第一回 SICE制御部門マルチシンポジウム
電気通信大学 2014/3/6

ベイジアンナッシュ均衡を構成する信念の推定
○金川 雅和	
 奈良先端科学技術大学院大学
	
小木曽 公尚	
電気通信大学
杉本 謙二	
 奈良先端科学技術大学院大学...
もくじ

• はじめに
• ベイジアンゲーム
• 信念の推定法
• 数値例
• おわりに
背景
標準型ゲーム
プレイヤの効用値が確定的に決まる
プレイヤ1

1. 合理的なプレイヤ :二人
:二種類 (a, a)
2. 行動
3. 効用値

プレイヤ2

a

a
a 4
a

5

4	
  
1	
  

1
2

5	
  
...
背景
プレイヤ2
✓
✓

ベイジアンゲーム[2]	
  
プレイヤの効用値が確率的に決まる
合理的なプレイヤ :二人
:二種類 (a, a)
行動
効用値の候補
タイプ
:二種類 (✓, ✓)
信念(タイプ上の確率分布)

プレイヤ1

1....
ベイジアンゲームの問題点
信念を正確に把握することは困難
✓ 繰り返しゲームを行いプレイヤの行動から信念を推定
	
 	
 例:モバイル端末の周波数割当[3],アドホックネットワークの侵入検知[4]

信念の推定の課題
✓ 指定したBN均衡に対...
目的
目的

	
指定したBN均衡に対応する信念の推定
"
"
"

アプローチ
✓ 信念の推定問題を追従制御問題に帰着させて解く
• 信念とBN均衡を状態変数とするモデル(制御対象)
• 指定したBN均衡(目標値)に到達する制御系を構築

6
対象とするベイジアンゲーム:定式化
ベイジアンゲームの構成要素:(N ,
1. プレイヤ i 2 N
a i 2 Ai
2. 行動
ui : A ⇥ ⇥ ! R
3. 効用値
4. タイプ
✓i 2 ⇥ i
5. 信念
µi 2 ⇧(⇥i )
...
対象とするベイジアンゲーム:タイプ
タイプの組     毎に標準型ゲームが存在
✓2⇥

⇥i = ✓, ✓
a

a
a
a

2
1

2	
  
5	
  

5
4

a

1	
  
4	
  

標準型ゲーム

[1] J.Nash...
対象とするベイジアンゲーム:タイプ
タイプの組     毎に標準型ゲームが存在
✓2⇥

⇥i = ✓, ✓
a

a

a

a

a 	
  	
  	
  	
  0	
   	
  	
  	
  	
  2	
  

a 0 	
  ...
対象とするベイジアンゲーム:信念
タイプの組     毎に標準型ゲームが存在
✓2⇥
タイプの組     は信念に従い確定
✓2⇥

µ2 ✓

µ2 (✓)
a

a

⇥i = ✓, ✓
a

a

a

0
1
(✓, ✓)
 
	
  ...
ベイジアンナッシュ均衡
µ2
8
>
>
>
>
>
>
>
>
>
>
>
>
<

1

EUi (si , s i ) :=

X

µi (✓i )µ i (✓ i )

✓2⇥

信念

(

X

a2A

"
""
0

8
>
...
ベイジアンナッシュ均衡の特徴
ベイジアンナッシュ均衡
"
given µ

si 2 arg max EUi (si , s i ) 8i 2 N
¯
¯
si

s
¯
➡ 混合戦略の組  はベイジアンナッシュ均衡

✓ プレイヤが自身の戦略...
推定法のアプローチ
µ
¯
s
¯
信念の推定問題:BN均衡  に対応する信念  を推定
µ
¯
s
¯
✓ BN均衡  を所与として,信念  を計算

(¯ ¯
    は均衡対      仮定:ひとつの均衡対が既知
✓   µ, s)
均衡...
均衡遷移モデルの実現
効用値行列

(µ, s)
仮定:    が均衡対である

Ui (✓i , ✓ i ) =

定理:ベイジアンゲームに対して
⇥
⇤T
⇥
⇤
    1
1 Ui (✓i , ✓) 0 1
=0



1 0
1 1...
追従制御系の設計:信念の推定
+ -­‐

s
¯

追従制御系
+
µ = diag(A1 , A2 ) +g(¯
s
s+ = f (s, µ, µ+ )

s)

g(¯
s
diag(A1 , A2 )

コントローラ(PI制御器)

...
数値例

s2 (✓)
8
>
>
<

1	
  

>
>
:

8
>
>
<

>
>
:

0	
  

a1

a2

1
0

2	
   a1
0	
   a2

0
1

s2 =
¯

⇥

a2

1	
  
1	
  
...
シミュレーション結果
A1 =



0.6 0.3
0.4 0.7

, A2 =



0.4
0.6

0.3
0.7

↵ = 0.3,

= 0.08

¯
推定結果 µ1

目標値 s
¯
⇥
⇤
µ1 = 0.6154 0.3...
おわりに
まとめ
• 指定したBN均衡に対応する信念の推定法の提案
• BN均衡の遷移モデルの導出
• 数値例を用いて信念の推定が可能であることを確認
"
"

今後の課題
• 安定性解析
• 仮定と遷移モデルのパラメタライゼーション
• 繰り...
均衡遷移モデルの導出
f
帰納法を用いて,BN均衡の十分条件を満たすモデル  を導出
帰納法
前提: (µ, s) がBN均衡の十分条件を満たす均衡対
命題:

(µ+ , s+ ) がBN均衡の十分条件を満たす

BN均衡の十分条件
	
 B...
仮定と均衡遷移モデルのパラメタライゼーション
本発表の仮定とモデル
仮定

⇥

1

1

⇤

⇥

Ui (✓i , ✓)
+

モデル fi (si (✓), µ, µ ) =



他の仮定とモデル
仮定

⇥

モデル

1

1...
Upcoming SlideShare
Loading in...5
×

Estimating Player's Belief in Bayesian Game by Feedback Control

459

Published on

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
459
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
1
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Transcript of "Estimating Player's Belief in Bayesian Game by Feedback Control"

  1. 1. 第一回 SICE制御部門マルチシンポジウム 電気通信大学 2014/3/6 ベイジアンナッシュ均衡を構成する信念の推定 ○金川 雅和 奈良先端科学技術大学院大学 小木曽 公尚 電気通信大学 杉本 謙二 奈良先端科学技術大学院大学
  2. 2. もくじ • はじめに • ベイジアンゲーム • 信念の推定法 • 数値例 • おわりに
  3. 3. 背景 標準型ゲーム プレイヤの効用値が確定的に決まる プレイヤ1 1. 合理的なプレイヤ :二人 :二種類 (a, a) 2. 行動 3. 効用値 プレイヤ2 a a a 4 a 5 4   1   1 2 5   2   標準型ゲーム   均衡解析:ナッシュ均衡[1]  プレイヤが自身の行動を変更することで (囚人のジレンマ)     より高い効用値を得ることができない行動の組 [1] J. Nash 1951 3
  4. 4. 背景 プレイヤ2 ✓ ✓ ベイジアンゲーム[2]   プレイヤの効用値が確率的に決まる 合理的なプレイヤ :二人 :二種類 (a, a) 行動 効用値の候補 タイプ :二種類 (✓, ✓) 信念(タイプ上の確率分布) プレイヤ1 1. 2. 3. 4. 5. a a ✓ a a        0            2   0 1        1   2        1   1 a ✓ a a 均衡解析:ベイジアンナッシュ均衡(BN均衡)  プレイヤが自身の戦略を変更することで 2 1        2     a a 0 2 a        0   a        1   5 0        1   a        2          1          5   1 1 a a a a 2 1        0   2   5   5 0 1   0   ベイジアンゲーム     より高い期待効用を得ることができない戦略の組 ベイジアンナッシュ均衡を計算するためには信念が必要 [2] J.C. Harsanyi 1967 4
  5. 5. ベイジアンゲームの問題点 信念を正確に把握することは困難 ✓ 繰り返しゲームを行いプレイヤの行動から信念を推定 例:モバイル端末の周波数割当[3],アドホックネットワークの侵入検知[4] 信念の推定の課題 ✓ 指定したBN均衡に対応する信念の推定は議論されていない ✓ 対応する信念を解析的に求めることは困難 電力需要家の選好を推定への応用 [3] K. Akkarajitsakul et al. 2011 [4] Y. Liu et al 2006 5
  6. 6. 目的 目的 指定したBN均衡に対応する信念の推定 " " " アプローチ ✓ 信念の推定問題を追従制御問題に帰着させて解く • 信念とBN均衡を状態変数とするモデル(制御対象) • 指定したBN均衡(目標値)に到達する制御系を構築 6
  7. 7. 対象とするベイジアンゲーム:定式化 ベイジアンゲームの構成要素:(N , 1. プレイヤ i 2 N a i 2 Ai 2. 行動 ui : A ⇥ ⇥ ! R 3. 効用値 4. タイプ ✓i 2 ⇥ i 5. 信念 µi 2 ⇧(⇥i ) 確率分布の集合 A, u, ⇥, µ) N := {1, 2} 9 Ai := {a, a}> > > > = > ⇥i := {✓, ✓}> > > ; A := A1 ⇥ A2 ⇥ := ⇥1 ⇥ ⇥2 8i 2 N si (✓i ) 2 ⇧(Ai )  混合戦略          :行動上の確率分布 si (✓ ✓確率分布   i ) に従い行動     を選択 a i 2 Ai 7
  8. 8. 対象とするベイジアンゲーム:タイプ タイプの組     毎に標準型ゲームが存在 ✓2⇥ ⇥i = ✓, ✓ a a a a 2 1 2   5   5 4 a 1   4   標準型ゲーム [1] J.Nash, (1951) a   2     1       a          0     2            2      1             0  2 1  5       5     0   a          1     5            1     0       2  1 1  0     8i 2 N ⇥ := ⇥1 ⇥ ⇥2 ベイジアンゲーム 8
  9. 9. 対象とするベイジアンゲーム:タイプ タイプの組     毎に標準型ゲームが存在 ✓2⇥ ⇥i = ✓, ✓ a a a a a        0          2   a 0        2   1        1   ✓, ✓ a a 0 1 (✓, ✓)          1          1   2 1 a a        0   a a        2          5 ✓, ✓          1          1        2      1        0 2        5   1 8i 2 N ⇥ := ⇥1 ⇥ ⇥2        0   a a a      2 2        5 1   ✓,  ✓ a      1 5        0 0   ベイジアンゲーム 9
  10. 10. 対象とするベイジアンゲーム:信念 タイプの組     毎に標準型ゲームが存在 ✓2⇥ タイプの組     は信念に従い確定 ✓2⇥ µ2 ✓ µ2 (✓) a a ⇥i = ✓, ✓ a a a 0 1 (✓, ✓)          1          1   2 1 a µ1 ✓ ⇥ := ⇥1 ⇥ ⇥2 a 0        2   1        1   ✓, ✓ a µ1 (✓) a        0          2   a        0   a a        2          5 ✓, ✓          1          1        2      1        0 2        5   1        0   8i 2 N µ1 (✓)µ2 ✓ a a a      2 2        5 1   ✓,  ✓ a      1 5        0 0   ベイジアンゲーム 10
  11. 11. ベイジアンナッシュ均衡 µ2 8 > > > > > > > > > > > > < 1 EUi (si , s i ) := X µi (✓i )µ i (✓ i ) ✓2⇥ 信念 ( X a2A " "" 0 8 > > < a1 aa 2 8 8 > >        0   0        2   2   > a1 > < >   1   > 1 1 > 0 > s (✓) > 1 > > >        1   1          0   1   > : a2 > > 1 0 > 2 1 < a1 aa a 2 > 8 > > > > a        0          2   > > a1 2   1   > <     > 0 1 > 2 5 > > s1 (✓) > > > a2 >        1          1   2   2   : a : 2 0 s2 (✓) > > : 期待効用 8 > > < µ1 s2 (✓) > > : si (✓ ✓確率分布   i ) に従い行動     を選択 a i 2 Ai > > > > > > > > > > > > : si (✓i ) 2 ⇧(Ai )  混合戦略          :行動上の確率分布 a a2 a1 a a1 a a2 a        1   2   0 0        1   5   2 1 a2 a 1 " 2   1   2 " 0 5   0   1 si (ai |✓i )s i (a i |✓ i )ui (a, ✓) 混合戦略 1 5 1 0 ) ベイジアンナッシュ均衡 " given µ 1 1        1   1          0   0   a a2 a1 a a1 a 1 1 si 2 arg max EUi (si , s i ) 8i 2 N ¯ ¯ si s ¯ ➡ 混合戦略の組  はベイジアンナッシュ均衡 11 " " 1   2   0  
  12. 12. ベイジアンナッシュ均衡の特徴 ベイジアンナッシュ均衡 " given µ si 2 arg max EUi (si , s i ) 8i 2 N ¯ ¯ si s ¯ ➡ 混合戦略の組  はベイジアンナッシュ均衡 ✓ プレイヤが自身の戦略を変更することで     より高い期待効用を得ることができない混合戦略の組 µ ✓ ベイジアンナッシュ均衡は信念  に依存 ( EUi (si , s i ) := X ✓2⇥ µi (✓i )µ i (✓ i ) X a2A si (ai |✓i )s i (a i |✓ i )ui (a, ✓) µ ✓ 信念  を所与として,ベイジアンナッシュ均衡を計算 (µ, s) 均衡対    :あるBN均衡と対応する信念の組 12 )
  13. 13. 推定法のアプローチ µ ¯ s ¯ 信念の推定問題:BN均衡  に対応する信念  を推定 µ ¯ s ¯ ✓ BN均衡  を所与として,信念  を計算 (¯ ¯     は均衡対      仮定:ひとつの均衡対が既知 ✓   µ, s) 均衡対 追従制御問題に帰着 1. 均衡遷移モデル(自律系) µ+ + µ = diag(A1 , A2 )µ + f (s, µ, µ+ ) diag(A1 , A2 ) s+ + s = f (s, µ, µ ) 2. 追従制御系 µ+ = diag(A1 , A2 ) +g(¯ s + + s = f (s, µ, µ ) + -­‐ s ¯ s) g(¯ s diag(A1 , A2 ) + + z 1 s) µ+ f (s, µ, µ+ ) s+ 13
  14. 14. 均衡遷移モデルの実現 効用値行列 (µ, s) 仮定:    が均衡対である Ui (✓i , ✓ i ) = 定理:ベイジアンゲームに対して ⇥ ⇤T ⇥ ⇤     1 1 Ui (✓i , ✓) 0 1 =0  1 0 1 1 (8✓i 2 ⇥i 8i 2 N ) f で求まる     ) は均衡対である (µ+ , s+ ならば,遷移モデル  + fi (si (✓), µ, µ ) =  2 fi (si (✓), µ, µ ) = 4 + 1 0 0 1 c c 1 si (✓) i (✓) i (✓) c i (✓) c ci (✓i ) = i (✓) 0 1 + µi (✓i ) µi (✓i ) 3 8i 2 N 5 si (✓) 8✓i 2 ⇥i 14 > > > > ; 9 > > > > =
  15. 15. 追従制御系の設計:信念の推定 + -­‐ s ¯ 追従制御系 + µ = diag(A1 , A2 ) +g(¯ s s+ = f (s, µ, µ+ ) s) g(¯ s diag(A1 , A2 ) コントローラ(PI制御器) g(¯ s s) := KP (¯ s s) + KI P制御器 KP := ↵ I2 ⌦ ⌘ KI := I2 ⌦ ⌘ ⌘ :=  X (¯ s + + z 1 s) µ+ f (s, µ, µ+ ) s+ s) I制御器 0 0 0 0 1 0 1 0 制御系の安定性は今後の課題 15
  16. 16. 数値例 s2 (✓) 8 > > < 1   > > : 8 > > < > > : 0   a1 a2 1 0 2   a1 0   a2 0 1 s2 = ¯ ⇥ a2 1   1   1 1 1   0   a1 a2 a1 a2 > 8 > > > > a > > 1 2   1   a1 1   2   > < > > 0 1 1 1 > s1 (✓) > > > > a2 > : 2   2   a2 0   0   : 2 0 0 1 0.5 0.5 0.8 0.2 0.2 0.8 ⇢ 8 > > > > > > > > > > > > < > > > > > > > > > > > > : µ1 8 8 > > > a1 > < > > > s1 (✓) 1 > > > > > a > : 2 > > > 1 < 0.5 0.5 s1 = ¯ s2 (✓) a1 ¯ 目標値 s ⇥ ⇤ ⇤ ⇢ ベイジアンゲームの数値例 µ2 si (✓) si (✓) A1 , A2 が列確率行列 ↵ = 0.3, = 0.08 µ ¯ 対応する信念 (答え) µ1 = ¯ µ2 = ¯ ⇥ ⇥ 0.6154 0.3846 0.2857 0.7143 ⇤ ⇤ 16
  17. 17. シミュレーション結果 A1 =  0.6 0.3 0.4 0.7 , A2 =  0.4 0.6 0.3 0.7 ↵ = 0.3, = 0.08 ¯ 推定結果 µ1 目標値 s ¯ ⇥ ⇤ µ1 = 0.6154 0.3846 ¯ ⇥ ⇤ µ2 = 0.2857 0.7143 ¯ ¯ 推定結果 µ2 推定結果が答えと一致 17
  18. 18. おわりに まとめ • 指定したBN均衡に対応する信念の推定法の提案 • BN均衡の遷移モデルの導出 • 数値例を用いて信念の推定が可能であることを確認 " " 今後の課題 • 安定性解析 • 仮定と遷移モデルのパラメタライゼーション • 繰り返しゲームへと遷移モデルの拡張 18
  19. 19. 均衡遷移モデルの導出 f 帰納法を用いて,BN均衡の十分条件を満たすモデル  を導出 帰納法 前提: (µ, s) がBN均衡の十分条件を満たす均衡対 命題: (µ+ , s+ ) がBN均衡の十分条件を満たす BN均衡の十分条件 BN均衡の定義 si "2 arg max EUi (si , s i ) 8i 2 N ¯ ¯ si s ¯ ➡ 混合戦略の組  はベイジアンナッシュ均衡 期待効用を目的関数とする線形計画問題の最適解 given µ, s i arg max EUi (si , s i ) si s.t gi (si )  0 hi (si ) = 0 8i 2 N 確率分布が満たす条件 i2N BN均衡なら全ての    でKarush-Kuhn-Tucker(KKT)条件を満たす KKT条件からBN均衡になる十分条件を導出 19
  20. 20. 仮定と均衡遷移モデルのパラメタライゼーション 本発表の仮定とモデル 仮定 ⇥ 1 1 ⇤ ⇥ Ui (✓i , ✓) + モデル fi (si (✓), µ, µ ) =  他の仮定とモデル 仮定 ⇥ モデル 1 1 ⇤ Ui (✓i , ✓) + fi (si (✓), µ, µ ) = 0  1 1 0 0 1 ⇥ ⇤T =0 si (✓) 1 0 1 0 0 1 ⇤T =0 si (✓) (8✓i 2 ⇥i 8i 2 N ) 2 fi (si (✓), µ, µ ) = 4 + c c 1 (8✓i 2 ⇥i 8i 2 N ) 2 fi (si (✓), µ, µ+ ) = 4 仮定 1 1 ⇤ Ui (✓i , ✓) ⇥ 1  ⇤T 1 0 fi (si (✓), µ, µ+ ) = si (✓) モデル 0 1 8 2 3 c i (✓) < 0 c i (✓) + 4 5 + (1 fi (si (✓), µ, µ ) = c i (✓) : 1 c (✓) 1 1 0 i )4 1 0 1 c i (✓) c i (✓) c i (✓) c i (✓) 1 5 si (✓) 1 c i (✓) c i (✓) c i (✓) c i (✓) 3 5 si (✓) 8i 2 N = 0 (8✓i 2 ⇥i 8i 2 N ) 2 0 3 8i 2 N パラメタライゼーションした仮定とモデル ⇥ i (✓) i (✓) c i (✓) c i (✓) 2 [0, 1] 39 8i 2 N = 5 si (✓) ; 20
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×