4. 行動決定テーブルを用いたマルチエージェントモデル
[和泉, et al., 04]
少数派だった行動
1 t-3 t-2 t-1 t
過去のゲームの履歴 A ・・・ B B A ?
各エージェントの行動でゲームをする
記憶長 m=2 の場合
報酬の獲得,行動決定テーブルの更新
t-2 t-1 t
報酬 行動決定テーブルの更新
A A P1
少数派 R 変更なし
A B P2 多数派 無し 確率α P3 ← P3
B A P3 確率1-α 変更なし
B B P4
行動決定テーブル 再びゲームをする
5. 行動決定テーブルを用いたモデルの特性
A A P1
A B P2 全エージェントが同じ履歴に基づく
B A P3 必ずテーブルの同じ行を使う
B B P4
多数派のエージェントのうち
確率αでP3の行動を反転
エージェント数
α=0.5の場合
少数派:多数派 = 1:2
に収束する
少数派 多数派
このモデルを拡張することで,事前情報を考慮したマイノリティゲームを構築する
6. 事前情報を用いたモデルの拡張
事前情報を用いたマイノリティゲームの流れ
任意で 集計結果の少数派を 報酬&行動決定
行動決定
事前申告 全エージェントに通知 テーブルの変更
申告エージェント A A P1
履歴 事前申告=行動 A B P2
・事前申告はする
B A P3
・集計結果は使用しない B B P4
履歴 行動
申告の集計結果 A A P1
情報利用エージェント
A B P2
・事前申告をしない A
B A P3
B B P4
・集計結果を使用する
履歴 + A A P5
行動 A B P6
申告の集計結果 B
B A P7
B B P8
申告エージェントと情報利用エージェントの個体数を変化させて実験を行う
13. Qテーブルとβの学習方法
行動価値関数 Q学習:利用した行動価値関数を更新
Q( st , at ) Q( st , at ) α reward ta1 max Q( st 1 , at 1 ) Q( st , at )]
[
実験設定 Q学習の学習率 α=0.1
割引率 γ=0.0
申告集計結果の利用率β
0.05 if 申告集計結果を 利用して成功 or 利用しないで失敗
0.05 if 申告集計結果を 利用して失敗 or 利用しないで成功
実験設定 βの初期値=1.0