Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

kanehira m

512 views

Published on

  • Be the first to comment

  • Be the first to like this

kanehira m

  1. 1. 学習エージェントを用いた 人工市場における価格形成の分析 に関する研究 調和系工学分野 修士2年 兼平 大輔
  2. 2. 均衡価格  均衡価格・・・市場に潜在する需要供給から求まる理論価格 •均衡価格 Po = 250 •均衡需給量 Qo = 3 ある商品を1つ保有する効用 売りエージェント 買いエージェント A 150 F 150 B 200 G 200 C 250 H 250 D 300 I 300 E 350 J 350
  3. 3. 取引価格  均衡価格・・・市場に潜在する需要供給から求まる理論価格  取引価格・・・市場への注文から形成される顕在する実際の価格 供給 需要 P Q 35% 5 % 15% 30% 10% 5% 10% 20% 30% 25% ミクロ経済学-新古典派の均衡理論 無限の計算能力がある理想的なエージェントにより構成さ れる市場の取引価格は均衡価格へ収束する. 売りエージェント 買いエージェント A 150 203 F 150 120 B 200 210 G 200 140 C 250 288 H 250 238 D 300 390 I 300 225 E 350 385 J 350 315 •取引価格 P = 232 •取引量 Q = 2 35% 5% 15% 30% 10% 20% 30% 25% 10% 5%
  4. 4. 関連研究  予算を課した被験者実験による均衡理論の検証 [Smith.,1962,1992]  予算内での注文を行う被験者による実験を行い,取引価格の均衡価格へ の急速な収束を観測.  計算機実験による均衡価格への収束要因の調査 [Gode,D.K.,1992,1993]  予算内でランダムな価格で注文を行うエージェント(Zero-Intelligence- Trader)でも取引価格は均衡価格に近づいたことから,取引価格の収束は エージェントではなく市場の機構に要因があると分析.  理論と実験の両アプローチからの収束要因の検証 [Cliff, D., 1997]  Zero-Intelligence-Trader に需給が非対称になるような予算を与えた場合は, 理論による取引価格の期待値の算出でも,計算機実験でも均衡へ収束し ないことから、市場の機構が取引価格の均衡価格への収束要因ではない ことを示す. 予算を課すことにより,実際には観測できない効用を規定できる.
  5. 5. 目的  関連研究をまとめると  予算の制約を与えた人間による取引価格は均衡価格に収束する.  取引価格の均衡価格への収束は需給が対称的な場合には市場の機構 が要因となりうるが,それだけが要因ではない.  市場の機構だけが要因ではなく、トレーダにも要因があるのではない か?  市場の方式としてザラバ方式だけでしか検証していないが,他の方式 ではどうなるのか? 目的  学習エージェントが参加する人工市場モデルを構築し,その市場で形成さ れる取引価格の挙動から,学習が均衡価格への収束要因となりうるかを分 析する.  また,ザラバ方式と同様に売買締結方式として一般的な板寄せ方式を導入 し,両方式による取引価格の振る舞いを比較する.
  6. 6. モデル  市場には売りエージェントと買いエージェントが存在する.(立場の交代は ない)  エージェントは1日に1単位の商品の取引を目的としている.  エージェントの注文は1ステップに1回. Start ステップ 日 時間 Mステップ 1日目 2日目 End N日目 1試行はN日間で構成される. 1日はMステップで構成される. 1試行 売り注文 買い注文 取引結果 ・・・ ・・・ 買いエージェント売りエージェント Market(市場) 買い/売り 注文価格 モデルの時間の流れ概念図 モデルの概念図
  7. 7. 市場制度  板寄せ方式  注文を一定期間集め,集まっ た注文の中で取引を成立させ る方法.  ザラバ方式  新たな注文が来るたびにス トックされている注文との間で 取引を成立させる方法. AB CD AB CD 一定期間後 注文 AB CD A B C D 新しい注文 AD,BC間取引成立 BD間取引成立 注文A 注文B 注文C 注文D ストック ストック 注文A 注文B 注文C ストック ストック 注文A 注文C 注文
  8. 8. 注文価格 エージェント i の予算(制約) とは売りエージェント(買いエージェン ト)ならば,それ以下(以上)の注文価格 で売却(購入)することが出 来ないという下限(上限)価格. 売りエージェント 買いエージェント  注文価格 は,各エージェントに固有に与えられている予算(制約価 格) と戦略から導き出される利益率 を用いて算出される. エージェント 予算(制約) limitiP, limitiP, shoutiP, limitiP, profitiR , 売りエージェント 買いエージェント 10)1( ,,,,,  profitilimitilimitiprofitishouti RPPRP profitilimitilimitiprofitishouti RPPRP ,,,,, 0)1(  shoutilimiti PP ,,  shoutilimiti PP ,,  shoutiP, )0( , limitiP shoutiP,
  9. 9. Zero Intelligence (ZI) 戦略 :一様乱数から得られた値を利益率 として 注文価格 を算出する. ZIエージェント・QLエージェント  本モデルで利用するエージェント.  予算内でランダムな価格で注文を行う Zero Intelligence (ZI) エージェント  予算内で学習(Q-Learning)に基づき注文を行う Q-Learning (QL) エージェント profitiR , shoutiP, 5.00 ,  profitiR [Gode,D.K.,1992,1993]
  10. 10. ZIエージェント・QLエージェント Q-Learning (QL) 戦略 : Q-Learning を用いて利益率 を導く.profitiR ,  0.50.4,0.3,0.2,0.1,0,, profitiR )},(),(max{),(),( 1 ttt a ttttt asQasQrasQasQ   学習率: 割引率: 報酬: 状態: 行動:  行動選択 -グリーディ方策  報酬 は取引が成立した場合は注文の利益率 .  状態 は現在の1日の中でのステップ.  行動 は利益率 . ts tr ta  Q値の更新式 tr profitiR , ts ta profitiR , 注文を繰り返した後に売買が成立するという試行錯誤的な環境.市場
  11. 11. 実験設定 NB NS Bmin Bmax Smin Smax Nb, NS:買いと売りのエージェント数. Bmin,Bmax:買いエージェントに与え る予算の最小値と最大値. Smin,Smax:売りエージェントに与える 予算の最小値と最大値. 設定1 11 11 75 325 75 325 設定2 11 11 200 200 75 325 設定3 6 11 50 50 200 200 設定4 11 6 200 200 320 320 1試行を1000日,1日を10ステップ. 板寄せ,ザラバ方式を適用した2種類の市場. 売買締結方式の違いにより取引価格の振る舞いの比較. ZI,QLエージェントの2エージェントが市場に参加. 学習が取引価格に与える影響の調査. 人数と予算(制約価格)の組み合わせは以下の4種類. 需給の偏りがある市場における取引価格の均衡価格への収束の調査 *学習エージェントを用いた実験は5試行.
  12. 12. 実験設定  均衡価格 = 200,均衡需給量 = 6 設定1 E(p) = 200 設定3 E(p) = 125 設定2 E(p) = 233 設定4 E(p) = 260
  13. 13. 実験結果:設定1 1:板寄せZI (5.21,198.9) 3:ザラバZI(5.49,188.8) 2:板寄せQL(5.85,200.5) 4:ザラバQL(5.95,191.7) 平均取引量と平均取引価格 設定に関わらずQLがZIよりも均衡点に近い 3 2 1 4 996 997 998 999 1000 板寄せ市場の取引価格の例 996 997 998 999 1000 ザラバ市場の取引価格の例
  14. 14. 実験結果:設定1 1日の取引価格の推移 1日の取引価格の標準偏差の推移 板寄せ 板寄せ ザラバ ザラバ 平均取引価格は常にQLがZIより均衡価格である200に近い. 取引価格の標準偏差は常にQLがZIより小さい
  15. 15. 実験結果:その他の設定  設定毎の均衡点との比較 ZI QL 取引価格 取引量 取引価格 取引量 設定1 板寄せ 1.1 0.79 0.5 0.15 ザラバ 11.2 0.51 8.3 0.05 設定2 板寄せ 8.2 1.11 2.0 0.02 ザラバ 16.6 1.14 12.7 0.33 設定3 板寄せ 54.8 0 0.1 0 ザラバ 54.9 0 55.1 0 設定4 板寄せ 17.1 0.02 8.3 0 ザラバ 28.2 0 26.7 0 平均取引価格は常にQL,ZIの順で均衡価格である200に近い. 取引価格の標準偏差は常にQL<ZIである.
  16. 16. 考察 学習により,売り(買い)エージェントは売買が成立する価格の中で最も高 (低)い価格で注文するようになった結果,取引価格は均衡化価格に収束 する. 均衡点との比較 :ZIよりQL,ザラバより板寄せで均衡に近い. 取引価格の推移:売買締結方式によらずZIよりQLで均衡価格200に近い. 標準偏差の推移:ザラバZI>ザラバQL>板寄せZI>板寄せQL 板寄せ市場にはザラバ市場に比べ,取引価格を均衡価格に収束させる 性質がある. エージェントの学習には,取引価格を均衡価格へ収束させる性質がある. 学習により、市場には超過利益を許さない性質が創発する.
  17. 17. 結論  予算の制約を与えたランダムに取引をするエージェント,学習 をするレーダの2種類のエージェントエージェントを参加させた 人工市場を構築し経済シミュレーションを行った.  エージェントの学習は,取引価格を均衡価格へ収束させ,市 場には超過収益を許さない性質が創発する.  板寄せ市場にはザラバ市場に比べ,取引価格を均衡価格に 収束させる性質がある.  また,本発表では触れなかったが, 本研究ではフリーウェアとして広く 公開することを目的とした経済シ ミュレータの作成も行った.

×