Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

onodera m

462 views

Published on

  • Be the first to comment

  • Be the first to like this

onodera m

  1. 1. 部分的完全調査モンテカルロ法 の提案と不確実性を含んだプラ ンニングへの適用に関する研究 調和系工学研究室 修士2年 小野寺 将輝
  2. 2. モンテカルロ法により得られる評価値の期待値を推定 背景  不確実性を含んだプランニングに関する研究 • 電子商取引におけるソフトウェアの意思決定[Wellman et al. 2001] • 設備保守計画立案[手塚ら,2003][山崎ら,2003] • Path Planning[Wellman et al. 1995] • 出来るだけ少ない計算コストで正確に推定することが望ましい  不確実性に基づいたプランの評価が必要  生起確率の高い結果の列挙が容易な場合がある • 結果が複数の独立な確率事象の組合せとして定義される場合 • 1つのプランに対して確率的に結果が生起 • 結果の候補が無数に存在
  3. 3. 目的 期待値の推定精度を向上させる手法の提案  期待値を用いた不確実性に基づく評価関数の設計 • 部分的完全調査モンテカルロ法を提案 • 生起確率の高い結果の列挙が容易という特徴を利用 • 推定精度を調べる予備実験 • Tour Planning Problemへ提案手法を適用 • Trading Agent Competitionへ提案手法を適用
  4. 4. 生起確率が高い事象の列挙 対象とする問題の定式化  ある1つのプランに対して1つの事象が確率的に生起する ijij xxe :)(  :,,1| WisS i   iiji NjxX ,,1|  ijij xxp :)(    iN j ijij i i i xexpsE 1 )()(max)(max iiKiii YYYX  21  kiklik LlyY ,,1|  iklikl yyp :)( ただし, is: に対して起こり得る全ての事象の集合 プラン集合 の生起確率 の評価値 iX: を構成する要素 の生起確率 1iY 2iY 1,1,iy 1,1, Liy ・・・ 1,2,iy 2,2, Liy ・・・ 3iY 1,3,iy 3,3, Liy ・・・ )( 1,1,iyp )( 1,2,iyp )( 1,3,iyp 2,2,iy2,1,iy 2,3,iy )( 2,3,iyp )( 2,3,iyp 1. 閾値を設定 2. 積を計算する過程で閾値を下回る 場合はその先を省略(枝刈り) 3. 生起確率が閾値以上の事象を列挙 定式化
  5. 5. 部分的完全調査モンテカルロ法 •サンプリングの回数 は固定 概要    2 )2()1( 1 )2( 2 )( 1 )()()( M u iu Xx ij Xx ijiji e M xpxpxeE iijiij  手順 計算式 ① プラン に対して起こり得る全ての 事象の集合 を2つに分割 ② 閾値よりも大きい生起確率を持つ 事象の集合 を完全調査 ③ に関して加重サンプリングモンテ カルロ法で推定 ④ ②と③の結果から期待値 を計算 ② ③ ijx iX )1( iX )2( iX iE ii sE : is から得られる評価値の期待値 )(:)1( iji xpX が閾値以上である の集合 ijx)(:)2( iji xpX が閾値未満である の集合 :M サンプリング回数 :2M の推定に使うサンプル数 )2( iX :)2()2( iiu X )2( iX の推定に使う 個のサンプル2M M •生起確率の高い事象に関して正確な値 を計算できる :1M の推定に使うサンプル数 )1( iX 加重サンプリング 提案手法 M の数 四角形⇒事象 面積⇒生起確率 ⇒ランダムに生成したサンプル ⇒使用しないサンプル M ++ の数 •残りの事象に関する推定精度が低下す る可能性がある •サンプルの配分のバランスが重要 •確率の偏りが精度に影響
  6. 6. 設定1 ( の偏り 小) 提案手法の有効性を調べる予備実験 閾値 平均誤差率(%) 各閾値における平均誤差率と完全調査個数 1.0000 0.0015 0.0010 0.0009 0.0008 0.0007 0.0006 0.0005 0.0004 0.0003 0.0002 0 100 200 300 400 500 600 700 800 900 完全調査個数 1.0000 0.0015 0.0010 0.0009 0.0008 0.0007 0.0006 0.0005 0.0004 0.0003 0.0002 0.02 0.03 0.04 0.05 1.0000 0.0015 0.0010 0.0009 0.0008 0.0007 0.0006 0.0005 0.0004 0.0003 0.0002 設定3 ( の偏り 大) 設定2 ( の偏り 中) •閾値の適切な設定に より推定精度が向上 実験結果 • 各目の生起確率が異なるさいころ6個の組 • 各さいころの出目 • 出目の組合せ • はランダム( ) 完全調査個数 平均誤差率 0 0.1 0.2 0.3 0.4 0.5 1 2 3 4 5 6 7 8 9 10 目 生起確率 (例)3種類のさいころの設定 設定 is },,{ 10,,1,, kikiik yyY  },,{ 1000000,1, iii xxX  加重サンプリングモンテカルロ法に相当 )( ijxe • サンプリング回数は1000 • 各10000試行 設定1( の偏り 小) 設定2( の偏り 中) 設定3( の偏り 大) )( ijxp )( ijxp )( ijxp )( ijxp )( ijxp )( ijxp )0.1,0.100(N 適度な完全調査個数 とそれらが占める生起 確率の大きさが重要
  7. 7. 精度を向上する条件と閾値の設定に関する考察  提案手法により精度を向上するための条件 •完全調査を行いながら閾値を調整 •期待値の推定を繰り返しながら閾値を調整 ))(var( ie  :評価値の分散 ))(var( )2( ie  :完全調査した事象を 除いた評価値の分散 || )1( iX :完全調査した事象の総数   )1( )( iij Xx ijxp :完全調査した事象が 占める生起確率の総和 M :サンプリング総数 • ①≦1を満たす場合 に精度が向上 • ①は完全調査の結果 のみから計算可能 ①に基づいた適切な閾値の設定  加重サンプリングモンテカルロ法の分散 提案手法の分散 1 ))(var( ))(var( )(1 || )2( )1( )1(               i i Xx ij i e e xp XM M iij   ≒1と仮定① 1.0000 0.0015 0.0010 0.0009 0.0008 0.0007 0.0006 0.0005 0.0004 0.0003 0.0002 平均誤差率 ①の値 1.0000 0.0015 0.0010 0.0009 0.0008 0.0007 0.0006 0.0005 0.0004 0.0003 0.0002 0 0.5 1 1.5 2 2.5 3 3.5 0.0002 0.0003 0.0004 設定2 ( の偏り 中))( ijxp0.0005 1 設定3 ( の偏り 大))( ijxp 平均誤差率 ①の変化 平均誤差率の変化と①の変化の比較 加重サンプリングモンテカルロ法に相当 提案手法 四角形⇒事象 面積⇒生起確率
  8. 8. Tour Planning Problemへの適用(1) iv 複数の観光施設 訪れた施設毎のスコアの合計として計算さ れる総スコアが最大となるTourを探索 移動,滞在に要する時間が確率的に与えられる • 出発時刻 sD • 出発地点 • 目的地点 sv gv 観光客 施設 iv • 時刻 での スコア t )(tsi • 制限時刻 gD 制限時刻を超えた場合の総スコアは-1 客 時間 客1 14時 23時 9 客2 8時 18時 10  2種類の観光客の設定 sD gD • 設定が異なる2種類の観光客 • SAでTourを探索 • 1000試行 • 評価値としてスコアの期待値を使用 • 2種類のモンテカルロ法(M=500) A) 加重サンプリングモンテカルロ法 B) 提案手法 ~提案手法を適用し有効性を評価実験設定 :Tour集合}{ isS  :所要時間および総スコア集合 :移動,滞在の各時間コスト集合}{ iklik yY  }{ ijxX  各施設のスコアは状況に応じて決定 例)到着時刻,Tour全体で訪れる施設の種類など
  9. 9. Tour Planning Problemへの適用(2) 実験結果 66 68 70 72 74 76 78 80 82 84 86 客1 客2 計算時間(秒)404 408 412 416 420 期待値の平均 490 494 498 502 506  各探索での最良解 の期待値の平均  SA1試行の 平均計算時間 •客1に関して最良解の期待値の 平均が向上し標準偏差が減少 推定値と期待値 の平均二乗誤差 2.15 2.2 2.25 2.3 2.35 6.9 6.95 7 7.05 7.1 加重サンプリングモンテカルロ法 提案手法(閾値0.01) 提案手法(閾値0.0075) 提案手法(閾値0.005) 提案手法(閾値0.003)  1000種類のTourに 関する平均二乗誤差 各10000試 行の推定 •閾値の適切な設定により推 定精度が向上 •客2に関しては変化無し •計算時間が減少 ⇒乱数生成に要する計算 時間が減少するため ⇒探索空間でのスコアの 分布に依存 ⇒適度な確率の偏りが存在 するため 期待値の推定に 用いる各手法 1000試行の探索結果 期待値の平均 推定値と期待値 の平均二乗誤差 計算時間(秒)
  10. 10. 3000 3500 4000 4500 5000 スコア Trading Agent Competition( TAC)への適用 •提案手法により期待値 の推定精度が向上 提案 手法 加重サンプリング モンテカルロ法 期待値 未使用 100ゲームの平均スコア • 複数の補完財を個別のオークションで入手 • 実際に落札できるかわからないという不確実性 • 結果が確率的に生起すると仮定 • 期待値が最大となる注文をGAで探索 ホテル 8人の客 Agent ・・・ 航空券 娯楽 チケット 3種類の商品8人の競合相手 概要 •提案手法を用いることで平均的 に高いスコアを得ることが可能 0 20 40 60 80 100 加重サンプリング モンテカルロ法 平均絶対誤差 各手法の平均絶対誤差 (提案手法の閾値) 様々な戦略に基づいて 作成されたエージェント 1000種類の注文 1000試行の推定 実験結果 IJCAI-03,AAMAS-04で開催された大会へ参加 }{ isS  }{ iklik yY  }{ iji xX  :入札プラン集合 :全商品の落札結果集合(スコア) :各商品の落札結果集合 0.1 0.01 0.005
  11. 11. 結論  期待値の推定精度を向上させる部分的完全調査モンテカルロ法 を提案した • 閾値を適切に設定することで,適度な数の完全調査を実現し, 推定精度を向上することが可能 • 完全調査される事象が占める生起確率が大きい程提案手法は有効  Tour Planning Problem及びTrading Agent Competition(TAC)とい う 2種類の不確実性を含んだプランニングへ提案手法を適用した • 期待値の推定精度が向上 • 推定精度の向上に伴って探索性能が向上 • 計算時間が減少する場合を確認

×