onodera m

部分的完全調査モンテカルロ法
の提案と不確実性を含んだプラ
ンニングへの適用に関する研究
調和系工学研究室
修士2年小野寺将輝

モンテカルロ法により得られる評価値の期待値を推定
背景
 不確実性を含んだプランニングに関する研究
• 電子商取引におけるソフトウェアの意思決定[Wellman et al. 2001]
• 設備保守計画立案[手塚ら，2003][山崎ら，2003]
• Path Planning[Wellman et al. 1995]
• 出来るだけ少ない計算コストで正確に推定することが望ましい
 不確実性に基づいたプランの評価が必要
 生起確率の高い結果の列挙が容易な場合がある
• 結果が複数の独立な確率事象の組合せとして定義される場合
• 1つのプランに対して確率的に結果が生起
• 結果の候補が無数に存在

目的
期待値の推定精度を向上させる手法の提案
 期待値を用いた不確実性に基づく評価関数の設計
• 部分的完全調査モンテカルロ法を提案
• 生起確率の高い結果の列挙が容易という特徴を利用
• 推定精度を調べる予備実験
• Tour Planning Problemへ提案手法を適用
• Trading Agent Competitionへ提案手法を適用

生起確率が高い事象の列挙
対象とする問題の定式化
 ある1つのプランに対して1つの事象が確率的に生起する
ijij xxe :)(
 :,,1| WisS i 
 iiji NjxX ,,1| 
ijij xxp :)(
 
 iN
j ijij
i
i
i
xexpsE 1
)()(max)(max
iiKiii YYYX  21
 kiklik LlyY ,,1| 
iklikl yyp :)(
ただし，
is: に対して起こり得る全ての事象の集合
プラン集合
の生起確率
の評価値
iX: を構成する要素
の生起確率
1iY 2iY
1,1,iy
1,1, Liy
・・・
1,2,iy
2,2, Liy
・・・
3iY
1,3,iy
3,3, Liy
・・・
)( 1,1,iyp )( 1,2,iyp )( 1,3,iyp
2,2,iy2,1,iy 2,3,iy
)( 2,3,iyp
)( 2,3,iyp
1. 閾値を設定
2. 積を計算する過程で閾値を下回る
場合はその先を省略（枝刈り）
3. 生起確率が閾値以上の事象を列挙
定式化

部分的完全調査モンテカルロ法
•サンプリングの回数は固定
概要
 

2
)2()1( 1
)2(
2
)(
1
)()()(
M
u
iu
Xx
ij
Xx
ijiji e
M
xpxpxeE
iijiij

手順計算式
① プランに対して起こり得る全ての
事象の集合を2つに分割
② 閾値よりも大きい生起確率を持つ
事象の集合を完全調査
③ に関して加重サンプリングモンテ
カルロ法で推定
④ ②と③の結果から期待値を計算
② ③
ijx
iX
)1(
iX
)2(
iX
iE
ii sE :
is
から得られる評価値の期待値
)(:)1(
iji xpX が閾値以上であるの集合
ijx)(:)2(
iji xpX が閾値未満であるの集合
:M サンプリング回数
:2M の推定に使うサンプル数
)2(
iX
:)2()2(
iiu X )2(
iX の推定に使う個のサンプル2M
M
•生起確率の高い事象に関して正確な値
を計算できる
:1M の推定に使うサンプル数
)1(
iX
加重サンプリング 提案手法
M の数
四角形⇒事象
面積⇒生起確率
⇒ランダムに生成したサンプル
⇒使用しないサンプル
M ＋＋の数
•残りの事象に関する推定精度が低下す
る可能性がある
•サンプルの配分のバランスが重要
•確率の偏りが精度に影響

設定1
（の偏り小）
提案手法の有効性を調べる予備実験
閾値
平均誤差率（%）
各閾値における平均誤差率と完全調査個数
1.0000
0.0015
0.0010
0.0009
0.0008
0.0007
0.0006
0.0005
0.0004
0.0003
0.0002
0
100
200
300
400
500
600
700
800
900
完全調査個数
1.0000
0.0015
0.0010
0.0009
0.0008
0.0007
0.0006
0.0005
0.0004
0.0003
0.0002
0.02
0.03
0.04
0.05
1.0000
0.0015
0.0010
0.0009
0.0008
0.0007
0.0006
0.0005
0.0004
0.0003
0.0002
設定3
（の偏り大）
設定2
（の偏り中） •閾値の適切な設定に
より推定精度が向上
実験結果
• 各目の生起確率が異なるさいころ6個の組
• 各さいころの出目
• 出目の組合せ
• はランダム（）
完全調査個数
平均誤差率
0
0.1
0.2
0.3
0.4
0.5
1 2 3 4 5 6 7 8 9 10 目
生起確率
（例）3種類のさいころの設定
設定
is
},,{ 10,,1,, kikiik yyY 
},,{ 1000000,1, iii xxX 
加重サンプリングモンテカルロ法に相当
)( ijxe
• サンプリング回数は1000
• 各10000試行
設定1（の偏り小）
設定2（の偏り中）
設定3（の偏り大）
)( ijxp
)( ijxp
)( ijxp
)( ijxp )( ijxp )( ijxp
)0.1,0.100(N
適度な完全調査個数
とそれらが占める生起
確率の大きさが重要

精度を向上する条件と閾値の設定に関する考察
 提案手法により精度を向上するための条件
•完全調査を行いながら閾値を調整
•期待値の推定を繰り返しながら閾値を調整
))(var( ie  ：評価値の分散
))(var( )2(
ie  ：完全調査した事象を
除いた評価値の分散
|| )1(
iX ：完全調査した事象の総数

 )1(
)(
iij Xx
ijxp ：完全調査した事象が
占める生起確率の総和
M ：サンプリング総数
• ①≦１を満たす場合
に精度が向上
• ①は完全調査の結果
のみから計算可能
①に基づいた適切な閾値の設定

加重サンプリングモンテカルロ法の分散
提案手法の分散
1
))(var(
))(var(
)(1
||
)2(
)1(
)1(











 
 i
i
Xx
ij
i e
e
xp
XM
M
iij


≒1と仮定①
1.0000
0.0015
0.0010
0.0009
0.0008
0.0007
0.0006
0.0005
0.0004
0.0003
0.0002
平均誤差率
①の値
1.0000
0.0015
0.0010
0.0009
0.0008
0.0007
0.0006
0.0005
0.0004
0.0003
0.0002
0
0.5
1
1.5
2
2.5
3
3.5
0.0002
0.0003
0.0004
設定2
（の偏り中）)( ijxp0.0005
1
設定3
（の偏り大）)( ijxp
平均誤差率
①の変化
平均誤差率の変化と①の変化の比較
加重サンプリングモンテカルロ法に相当
提案手法
四角形⇒事象
面積⇒生起確率

Tour Planning Problemへの適用（１）
iv
複数の観光施設
訪れた施設毎のスコアの合計として計算さ
れる総スコアが最大となるTourを探索
移動，滞在に要する時間が確率的に与えられる
• 出発時刻 sD
• 出発地点
• 目的地点
sv
gv
観光客
施設 iv
• 時刻での
スコア
t
)(tsi
• 制限時刻 gD
制限時刻を超えた場合の総スコアは-1
客時間
客1 14時 23時 9
客2 8時 18時 10
 2種類の観光客の設定
sD gD
• 設定が異なる2種類の観光客
• SAでTourを探索
• 1000試行
• 評価値としてスコアの期待値を使用
• ２種類のモンテカルロ法（M=500）
A) 加重サンプリングモンテカルロ法
B) 提案手法
～提案手法を適用し有効性を評価実験設定
：Tour集合}{ isS 
：所要時間および総スコア集合
：移動，滞在の各時間コスト集合}{ iklik yY 
}{ ijxX 
各施設のスコアは状況に応じて決定
例）到着時刻，Tour全体で訪れる施設の種類など

Tour Planning Problemへの適用（２）
実験結果
66
68
70
72
74
76
78
80
82
84
86
客1
客2
計算時間（秒）404
408
412
416
420
期待値の平均
490
494
498
502
506
 各探索での最良解
の期待値の平均
 SA1試行の
平均計算時間
•客1に関して最良解の期待値の
平均が向上し標準偏差が減少
推定値と期待値
の平均二乗誤差
2.15
2.2
2.25
2.3
2.35
6.9
6.95
7
7.05
7.1
加重サンプリングモンテカルロ法
提案手法(閾値0.01)
 1000種類のTourに
関する平均二乗誤差
各10000試
行の推定
•閾値の適切な設定により推
定精度が向上
•客2に関しては変化無し
•計算時間が減少
⇒乱数生成に要する計算
時間が減少するため
⇒探索空間でのスコアの
分布に依存
⇒適度な確率の偏りが存在
するため
期待値の推定に
用いる各手法
1000試行の探索結果
期待値の平均
推定値と期待値
の平均二乗誤差
計算時間（秒）

3000
3500
4000
4500
5000
スコア
Trading Agent Competition（ TAC）への適用
•提案手法により期待値
の推定精度が向上
提案
手法
加重サンプリング
モンテカルロ法
期待値
未使用
100ゲームの平均スコア
• 複数の補完財を個別のオークションで入手
• 実際に落札できるかわからないという不確実性
• 結果が確率的に生起すると仮定
• 期待値が最大となる注文をGAで探索
ホテル
8人の客 Agent
・・・
航空券
娯楽
チケット
3種類の商品8人の競合相手
概要
•提案手法を用いることで平均的
に高いスコアを得ることが可能
0
20
40
60
80
100
加重サンプリング
モンテカルロ法
平均絶対誤差
各手法の平均絶対誤差
（提案手法の閾値）
様々な戦略に基づいて
作成されたエージェント
1000種類の注文
1000試行の推定
実験結果
IJCAI-03，AAMAS-04で開催された大会へ参加
}{ isS 
}{ iklik yY 
}{ iji xX 
：入札プラン集合
：全商品の落札結果集合（スコア）
：各商品の落札結果集合
0.1 0.01 0.005

結論
 期待値の推定精度を向上させる部分的完全調査モンテカルロ法
を提案した
• 閾値を適切に設定することで，適度な数の完全調査を実現し，
推定精度を向上することが可能
• 完全調査される事象が占める生起確率が大きい程提案手法は有効
 Tour Planning Problem及びTrading Agent Competition（TAC）とい
う 2種類の不確実性を含んだプランニングへ提案手法を適用した
• 期待値の推定精度が向上
• 推定精度の向上に伴って探索性能が向上
• 計算時間が減少する場合を確認

onodera m

Recommended

Recommended

More Related Content

More from harmonylab

More from harmonylab (20)

onodera m