SlideShare a Scribd company logo
部分的完全調査モンテカルロ法
の提案と不確実性を含んだプラ
ンニングへの適用に関する研究
調和系工学研究室
修士2年 小野寺 将輝
モンテカルロ法により得られる評価値の期待値を推定
背景
 不確実性を含んだプランニングに関する研究
• 電子商取引におけるソフトウェアの意思決定[Wellman et al. 2001]
• 設備保守計画立案[手塚ら,2003][山崎ら,2003]
• Path Planning[Wellman et al. 1995]
• 出来るだけ少ない計算コストで正確に推定することが望ましい
 不確実性に基づいたプランの評価が必要
 生起確率の高い結果の列挙が容易な場合がある
• 結果が複数の独立な確率事象の組合せとして定義される場合
• 1つのプランに対して確率的に結果が生起
• 結果の候補が無数に存在
目的
期待値の推定精度を向上させる手法の提案
 期待値を用いた不確実性に基づく評価関数の設計
• 部分的完全調査モンテカルロ法を提案
• 生起確率の高い結果の列挙が容易という特徴を利用
• 推定精度を調べる予備実験
• Tour Planning Problemへ提案手法を適用
• Trading Agent Competitionへ提案手法を適用
生起確率が高い事象の列挙
対象とする問題の定式化
 ある1つのプランに対して1つの事象が確率的に生起する
ijij xxe :)(
 :,,1| WisS i 
 iiji NjxX ,,1| 
ijij xxp :)(
 
 iN
j ijij
i
i
i
xexpsE 1
)()(max)(max
iiKiii YYYX  21
 kiklik LlyY ,,1| 
iklikl yyp :)(
ただし,
is: に対して起こり得る全ての事象の集合
プラン集合
の生起確率
の評価値
iX: を構成する要素
の生起確率
1iY 2iY
1,1,iy
1,1, Liy
・・・
1,2,iy
2,2, Liy
・・・
3iY
1,3,iy
3,3, Liy
・・・
)( 1,1,iyp )( 1,2,iyp )( 1,3,iyp
2,2,iy2,1,iy 2,3,iy
)( 2,3,iyp
)( 2,3,iyp
1. 閾値を設定
2. 積を計算する過程で閾値を下回る
場合はその先を省略(枝刈り)
3. 生起確率が閾値以上の事象を列挙
定式化
部分的完全調査モンテカルロ法
•サンプリングの回数 は固定
概要
 

2
)2()1( 1
)2(
2
)(
1
)()()(
M
u
iu
Xx
ij
Xx
ijiji e
M
xpxpxeE
iijiij

手順 計算式
① プラン に対して起こり得る全ての
事象の集合 を2つに分割
② 閾値よりも大きい生起確率を持つ
事象の集合 を完全調査
③ に関して加重サンプリングモンテ
カルロ法で推定
④ ②と③の結果から期待値 を計算
② ③
ijx
iX
)1(
iX
)2(
iX
iE
ii sE :
is
から得られる評価値の期待値
)(:)1(
iji xpX が閾値以上である の集合
ijx)(:)2(
iji xpX が閾値未満である の集合
:M サンプリング回数
:2M の推定に使うサンプル数
)2(
iX
:)2()2(
iiu X )2(
iX の推定に使う 個のサンプル2M
M
•生起確率の高い事象に関して正確な値
を計算できる
:1M の推定に使うサンプル数
)1(
iX
加重サンプリング 提案手法
M の数
四角形⇒事象
面積⇒生起確率
⇒ランダムに生成したサンプル
⇒使用しないサンプル
M ++ の数
•残りの事象に関する推定精度が低下す
る可能性がある
•サンプルの配分のバランスが重要
•確率の偏りが精度に影響
設定1
( の偏り 小)
提案手法の有効性を調べる予備実験
閾値
平均誤差率(%)
各閾値における平均誤差率と完全調査個数
1.0000
0.0015
0.0010
0.0009
0.0008
0.0007
0.0006
0.0005
0.0004
0.0003
0.0002
0
100
200
300
400
500
600
700
800
900
完全調査個数
1.0000
0.0015
0.0010
0.0009
0.0008
0.0007
0.0006
0.0005
0.0004
0.0003
0.0002
0.02
0.03
0.04
0.05
1.0000
0.0015
0.0010
0.0009
0.0008
0.0007
0.0006
0.0005
0.0004
0.0003
0.0002
設定3
( の偏り 大)
設定2
( の偏り 中) •閾値の適切な設定に
より推定精度が向上
実験結果
• 各目の生起確率が異なるさいころ6個の組
• 各さいころの出目
• 出目の組合せ
• はランダム( )
完全調査個数
平均誤差率
0
0.1
0.2
0.3
0.4
0.5
1 2 3 4 5 6 7 8 9 10 目
生起確率
(例)3種類のさいころの設定
設定
is
},,{ 10,,1,, kikiik yyY 
},,{ 1000000,1, iii xxX 
加重サンプリングモンテカルロ法に相当
)( ijxe
• サンプリング回数は1000
• 各10000試行
設定1( の偏り 小)
設定2( の偏り 中)
設定3( の偏り 大)
)( ijxp
)( ijxp
)( ijxp
)( ijxp )( ijxp )( ijxp
)0.1,0.100(N
適度な完全調査個数
とそれらが占める生起
確率の大きさが重要
精度を向上する条件と閾値の設定に関する考察
 提案手法により精度を向上するための条件
•完全調査を行いながら閾値を調整
•期待値の推定を繰り返しながら閾値を調整
))(var( ie  :評価値の分散
))(var( )2(
ie  :完全調査した事象を
除いた評価値の分散
|| )1(
iX :完全調査した事象の総数

 )1(
)(
iij Xx
ijxp :完全調査した事象が
占める生起確率の総和
M :サンプリング総数
• ①≦1を満たす場合
に精度が向上
• ①は完全調査の結果
のみから計算可能
①に基づいた適切な閾値の設定

加重サンプリングモンテカルロ法の分散
提案手法の分散
1
))(var(
))(var(
)(1
||
)2(
)1(
)1(











 
 i
i
Xx
ij
i e
e
xp
XM
M
iij


≒1と仮定①
1.0000
0.0015
0.0010
0.0009
0.0008
0.0007
0.0006
0.0005
0.0004
0.0003
0.0002
平均誤差率
①の値
1.0000
0.0015
0.0010
0.0009
0.0008
0.0007
0.0006
0.0005
0.0004
0.0003
0.0002
0
0.5
1
1.5
2
2.5
3
3.5
0.0002
0.0003
0.0004
設定2
( の偏り 中))( ijxp0.0005
1
設定3
( の偏り 大))( ijxp
平均誤差率
①の変化
平均誤差率の変化と①の変化の比較
加重サンプリングモンテカルロ法に相当
提案手法
四角形⇒事象
面積⇒生起確率
Tour Planning Problemへの適用(1)
iv
複数の観光施設
訪れた施設毎のスコアの合計として計算さ
れる総スコアが最大となるTourを探索
移動,滞在に要する時間が確率的に与えられる
• 出発時刻 sD
• 出発地点
• 目的地点
sv
gv
観光客
施設 iv
• 時刻 での
スコア
t
)(tsi
• 制限時刻 gD
制限時刻を超えた場合の総スコアは-1
客 時間
客1 14時 23時 9
客2 8時 18時 10
 2種類の観光客の設定
sD gD
• 設定が異なる2種類の観光客
• SAでTourを探索
• 1000試行
• 評価値としてスコアの期待値を使用
• 2種類のモンテカルロ法(M=500)
A) 加重サンプリングモンテカルロ法
B) 提案手法
~提案手法を適用し有効性を評価実験設定
:Tour集合}{ isS 
:所要時間および総スコア集合
:移動,滞在の各時間コスト集合}{ iklik yY 
}{ ijxX 
各施設のスコアは状況に応じて決定
例)到着時刻,Tour全体で訪れる施設の種類など
Tour Planning Problemへの適用(2)
実験結果
66
68
70
72
74
76
78
80
82
84
86
客1
客2
計算時間(秒)404
408
412
416
420
期待値の平均
490
494
498
502
506
 各探索での最良解
の期待値の平均
 SA1試行の
平均計算時間
•客1に関して最良解の期待値の
平均が向上し標準偏差が減少
推定値と期待値
の平均二乗誤差
2.15
2.2
2.25
2.3
2.35
6.9
6.95
7
7.05
7.1
加重サンプリングモンテカルロ法
提案手法(閾値0.01)
提案手法(閾値0.0075)
提案手法(閾値0.005)
提案手法(閾値0.003)
 1000種類のTourに
関する平均二乗誤差
各10000試
行の推定
•閾値の適切な設定により推
定精度が向上
•客2に関しては変化無し
•計算時間が減少
⇒乱数生成に要する計算
時間が減少するため
⇒探索空間でのスコアの
分布に依存
⇒適度な確率の偏りが存在
するため
期待値の推定に
用いる各手法
1000試行の探索結果
期待値の平均
推定値と期待値
の平均二乗誤差
計算時間(秒)
3000
3500
4000
4500
5000
スコア
Trading Agent Competition( TAC)への適用
•提案手法により期待値
の推定精度が向上
提案
手法
加重サンプリング
モンテカルロ法
期待値
未使用
100ゲームの平均スコア
• 複数の補完財を個別のオークションで入手
• 実際に落札できるかわからないという不確実性
• 結果が確率的に生起すると仮定
• 期待値が最大となる注文をGAで探索
ホテル
8人の客 Agent
・・・
航空券
娯楽
チケット
3種類の商品8人の競合相手
概要
•提案手法を用いることで平均的
に高いスコアを得ることが可能
0
20
40
60
80
100
加重サンプリング
モンテカルロ法
平均絶対誤差
各手法の平均絶対誤差
(提案手法の閾値)
様々な戦略に基づいて
作成されたエージェント
1000種類の注文
1000試行の推定
実験結果
IJCAI-03,AAMAS-04で開催された大会へ参加
}{ isS 
}{ iklik yY 
}{ iji xX 
:入札プラン集合
:全商品の落札結果集合(スコア)
:各商品の落札結果集合
0.1 0.01 0.005
結論
 期待値の推定精度を向上させる部分的完全調査モンテカルロ法
を提案した
• 閾値を適切に設定することで,適度な数の完全調査を実現し,
推定精度を向上することが可能
• 完全調査される事象が占める生起確率が大きい程提案手法は有効
 Tour Planning Problem及びTrading Agent Competition(TAC)とい
う 2種類の不確実性を含んだプランニングへ提案手法を適用した
• 期待値の推定精度が向上
• 推定精度の向上に伴って探索性能が向上
• 計算時間が減少する場合を確認

More Related Content

More from harmonylab

【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
harmonylab
 

More from harmonylab (20)

【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 

onodera m