Jack rental-car-problem

‫سشی‬ ‫توشیي‬‫هاضیي‬ ‫یادگیشی‬ ‫سَم‬
1
------------‫خذا‬ ‫ًام‬ ِ‫ت‬---------
1-‫دیٌاهیکی‬ ‫هذل‬
‫ضاهل‬ ،‫هحیظ‬ ‫دیٌاهیکی‬ ‫هذل‬a
ss
P '‫حالت‬ ‫اص‬ ‫اًتمال‬ ‫احتوال‬ ‫یا‬s‫حالت‬ ِ‫ت‬s’‫عول‬ ‫اًتخاب‬ ‫تحت‬a،ٍa
ss
R '‫یا‬
‫حالت‬ ‫اص‬ ‫اًتمال‬ ‫تحت‬ ُ‫ضذ‬ ‫دسیافت‬ ‫پاداش‬sِ‫ت‬s’‫عول‬ ‫اًتخاب‬ ‫تحت‬a.‫تاضذ‬ ‫هی‬‫ایي‬ ‫آٍسدى‬ ‫دست‬ ِ‫ت‬ ‫تشای‬
‫تَاتع‬‫ّش‬ ‫اصای‬ ِ‫ت‬ ،state-action‫تاتع‬rental_car‫تعذاد‬ ِ‫ت‬1111‫اص‬ ‫عثاستی‬ ِ‫ت‬ ٍ ‫است‬ ُ‫ضذ‬ ‫اجشا‬ ِ‫هشتث‬
ٍ ‫است‬ ُ‫ضذ‬ ‫تشداسی‬ ًَِ‫ًو‬ ‫هحیظ‬sample‫دیگش‬ ‫حالت‬ ‫ّش‬ ِ‫ت‬ ‫حالت‬ ‫ّش‬ ‫اص‬ ‫اًتمال‬ ‫احتوال‬ .‫است‬ ُ‫ضذ‬ ِ‫گشفت‬
‫اص‬ ‫اًتمال‬ ‫تاسّای‬ ‫تعذاد‬ ِ‫هحاسث‬ ‫تا‬sِ‫ت‬s’‫عول‬ ‫تحت‬a‫تعذاد‬ ‫کل‬ ‫تش‬ ‫تمسین‬sample‫پاداش‬ ‫همذاس‬ ٍ ،‫ّا‬
‫اص‬ ‫اًتمال‬sِ‫ت‬s’‫عول‬ ‫تحت‬a‫اص‬ ‫اًتمال‬ ‫دس‬ ُ‫ضذ‬ ‫دسیافت‬ ‫ّای‬ ‫پاداش‬ ‫اص‬ ‫گیشی‬ ‫هیاًگیي‬ ‫تا‬sِ‫ت‬s’‫دست‬ ِ‫ت‬
.‫است‬ ُ‫آهذ‬
‫صادلی‬ ‫صّشا‬ :‫خاًَادگی‬ ‫ًام‬ ٍ ‫ًام‬
:ُ‫چکیذ‬‫الگَسیتن‬ ٍ‫د‬ ‫توشیي‬ ‫ایي‬ ‫دس‬Policy IterationٍValue Iterationِ‫هسال‬ ‫سٍی‬
Jack’s rental car problem‫اص‬ ‫ّشیک‬ ‫سٍی‬ ‫گاها‬ ‫همذاس‬ ‫تاثیش‬ ٍ ‫اًذ‬ ُ‫ضذ‬ ِ‫همایس‬ ‫ّن‬ ‫تا‬
.‫است‬ ُ‫ضذ‬ ‫تشسسی‬ ‫ّا‬ ‫الگَسیتن‬

2
2-‫الگَسیتن‬ ٍ‫د‬ ‫ی‬ ِ‫همایس‬Policy Iteration(PI)ٍValue Iteration(VI)
‫الگَسیتن‬Policy Iteration(PI)ِ‫هشحل‬ ٍ‫د‬ ‫ضاهل‬Policy EvaluationٍPolicy Improvement
ِ‫هشحل‬ ‫دس‬ ‫اتتذا‬ .‫تاضذ‬ ‫هی‬Policy Evaluation‫فشهَل‬ ‫اص‬ ُ‫استفاد‬ ‫تا‬ ‫ّا‬ ‫حالت‬ ‫ی‬ ِ‫ّو‬ ‫همادیش‬Bellman
ِ‫هشحل‬ ‫دس‬ ،‫سپس‬ ‫ضَد؛‬ ‫هی‬ ِ‫هحاسث‬Policy Improvement‫جَاب‬ ٌِ‫تیطی‬ ِ‫ت‬ ‫هٌجش‬ ِ‫ک‬ ‫ّایی‬ ‫سیاست‬
‫ّا‬ ‫سیاست‬ ‫کشدى‬ ‫تٌْگام‬ ‫سٍش‬ .‫ضًَذ‬ ‫هی‬ ‫لثلی‬ ‫سیاست‬ ‫جایگضیي‬ ٍ ‫ضًَذ‬ ‫هی‬ ‫پیذا‬ ‫ضًَذ‬ ‫هی‬ ‫حالت‬ ‫ّش‬ ‫تشای‬
‫کاهل‬greedy‫ت‬ ‫همذاس‬ ِ‫ت‬ ‫هٌجش‬ ِ‫ک‬ ‫ّایی‬ ‫عول‬ ِ‫کلی‬ ‫سیاست‬ ‫همذاس‬ ِ‫ک‬ ‫هعٌی‬ ‫ایي‬ ِ‫ت‬ ‫ضَد‬ ‫هی‬ ‫اًجام‬ٌِ‫یطی‬
‫صفش‬ ‫ضًَذ‬ ‫ًوی‬ ‫حالت‬ ‫ّش‬ ‫تشای‬‫ضَد‬ ‫هی‬ ِ‫گزاضت‬ِ‫داضت‬ ‫ٍجَد‬ ‫ّا‬ ‫سیاست‬ ‫ساصی‬ ‫تٌْگام‬ ‫اهکاى‬ ِ‫ک‬ ‫صهاًی‬ ‫تا‬ .
‫تاضذ‬‫تاضذ‬ ‫هتفاٍت‬ ‫لثلی‬ ‫سیاست‬ ‫تا‬ ‫جذیذ‬ ‫سیاست‬ ٍ‫تکشاس‬ ‫ّا‬ ‫سیاست‬ ‫ساصی‬ ‫تْثَد‬ ٍ ‫سیاست‬ ‫اسصیاتی‬ ‫هشاحل‬ ،
‫الگَسیتن‬ ‫دس‬ .‫ضًَذ‬ ‫هی‬Value Iteration(VI)‫یک‬ ِ‫ت‬ ِ‫هشحل‬ ٍ‫د‬ ‫ایي‬ ‫اًجام‬ِ‫ت‬ .‫است‬ ِ‫یافت‬ ‫کاّص‬ ِ‫هشحل‬
‫همادیش‬ ‫تواهی‬ ‫دٍس‬ ‫یک‬ ِ‫آًک‬ ‫جای‬ ِ‫ت‬ ،‫عثاستی‬‫ّا‬ ‫حالت‬‫صفش‬ ‫سا‬ ٌِ‫تْی‬ ‫غیش‬ ‫ّای‬ ‫سیاست‬ ‫سپس‬ ٍ ‫ضًَذ‬ ِ‫هحاسث‬
‫تٌْگام‬ ،‫کٌذ‬ ‫هی‬ ‫تَلیذ‬ ‫سا‬ ‫همذاس‬ ٌِ‫تیطی‬ ِ‫ک‬ ‫سیاستی‬ ِ‫ت‬ ِ‫تَج‬ ‫تا‬ ‫تٌْا‬ ،‫حالت‬ ‫ّش‬ ‫همادیش‬ ِ‫هشحل‬ ‫یک‬ ‫دس‬ ،‫ًوَد‬
‫الگَسیتن‬ ،‫کلی‬ ‫عَس‬ ِ‫ت‬ .‫ضَد‬ ‫هی‬Value Iteration‫تا‬ ‫سا‬ ‫آى‬ ‫تْثَدساصی‬ ٍ ‫سیاست‬ ‫اسصیاتی‬ ‫هَثشی‬ ‫ضکل‬ ِ‫ت‬
‫است‬ ُ‫کشد‬ ‫تشکیة‬ ‫ّن‬‫کاسایی‬ ‫ًظش‬ ‫ایي‬ ‫اص‬ ٍ ‫است‬ ُ‫کشد‬ ‫کوتش‬ ‫سا‬ ‫ّا‬ ِ‫حلم‬ ٍ ‫هحاسثات‬ ‫همذاس‬ ‫تشتیة‬ ‫ایي‬ ِ‫ت‬ ٍ
‫داسد‬ ‫تاالتشی‬‫الگَسیتن‬ ‫تش‬ ‫سشیع‬ ‫ّوگشایی‬ ‫تاعث‬ ،‫کاس‬ ‫ایي‬ .VIِ‫ت‬ ‫ًسثت‬PI‫ایي‬ ‫ّشدٍی‬ ‫ٍلی‬ .‫است‬ ُ‫ضذ‬
َ‫ج‬ ‫یک‬ ِ‫ت‬ ‫ّا‬ ‫الگَسیتن‬.‫ضًَذ‬ ‫هی‬ ‫ّوگشا‬ ٌِ‫تْی‬ ‫سیاست‬ ‫یا‬ ‫اب‬
3-‫گاها‬ ‫همذاس‬ ‫تاثیش‬
‫ّش‬ ‫اصای‬ ِ‫ت‬ ِ‫ک‬ ‫است‬ ُ‫ضذ‬ ‫اثثات‬1‫دٍستیي‬ ‫همذاس‬ ‫گاها‬ ،‫ٍالع‬ ‫دس‬ ‫است؛‬ ‫تضویي‬ ‫ّا‬ ‫الگَسیتن‬ ‫ایي‬ ‫ّوگشایی‬
‫اّویت‬ ‫تعذی‬ ‫ّای‬ ‫حالت‬ ‫ّای‬ ‫اسصش‬ ِ‫ت‬ ‫عاهل‬ ،‫تاضذ‬ ‫تش‬ ‫تضسگ‬ ‫گاها‬ ِ‫چ‬ ‫ّش‬ .‫کٌذ‬ ‫هی‬ ‫هطخص‬ ‫سا‬ ‫ّا‬ ‫عاهل‬ ‫تَدى‬
‫است‬ ‫تیي‬ ‫ًضدیک‬ ‫عاهل‬ ‫یک‬ ‫هعشف‬ ،‫گاها‬ ‫تَدى‬ ‫کن‬ ِ‫دسحالیک‬ .‫است‬ ‫تیطتش‬ ‫آى‬ ‫ًگشی‬ ُ‫آیٌذ‬ ٍ ‫دّذ‬ ‫هی‬ ‫تیطتشی‬
‫پاداش‬ ِ‫ت‬ ِ‫ک‬‫هی‬ ‫افضایص‬ ‫سا‬ ‫ّوگشایی‬ ‫صهاى‬ ‫هذت‬ ‫گاها‬ ‫همذاس‬ ‫تَدى‬ ‫تاال‬ .‫دّذ‬ ‫هی‬ ‫تیطتشی‬ ‫اّویت‬ ‫ای‬ ِ‫لحظ‬
‫دًثال‬ ِ‫ت‬ ‫عاهل‬ ٍ ‫است‬ ‫تش‬ ‫تلٌذ‬ ‫عاهل‬ ‫دیذ‬ ‫افك‬ ،‫تاضذ‬ ‫تش‬ ‫تضسگ‬ ‫گاها‬ ِ‫ّشچ‬ ِ‫ک‬ ‫است‬ ‫ایي‬ ‫اتفاق‬ ‫ایي‬ ‫دلیل‬ .‫دّذ‬
‫اًتخاب‬state-action‫اه‬ .‫ضَد‬ ‫هی‬ ‫هذت‬ ‫تلٌذ‬ ‫دس‬ ‫آى‬ ‫اسصش‬ ‫سفتي‬ ‫تاال‬ ِ‫ت‬ ‫هٌجش‬ ِ‫ک‬ ‫است‬ ‫ّایی‬‫همذاس‬ ‫اگش‬ ‫ا‬
‫فمظ‬ ‫عاهل‬ ،‫تاضذ‬ ‫کن‬ ‫گاها‬state-action‫دس‬ ‫تاالتشی‬ ‫پاداش‬ ‫دسیافت‬ ِ‫ت‬ ‫هٌجش‬ ِ‫ک‬ ‫کٌذ‬ ‫هی‬ ‫اًتخاب‬ ‫سا‬ ‫ّایی‬
‫هی‬ ‫اًجام‬ ‫ًشهی‬ ِ‫ت‬ ِ‫هسال‬ ‫فضای‬ ‫دس‬ ‫حشکت‬ ،‫گاها‬ ‫همذاس‬ ‫تَدى‬ ‫پاییي‬ ‫تا‬ ،‫دیگش‬ ‫تعثیشی‬ ِ‫ت‬ .‫ضًَذ‬ ‫هی‬ ِ‫لحظ‬ ‫ّواى‬
‫همذاس‬ ‫تَدى‬ ‫تاال‬ ‫اها‬ ،‫ضًَذ‬ ‫هی‬ ‫تشسسی‬ ‫ّا‬ ‫جَاب‬ ‫تواهی‬ ٍ ‫ضَد‬ٍ ‫ضَد‬ ‫هی‬ ِ‫هسال‬ ‫فضای‬ ‫دس‬ ‫جْص‬ ‫تاعث‬ ‫گاها‬

3
‫تشای‬ ِ‫دسًتیج‬exploreٍ ‫است‬ ‫تضسگ‬ ‫ّا‬ ‫گام‬ ‫چَى‬ ‫ضَد‬ ‫هی‬ ‫ًیاص‬ ‫تیطتشی‬ ‫صهاى‬ ِ‫هسال‬ ‫فضای‬ ‫تواهی‬ ‫کشدى‬
.‫ضَد‬ ‫پشش‬ ‫ّا‬ ‫جَاب‬ ‫اص‬ ‫تسیاسی‬ ‫سٍی‬ ‫اص‬ ‫است‬ ‫هوکي‬
4-‫ساصی‬ ِ‫ضثی‬ ‫ًتایج‬
‫دس‬‫جذٍل‬1‫هختلف‬ ‫ّای‬ ‫سٍش‬ ‫تشای‬ ٌِ‫تْی‬ ‫سیاست‬ ِ‫ت‬ ‫سسیذى‬ ‫تشای‬ ‫الصم‬ ‫صهاى‬ ‫هذت‬.‫است‬ ُ‫ضذ‬ ِ‫همایس‬ ‫ّن‬ ‫تا‬
‫الگَسیتن‬ ِ‫ت‬ ‫هشتَط‬ ‫اجشا‬ ‫صهاى‬ ‫کوتشیي‬VI‫تشاتش‬ ‫گاهای‬ ‫همذاس‬ ‫تا‬1.6.‫است‬‫اص‬ ٍ ‫ضذ‬ ُ‫داد‬ ‫تَضیح‬ ‫لثال‬ ِ‫ک‬ ‫عَس‬ ‫ّواى‬
‫الگَسیتن‬ ،‫است‬ ‫هطخص‬ ‫ًیض‬ ُ‫آهذ‬ ‫دست‬ ِ‫ت‬ ‫ًتایج‬ ‫سٍی‬VIِ‫هشحل‬ ٍ‫د‬ ِ‫آًک‬ ‫دلیل‬ ِ‫ت‬ ،‫داسد‬ ‫تاالتشی‬ ‫ّوگشایی‬ ‫سشعت‬
‫الگَسیتن‬ ‫دس‬ ُ‫ضذ‬ ‫اًجام‬ ‫ی‬PI‫اها‬ ‫ضًَذ؛‬ ‫هی‬ ‫اًجام‬ ِ‫هشحل‬ ‫یک‬ ‫دس‬‫الگَسیتن‬ ‫دس‬VI‫تعذاد‬iteration‫ّا‬‫ی‬
‫خاسجی‬‫کل‬ ‫ّواى‬ ‫ٍالع‬ ‫دس‬ ِ‫(ک‬iteration)‫است‬ ‫الگَسیتن‬ ‫ایي‬ ‫دس‬ ‫ّا‬‫الگَسیتن‬ ‫اص‬ ‫تیطتش‬PIِ‫آًک‬ ‫دلیل‬ ِ‫ت‬ ‫است؛‬
‫الگَسیتن‬ ‫تشای‬PI‫یک‬ ‫عٌَاى‬ ِ‫ت‬ ِ‫هشحل‬ ٍ‫د‬ ‫ّش‬ ‫اجشای‬ ‫کاهل‬ ‫دٍس‬ ‫یک‬iteration‫خاسجی‬ِ‫ک‬ ‫است‬ ُ‫ضذ‬ ‫حساب‬
‫ّش‬ ‫دس‬ ‫ّا‬ ‫حالت‬ ‫همذاس‬ ‫ضذى‬ ‫پایذاس‬ ‫تشای‬ ‫تیطتشی‬ ‫ّای‬ ِ‫حلم‬ ‫تعذاد‬ ‫ضاهل‬ ‫خَد‬iteration‫تاضذ‬ ‫هی‬‫عَس‬ ‫ّواى‬ ٍ
‫الگَسیتن‬ ‫تشای‬ ‫ّا‬ ِ‫حلم‬ ‫کل‬ ‫تعذاد‬ ‫است‬ ‫هعلَم‬ ‫ًتایج‬ ‫سٍی‬ ‫اص‬ ِ‫ک‬PI‫اص‬ ‫تیطتش‬ ‫تسیاس‬VI‫است‬.‫الگَسیتن‬ ‫کلی‬ ‫عَس‬ ِ‫ت‬
VI.‫است‬ ُ‫ًوَد‬ ‫جَیی‬ ِ‫صشف‬ ‫ّوگشایی‬ ‫صهاى‬ ‫دس‬ ‫ّا‬ ‫حالت‬ ‫همادیش‬ ِ‫هحاسث‬ ‫کشدى‬ ُ‫یکثاس‬ ‫تا‬
‫جذٍل‬1‫الگَسیتن‬ ٍ‫د‬ ‫دس‬ ‫اجشا‬ ‫هذت‬ ِ‫همایس‬PIٍVI
Value Iteration
9.0
Value Iteration
6.0
Policy Iteration
9.0
Policy Iteration
6.0
4.15631.031313.59383.3750Run Time (s)
942343# External Iteration
--26143# Total Iteration
‫دس‬ ‫ّا‬ ‫حالت‬ ‫همذاس‬ ُ‫ّوشا‬ ِ‫ت‬ ،‫تاضذ‬ ‫هی‬ ‫حالت‬ ‫ّش‬ ‫دس‬ ُ‫ضذ‬ ‫اًتخاب‬ ‫ّای‬ ‫عول‬ ‫ضاهل‬ ِ‫ک‬ ٌِ‫تْی‬ ‫ًْایی‬ ‫سیاست‬
‫اصای‬ ِ‫ت‬ ٌِ‫تْی‬ ‫ًْایی‬ ‫سیاست‬6.0ٍ9.0‫دسضکل‬ ‫تشتیة‬ ِ‫ت‬1‫ضکل‬ ٍ2.‫است‬ ُ‫ضذ‬ ُ‫داد‬ ‫ًطاى‬‫دس‬
‫ّای‬ ‫لسوت‬bٍe‫است‬ ُ‫ضذ‬ ‫تیاى‬ ُ‫ضذ‬ ‫اًتخاب‬ ‫عول‬ ِ‫تَسیل‬ ‫ّا‬ ‫حالت‬ ‫اص‬ ‫یک‬ ‫ّش‬ ‫دس‬ ُ‫ضذ‬ ‫اًتخاب‬ ‫سیاست‬ٍ‫ّش‬
‫عول‬‫ّای‬ ‫عول‬ ٍ ‫است‬ ُ‫ضذ‬ ُ‫داد‬ ‫ًطاى‬ ‫هتفاٍت‬ ‫سًگ‬ ‫یک‬ ‫تا‬-5+ ‫تا‬5ِ‫ت‬‫ّای‬ ُ‫ضواس‬1‫تا‬11.‫اًذ‬ ُ‫ضذ‬ ‫هتٌاظش‬
‫اص‬ ‫ّا‬ ‫حالت‬ ‫ٍضعیت‬ ‫ّوچٌیي‬(1,1)‫تا‬(21,21)‫ّای‬ ‫حالت‬ ‫تا‬ ‫است‬ ‫هتٌاظش‬ ِ‫ک‬ ‫است‬ ُ‫کشد‬ ‫تغییش‬(0,0)‫تا‬
(20,20).‫الگَسیتن‬ ٍ‫د‬ ‫ّش‬ ‫ضَد‬ ‫هی‬ ِ‫هالحظ‬ ِ‫ک‬ ‫عَس‬ ‫ّواى‬PIٍVIِ‫ت‬ ‫تشاتش‬ ‫گاهای‬ ‫همذاس‬ ‫اصای‬ ِ‫ت‬‫ّای‬ ‫سیاست‬
‫یکساًی‬ ‫کاهال‬ُ‫ضذ‬ ‫ّوگشا‬‫اًذ‬‫ٍلی‬ ،‫الگَسیتن‬ ٍ‫د‬ ‫تشای‬ ‫ّا‬ ‫حالت‬ ‫همذاس‬‫تشاتش‬ ‫گاهای‬ ‫همذاس‬ ‫اصای‬ ِ‫ت‬‫تسیاس‬ ‫حذ‬ ‫دس‬
‫داسًذ‬ ‫اختالف‬ ‫ّن‬ ‫تا‬ ‫ّضاسم‬ ُ‫د‬ ‫جضیی‬.ُ‫ضذ‬ ‫رکش‬ ‫هتفاٍت‬ ‫گاهای‬ ٍ‫د‬ ‫اصای‬ ِ‫ت‬ ٌِ‫تْی‬ ‫ًْایی‬ ‫سیاست‬‫است‬ ِ‫هطات‬ ‫تسیاس‬

4
‫حذٍد‬ ‫چیضی‬ ‫دس‬ ‫فمظ‬ ٍ11-15.‫داسًذ‬ ‫فشق‬ ‫تاّن‬ ‫عول‬‫گاهای‬ ‫همذاس‬ ِ‫گشچ‬1.0‫همذاس‬ ِ‫ت‬ ‫هٌجش‬‫تشای‬ ‫تیطتشی‬
ِ‫ت‬ ‫الگَسیتن‬ ٍ‫د‬ ‫تشای‬ ٌِ‫تْی‬ ‫ًْایی‬ ‫سیاست‬ ‫اها‬ ،‫است‬ ُ‫ضذ‬ ‫ّا‬ ‫حالت‬‫اصای‬.‫تاضذ‬ ‫هی‬ ‫هساٍی‬ ‫تشاتش‬ ‫گاهای‬ ‫یک‬
5-‫ًتی‬‫گیشی‬ ِ‫ج‬
‫الگَسیتن‬ ٍ‫د‬PIٍVI‫اها‬ ‫ضًَذ‬ ‫هی‬ ‫ّوگشا‬ ‫سیاست‬ ‫یک‬ ِ‫ت‬ ،‫هساٍی‬ ِ‫اٍلی‬ ‫ضشایظ‬ ٍ ‫تشاتش‬ ‫گاهای‬ ‫همذاسّای‬ ‫اصای‬ ِ‫ت‬
‫الگَسیتن‬ ‫ّوگشایی‬ ‫سشعت‬VI‫الگَسیتن‬ ‫جذای‬ ‫ی‬ ِ‫هشحل‬ ٍ‫د‬ ِ‫آًک‬ ‫دلیل‬ ِ‫ت‬ ‫است‬ ‫تاالتش‬PI‫الگَسیتن‬ ‫دس‬VI‫یک‬ ِ‫ت‬
.‫است‬ ِ‫یافت‬ ‫تملیل‬ ِ‫هشحل‬‫الگَسیتن‬ ‫هضایای‬VIِ‫ت‬ ‫ًسثت‬PI‫ّوگشایی‬ ٍ ‫کوتش‬ ‫ّای‬ ِ‫حلم‬ ‫تعذاد‬ ،‫کوتش‬ ِ‫هحاسث‬
.‫تاضذ‬ ‫هی‬ ‫تش‬ ‫سشیع‬‫گاهای‬ ‫ّش‬ ‫اصای‬ ِ‫ت‬ ‫اها‬ ‫سٍد‬ ‫هی‬ ‫تاالتش‬ َ‫جستج‬ ‫صهاى‬ ‫تاضذ‬ ‫تش‬ ‫تضسگ‬ ‫گاها‬ ‫همذاس‬ ِ‫چ‬ ‫ّش‬ ‫ّوچٌیي‬
‫اص‬ ‫کوتش‬1.‫ضذ‬ ‫خَاّذ‬ ‫ّوگشا‬ ٌِ‫تْی‬ ‫جَاب‬ ‫یک‬ ِ‫ت‬ ‫حتوا‬ ‫الگَسیتن‬ ،

5
b) Actions selected at each statea) State-value function for final optimal policy
Policy Iteration
e) Actions selected at each stated) State-value function for final optimal policy
Value Iteration
Results of applying Gamma=0.6
‫شکل‬2

6
b) Actions selected at each stateb) State-value function for final optimal policy
Policy Iteration
e) Actions selected at each stated) State-value function for final optimal policy
Value Iteration
Results of applying Gamma=0.9
‫شکل‬3

Jack rental-car-problem

More Related Content

Viewers also liked

Similar to Jack rental-car-problem

More from Zahra Sadeghi

Jack rental-car-problem