Nn

‫شبکه‬‫های‬‫مصنوعی‬ ‫عصبی‬
Instructor : Saeed Shiry

‫مقدمه‬
‫توابع‬ ‫یادگیری‬ ‫برای‬ ‫عملی‬ ‫روشی‬ ‫مصنوعی‬ ‫عصبی‬ ‫شبکه‬
‫با‬ ‫توابع‬ ‫نظیر‬ ‫گوناگون‬‫حقیقی‬ ‫مقادیر‬،‫گسسته‬ ‫مقادیر‬ ‫با‬ ‫توابع‬
‫برداری‬ ‫مقادیر‬ ‫با‬ ‫توابع‬ ‫و‬.‫میباشد‬
‫آموزشی‬ ‫های‬ ‫داده‬ ‫خطاهای‬ ‫برابر‬ ‫در‬ ‫عصبی‬ ‫شبکه‬ ‫یادگیری‬
‫نظیر‬ ‫مسائلی‬ ‫به‬ ‫موفقیت‬ ‫با‬ ‫ها‬ ‫شبکه‬ ‫اینگونه‬ ‫و‬ ‫بوده‬ ‫مصون‬
‫روبات‬ ‫یادگیری‬ ‫و‬ ،‫تصاویر‬ ‫تعبیر‬ ‫و‬ ‫شناسائی‬ ،‫گفتار‬ ‫شناسائی‬
.‫است‬ ‫شده‬ ‫اعمال‬

‫چیست؟‬ ‫عصبی‬ ‫شبکه‬
‫است‬ ‫محاسبه‬ ‫برای‬ ‫روشی‬
‫هم‬ ‫به‬ ‫اتصال‬ ‫پایه‬ ‫بر‬ ‫که‬
‫واحد‬ ‫چندین‬ ‫پیوسته‬
.‫میشود‬ ‫ساخته‬ ‫پردازشی‬
‫دلخواهی‬ ‫تعداد‬ ‫از‬ ‫شبکه‬
‫یا‬ ‫واحد‬ ‫یا‬ ‫گره‬ ‫یا‬ ‫سلول‬
‫که‬ ‫میشود‬ ‫تشکیل‬ ‫نرون‬
‫به‬ ‫را‬ ‫ورودی‬ ‫مجموعه‬
.‫میدهند‬ ‫ربط‬ ‫خروجی‬

‫دارد؟‬ ‫قابلیتهائی‬ ‫چه‬ ‫عصبی‬ ‫شبکه‬
‫معلوم‬ ‫تابع‬ ‫یک‬ ‫محاسبه‬
‫ناشناخته‬ ‫تابع‬ ‫یک‬ ‫تقریب‬
‫الگو‬ ‫شناسائی‬
‫سیگنال‬ ‫پردازش‬
‫یادگیری‬

.‫باشد‬ ‫داشته‬ ‫وجود‬ ‫آموزشی‬ ‫های‬ ‫داده‬ ‫در‬ ‫خطا‬‫مثل‬‫آموزشی‬ ‫های‬ ‫داده‬ ‫که‬ ‫مسائلی‬
‫هستند‬ ‫ها‬ ‫میکروفن‬ ‫و‬ ‫دوربین‬ ‫نظیر‬ ‫سنسورها‬ ‫دادهای‬ ‫از‬ ‫حاصل‬ ‫نویز‬ ‫دارای‬.
‫شده‬ ‫داده‬ ‫نشان‬ ‫ویژگی-مقدار‬ ‫زوج‬ ‫زیادی‬ ‫مقادیر‬ ‫توسط‬ ‫ها‬ ‫نمونه‬ ‫که‬ ‫مواردی‬
.‫ویدئوئی‬ ‫دوربین‬ ‫یک‬ ‫از‬ ‫حاصل‬ ‫های‬ ‫داده‬ ‫نظیر‬ .‫باشند‬
.‫باشد‬ ‫پیوسته‬ ‫مقادیر‬ ‫دارای‬ ‫هدف‬ ‫تابع‬
‫روشهای‬ ‫با‬ ‫مقایسه‬ ‫در‬ ‫روش‬ ‫این‬ .‫باشد‬ ‫داشته‬ ‫وجود‬ ‫یادگیری‬ ‫برای‬ ‫کافی‬ ‫زمان‬
.‫دارد‬ ‫یادگیری‬ ‫برای‬ ‫بیشتری‬ ‫زمان‬ ‫به‬ ‫نیاز‬ ‫تصمیم‬ ‫درخت‬ ‫نظیر‬ ‫دیگر‬
‫شده‬ ‫یادگرفته‬ ‫اوزان‬ ‫میتوان‬ ‫سختی‬ ‫به‬ ‫زیرا‬ .‫نباشد‬ ‫هدف‬ ‫تابع‬ ‫تعبیر‬ ‫به‬ ‫نیازی‬
.‫نمود‬ ‫تعبیر‬ ‫را‬ ‫شبکه‬ ‫توسط‬
‫های‬ ‫شبکه‬ ‫یادگیری‬ ‫برای‬ ‫مناسب‬ ‫مسائل‬
‫عصبی‬

‫طبیعت‬ ‫از‬ ‫الهام‬
‫های‬ ‫سیستم‬ ‫از‬ ‫ملهم‬ ‫زیادی‬ ‫حد‬ ‫تا‬ ‫مصنوعی‬ ‫عصبی‬ ‫های‬ ‫شبکه‬ ‫مطالعه‬
‫هم‬ ‫به‬ ‫نرونهای‬ ‫از‬ ‫پیچیده‬ ‫مجموعه‬ ‫یک‬ ‫آنها‬ ‫در‬ ‫که‬ ‫است‬ ‫طبیعی‬ ‫یادگیر‬
.‫هستند‬ ‫دخیل‬ ‫یادگیری‬ ‫کار‬ ‫در‬ ‫متصل‬
‫تعداد‬ ‫از‬ ‫انسان‬ ‫مغز‬ ‫که‬ ‫میرود‬ ‫گمان‬1011
‫هر‬ ‫که‬ ‫باشد‬ ‫شده‬ ‫تشکیل‬ ‫نرون‬
‫تقریبا‬ ‫با‬ ‫نرون‬104
.‫است‬ ‫ارتباط‬ ‫در‬ ‫دیگر‬ ‫نرون‬
‫حدود‬ ‫در‬ ‫نرونها‬ ‫سوئیچنگ‬ ‫سرعت‬10-3
‫با‬ ‫مقایسه‬ ‫در‬ ‫که‬ ‫است‬ ‫ثانیه‬
‫کامپیوترها‬10-10
‫قادر‬ ‫آدمی‬ ‫وجود‬ ‫این‬ ‫با‬ .‫مینماید‬ ‫ناچیز‬ ‫بسیار‬ ) ‫ثانیه‬ (
‫در‬ ‫است‬0.1‫قدرت‬ ‫این‬ .‫نماید‬ ‫بازشناسائی‬ ‫را‬ ‫انسان‬ ‫یک‬ ‫تصویر‬ ‫ثانیه‬
‫از‬ ‫زیادی‬ ‫تعدادی‬ ‫در‬ ‫شده‬ ‫توزیع‬ ‫موازی‬ ‫پردازش‬ ‫از‬ ‫باید‬ ‫العاده‬ ‫فوق‬
.‫باشد‬ ‫شده‬ ‫حاصل‬ ‫نرونها‬

x1x1
x2x2
xnxn
{1 or –1}{1 or –1}
X0=1X0=1
w0w0
w1w1
w2w2
wnwn
ΣΣ
‫نام‬ ‫به‬ ‫محاسباتی‬ ‫واحد‬ ‫یک‬ ‫برمبنای‬ ‫عصبی‬ ‫شبکه‬ ‫از‬ ‫نوعی‬‫پرسپترون‬
‫یک‬ .‫میشود‬ ‫ساخته‬‫پرسپترون‬‫را‬ ‫حقیقی‬ ‫مقادیر‬ ‫با‬ ‫ورودیهای‬ ‫از‬ ‫برداری‬
‫حاصل‬ ‫اگر‬ .‫میکند‬ ‫محاسبه‬ ‫را‬ ‫ورودیها‬ ‫این‬ ‫از‬ ‫خطی‬ ‫ترکیب‬ ‫یک‬ ‫و‬ ‫گرفته‬
‫خروجی‬ ‫بود‬ ‫بیشتر‬ ‫آستانه‬ ‫مقدار‬ ‫یک‬ ‫از‬‫پرسپترون‬‫با‬ ‫برابر‬1‫غیر‬ ‫در‬ ‫و‬
- ‫معادل‬ ‫اینصورت‬1.‫بود‬ ‫خواهد‬
Perceptron

‫خروحی‬‫پرسپترون‬:‫میشود‬ ‫مشخص‬ ‫زیر‬ ‫رابطه‬ ‫توسط‬
:‫داد‬ ‫نشان‬ ‫زیر‬ ‫بصورت‬ ‫میتوان‬ ‫آنرا‬ ‫سادگی‬ ‫برای‬ ‫که‬
‫یک‬ ‫یادگیری‬‫پرسپترون‬
O(x1,x2,…,xn) =O(x1,x2,…,xn) =
1 if w0 + w1x1 + w2x2 + … + wnxn > 01 if w0 + w1x1 + w2x2 + … + wnxn > 0
-1 otherwise-1 otherwise
O(O(XX) = sgn() = sgn(WXWX) where) where
Sgn(y) =Sgn(y) =
1 if y > 01 if y > 0
-1 otherwise-1 otherwise
‫یادگیری‬‫پرسپترون‬:‫از‬ ‫است‬ ‫عبارت‬
‫برای‬ ‫مقادیردرستی‬ ‫کردن‬ ‫پیدا‬W
‫فرضیه‬ ‫فضای‬ ‫بنابراین‬H‫یادگیری‬ ‫در‬‫پرسپترون‬‫حقیقی‬ ‫مقادیر‬ ‫تمام‬ ‫ازمجموعه‬ ‫است‬ ‫عبارت‬
.‫وزن‬ ‫بردارهای‬ ‫برای‬ ‫ممکن‬

‫تصمیم‬ ‫سطح‬ ‫یک‬ ‫بصورت‬ ‫میتوان‬ ‫را‬ ‫پریسپترون‬hyperplane‫در‬
‫فضای‬n.‫گرفت‬ ‫نظر‬ ‫در‬ ‫ها‬ ‫نمونه‬ ‫بعدی‬‫پرسپترون‬‫های‬ ‫نمونه‬ ‫برای‬
‫مقدار‬ ‫صفحه‬ ‫طرف‬ ‫یک‬1- ‫مقدار‬ ‫دیگر‬ ‫طرف‬ ‫مقادیر‬ ‫برای‬ ‫و‬1‫بوجود‬
.‫میاورد‬
‫توانائی‬‫پرسپترون‬
++
++
++
--
--
--
Decision boundary (Decision boundary (WXWX = 0)= 0)

‫یک‬‫پرسپترون‬‫خطی‬ ‫بصورت‬ ‫که‬ ‫بگیرد‬ ‫یاد‬ ‫را‬ ‫مثالهائی‬ ‫است‬ ‫قادر‬ ‫فقط‬
‫یک‬ ‫توسط‬ ‫کامل‬ ‫بطور‬ ‫که‬ ‫هستند‬ ‫مواردی‬ ‫مثالها‬ ‫اینگونه‬ .‫باشند‬ ‫جداپذیر‬
hyperplane.‫میباشند‬ ‫سازی‬ ‫جدا‬ ‫قابل‬
‫که‬ ‫توابعی‬‫پرسپترون‬‫آنها‬ ‫یادگیری‬ ‫به‬ ‫قادر‬
‫میباشد‬
++
++
++
--
--
--
++
++
++--
--
--
Linearly separableLinearly separable Non-linearly separableNon-linearly separable

‫یک‬‫پرسپترون‬‫دهد‬ ‫نمایش‬ ‫را‬ ‫بولی‬ ‫توابع‬ ‫از‬ ‫بسیاری‬ ‫میتواند‬
‫نظیر‬AND, OR, NAND, NOR
‫نمیتواند‬ ‫اما‬XOR.‫دهد‬ ‫نمایش‬ ‫را‬
‫از‬ ‫دوسطحی‬ ‫ای‬ ‫شبکه‬ ‫با‬ ‫میتوان‬ ‫را‬ ‫بولی‬ ‫تابع‬ ‫هر‬ ‫واقع‬ ‫در‬
‫پرسپترون‬.‫داد‬ ‫نشان‬ ‫ها‬
‫و‬ ‫بولی‬ ‫توابع‬‫پرسپترون‬
AND:AND: x1x1
x2x2
X0=1X0=1
W0 = -0.8W0 = -0.8
W1=0.5W1=0.5
W2=0.5W2=0.5
ΣΣ

‫بایاس‬ ‫کردن‬ ‫اضافه‬
‫تا‬ ‫میشود‬ ‫موجب‬ ‫بایاس‬ ‫افزودن‬
‫با‬ ‫پرسپترون‬ ‫شبکه‬ ‫از‬ ‫استفاده‬
.‫شود‬ ‫انجام‬ ‫بیشتری‬ ‫سهولت‬
‫بایاس‬ ‫یادگیری‬ ‫برای‬ ‫اینکه‬ ‫برای‬
‫دیگری‬ ‫قانون‬ ‫از‬ ‫استفاده‬ ‫به‬ ‫نیازی‬
‫بصورت‬ ‫را‬ ‫بایاس‬ ‫باشیم‬ ‫نداشته‬
‫ثابت‬ ‫مقدار‬ ‫با‬ ‫ورودی‬ ‫یک‬1‫در‬
‫وزن‬ ‫و‬ ‫گرفته‬ ‫نظر‬W0‫آن‬ ‫به‬ ‫را‬
.‫میدهیم‬ ‫اختصاص‬
21 wwb
i
i
iwxby ∑+=ˆ
211 xx
i
i
iwxwy ∑=
+=
1
0ˆ

‫چگونه‬ၒၒਪ‫یک‬ ‫نهای‬‫پرسپترون‬‫به‬ ‫بگیریم‬ ‫یاد‬ ‫را‬ ‫واحد‬
‫که‬ ‫نحوی‬‫پرسپترون‬‫صحیح‬ ‫مقادیر‬ ‫آموزشی‬ ‫مثالهای‬ ‫برای‬
‫نماید؟‬ ‫ایجاد‬ ‫را‬
: ‫مختلف‬ ‫راه‬ ‫دو‬
‫قانون‬‫پرسپترون‬
‫دلتا‬ ‫قانون‬
‫آموزش‬‫پرسپترون‬

‫یادگیری‬ ‫الگوریتم‬‫پرسپترون‬
‫میدهیم‬ ‫نسبت‬ ‫وزنها‬ ‫به‬ ‫تصادفی‬ ‫مقادیری‬
.‫میکنیم‬ ‫اعمال‬ ‫آموزشی‬ ‫مثالهای‬ ‫تک‬ ‫تک‬ ‫به‬ ‫را‬ ‫پریسپترون‬
‫وزنهای‬ ‫مقادیر‬ ‫شود‬ ‫ارزیابی‬ ‫غلط‬ ‫مثال‬ ‫اگر‬‫پرسپترون‬‫را‬
.‫میکنیم‬ ‫تصحیح‬
:‫میشوند‬ ‫ارزیابی‬ ‫درست‬ ‫آموزشی‬ ‫مثالهای‬ ‫تمامی‬ ‫آیا‬
‫بله‬ၒ‫الگوریتم‬ ‫پایان‬
‫خیر‬ၒ‫مرحله‬ ‫به‬2‫برمیگردیم‬
‫آموزش‬‫پرسپترون‬

‫آموزشی‬ ‫مثال‬ ‫یک‬ ‫برای‬X = (x1, x2, …, xnX = (x1, x2, …, xn((‫هر‬ ‫در‬
‫پرسپت‬ ‫قانون‬ ‫اساس‬ ‫بر‬ ‫وزنها‬ ‫مرحله‬‫ر‬‫تغییر‬ ‫زیر‬ ‫بصورت‬ ‫ون‬
:‫میکند‬
wi = wi + Δwiwi = wi + Δwi
‫آن‬ ‫در‬ ‫که‬
‫قانون‬‫پرسپترون‬
Δwi = η ( t – o ) xiΔwi = η ( t – o ) xi
t: target outputt: target output
o: output generated by the perceptrono: output generated by the perceptron
η: constant called the learning rate (e.g., 0.1)η: constant called the learning rate (e.g., 0.1)
‫همگرا‬ ‫روش‬ ‫این‬ ‫جداپذیرخطی‬ ‫مثال‬ ‫مجموعه‬ ‫یک‬ ‫برای‬ ‫که‬ ‫است‬ ‫شده‬ ‫اثبات‬
‫و‬ ‫شده‬‫پرسپترون‬.‫شد‬ ‫خواهد‬ ‫مثالها‬ ‫صحیح‬ ‫سازی‬ ‫جدا‬ ‫به‬ ‫قادر‬

‫قانون‬ ‫نباشند‬ ‫جداپذیر‬ ‫خطی‬ ‫بصورت‬ ‫مثالها‬ ‫که‬ ‫وقتی‬‫پرسپترون‬
‫دلتا‬ ‫قانون‬ ‫از‬ ‫مشکل‬ ‫این‬ ‫بر‬ ‫غلبه‬ ‫برای‬ .‫شد‬ ‫نخواهد‬ ‫همگرا‬
.‫میشود‬ ‫استفاده‬
‫از‬ ‫استفاده‬ ‫قانون‬ ‫این‬ ‫اصلی‬ ‫ایده‬gradient descent‫برای‬
‫پایه‬ ‫قانون‬ ‫این‬ .‫میباشد‬ ‫ممکن‬ ‫وزنهای‬ ‫فرضیه‬ ‫فضای‬ ‫در‬ ‫جستجو‬
‫روش‬Backpropagation‫با‬ ‫شبکه‬ ‫آموزش‬ ‫برای‬ ‫که‬ ‫است‬
.‫میرود‬ ‫بکار‬ ‫متصل‬ ‫هم‬ ‫به‬ ‫نرون‬ ‫چندین‬
‫یادگیری‬ ‫الگوریتمهای‬ ‫انواع‬ ‫برای‬ ‫ای‬ ‫پایه‬ ‫روش‬ ‫این‬ ‫همچنین‬
‫مختلف‬ ‫های‬ ‫فرضیه‬ ‫شامل‬ ‫ای‬ ‫فرضیه‬ ‫فضای‬ ‫باید‬ ‫که‬ ‫است‬
.‫کنند‬ ‫جستجو‬ ‫را‬ ‫پیوسته‬
‫دلتا‬ ‫قانون‬Delta Rule

‫یک‬ ‫به‬ ‫آنرا‬ ‫روش‬ ‫این‬ ‫بهتر‬ ‫درک‬ ‫برای‬‫پرسپترون‬‫حد‬ ‫فاقد‬
‫خطا‬ ‫برای‬ ‫تعریفی‬ ‫ابتدا‬ ‫است‬ ‫لزم‬ ‫انجا‬ ‫در‬ .‫میکنیم‬ ‫اعمال‬ ‫آستانه‬
:‫است‬ ‫چنین‬ ‫این‬ ‫متداول‬ ‫تعریف‬ ‫یک‬ .‫شود‬ ‫ارائه‬ ‫آموزش‬ ‫ی‬
E = ½ ΣE = ½ Σii (t(tii – o– oii)) 22
.‫میشود‬ ‫انجام‬ ‫آموزشی‬ ‫مثالهای‬ ‫تمام‬ ‫برای‬ ‫مجموع‬ ‫این‬ ‫که‬

‫الگوریتم‬gradient descent
‫تعریف‬ ‫نحوه‬ ‫به‬ ‫توجه‬ ‫با‬E‫خواهد‬ ‫سهمی‬ ‫یک‬ ‫بصورت‬ ‫خطا‬ ‫سطح‬
. ‫باشند‬ ‫داشته‬ ‫را‬ ‫خطا‬ ‫حداقل‬ ‫که‬ ‫هستیم‬ ‫وزنهائی‬ ‫بدنبال‬ ‫ما‬ .‫بود‬
‫الگوریتم‬gradient descent‫برداری‬ ‫بدنبال‬ ‫وزنها‬ ‫فضای‬ ‫در‬
‫دلبخواه‬ ‫مقدار‬ ‫یک‬ ‫از‬ ‫الگوریتم‬ ‫این‬ .‫کند‬ ‫حداقل‬ ‫را‬ ‫خطا‬ ‫که‬ ‫میگردد‬
‫طوری‬ ‫را‬ ‫وزنها‬ ‫مرحله‬ ‫هر‬ ‫در‬ ‫و‬ ‫کرده‬ ‫شروع‬ ‫وزن‬ ‫بردار‬ ‫برای‬
‫کاهش‬ ‫خطا‬ ‫فوق‬ ‫منحنی‬ ‫کاهشی‬ ‫شیب‬ ‫جهت‬ ‫در‬ ‫که‬ ‫میدهد‬ ‫تغییر‬
.‫شود‬ ‫داده‬
w1w1
w2w2
E(E(WW))

‫قانون‬ ‫آوردن‬ ‫بدست‬gradient descent
‫شیب‬ ‫افزایش‬ ‫جهت‬ ‫در‬ ‫همواره‬ ‫گرادیان‬ :‫اصلی‬ ‫ایده‬E‫عمل‬
.‫میکند‬
‫گرادیان‬E‫وزن‬ ‫بردار‬ ‫به‬ ‫نسبت‬w‫تعریف‬ ‫زیر‬ ‫بصورت‬
:‫میشود‬
E (W) = [ E’/w0, E’/w1, …, E’/wnE (W) = [ E’/w0, E’/w1, …, E’/wn[[
‫آن‬ ‫در‬ ‫که‬‫آن‬ ‫در‬ ‫که‬E (WE (W‫بردارو‬ ‫یک‬ (‫بردارو‬ ‫یک‬ (EE‫هر‬ ‫به‬ ‫نسبت‬ ‫جزئی‬ ‫’مشتق‬‫هر‬ ‫به‬ ‫نسبت‬ ‫جزئی‬ ‫’مشتق‬
.‫میباشد‬ ‫وزن‬.‫میباشد‬ ‫وزن‬
ΔΔ
ΔΔ

‫آموزشی‬ ‫مثال‬ ‫یک‬ ‫برای‬X = (x1, x2, …, xnX = (x1, x2, …, xn((‫هر‬ ‫در‬
:‫میکند‬ ‫تغییر‬ ‫زیر‬ ‫بصورت‬ ‫دلتا‬ ‫قانون‬ ‫اساس‬ ‫بر‬ ‫وزنها‬ ‫مرحله‬
wi = wi + Δwiwi = wi + Δwi
Where Δwi = -η E’(Where Δwi = -η E’(WW)/wi)/wi
η: learning rate (e.g., 0.1η: learning rate (e.g., 0.1))
.‫است‬ ‫شیب‬ ‫کاهش‬ ‫جهت‬ ‫در‬ ‫حرکت‬ ‫دهنده‬ ‫نشان‬ ‫منفی‬ ‫علمت‬.‫است‬ ‫شیب‬ ‫کاهش‬ ‫جهت‬ ‫در‬ ‫حرکت‬ ‫دهنده‬ ‫نشان‬ ‫منفی‬ ‫علمت‬

‫گرادیان‬ ‫محاسبه‬
‫را‬ ‫گرادیان‬ ‫بسادگی‬ ‫میتوان‬ ‫خطا‬ ‫رابطه‬ ‫از‬ ‫جزئی‬ ‫گیری‬ ‫مشتق‬ ‫با‬‫را‬ ‫گرادیان‬ ‫بسادگی‬ ‫میتوان‬ ‫خطا‬ ‫رابطه‬ ‫از‬ ‫جزئی‬ ‫گیری‬ ‫مشتق‬ ‫با‬
:‫نمود‬ ‫محاسبه‬:‫نمود‬ ‫محاسبه‬
E’(W)/ wE’(W)/ wii = Σ= Σii (t(tii – O– Oii) (-x) (-xii))
.‫نمود‬ ‫خواهند‬ ‫تغییر‬ ‫زیر‬ ‫رابطه‬ ‫طبق‬ ‫وزنها‬ ‫لذا‬.‫نمود‬ ‫خواهند‬ ‫تغییر‬ ‫زیر‬ ‫رابطه‬ ‫طبق‬ ‫وزنها‬ ‫لذا‬
Δwi = η Σi (ti – oi) xiΔwi = η Σi (ti – oi) xi

‫دلتا‬ ‫قانون‬ ‫یادگیری‬ ‫خلهصه‬
.‫میباشد‬ ‫زیر‬ ‫بصورت‬ ‫دلتا‬ ‫قانون‬ ‫از‬ ‫استفاده‬ ‫با‬ ‫یادگیری‬ ‫الگوریتم‬
‫دهید‬ ‫نسبت‬ ‫تصادفی‬ ‫مقدار‬ ‫وزنها‬ ‫به‬
‫دهید‬ ‫ادامه‬ ‫را‬ ‫زیر‬ ‫مراحل‬ ‫توقف‬ ‫شرایط‬ ‫به‬ ‫رسیدن‬ ‫تا‬
‫وزن‬ ‫هر‬wi.‫کنید‬ ‫اولیه‬ ‫دهی‬ ‫عدد‬ ‫صفر‬ ‫مقدار‬ ‫با‬ ‫را‬
‫وزن‬ :‫مثال‬ ‫هر‬ ‫برای‬wi:‫دهید‬ ‫تغییر‬ ‫زیر‬ ‫بصورت‬ ‫را‬
wwii = w= wii + η (t – o) x+ η (t – o) xii
‫مقدار‬‫مقدار‬wwii‫دهید‬ ‫تغییر‬ ‫زیر‬ ‫بصورت‬ ‫را‬‫دهید‬ ‫تغییر‬ ‫زیر‬ ‫بصورت‬ ‫را‬::
wwii = w= wii + w+ wii
‫شود‬ ‫کوچک‬ ‫بسیار‬ ‫خطا‬ ‫تا‬‫شود‬ ‫کوچک‬ ‫بسیار‬ ‫خطا‬ ‫تا‬
ΔΔ
ΔΔ
ΔΔ
ΔΔΔΔ

‫روش‬ ‫مشکل ت‬gradient descent
1.‫زیادی‬ ‫زمان‬ ‫مینیمم‬ ‫مقدار‬ ‫یک‬ ‫به‬ ‫شدن‬ ‫همگرا‬ ‫است‬ ‫ممکن‬
.‫باشد‬ ‫داشته‬ ‫لزم‬
2.‫باشد‬ ‫داشته‬ ‫وجود‬ ‫محلی‬ ‫مینیمم‬ ‫چندین‬ ‫خطا‬ ‫سطح‬ ‫در‬ ‫اگر‬
.‫بکند‬ ‫پیدا‬ ‫را‬ ‫مطلق‬ ‫مینیمم‬ ‫الگوریتم‬ ‫که‬ ‫ندارد‬ ‫وجود‬ ‫تضمینی‬
:‫که‬ ‫است‬ ‫استفاده‬ ‫قابل‬ ‫وقتی‬ ‫روش‬ ‫این‬ ‫ضمن‬ ‫در‬
1..‫باشد‬ ‫پیوسته‬ ‫پارامتریک‬ ‫های‬ ‫فرضیه‬ ‫دارای‬ ‫فرضیه‬ ‫فضای‬
2.‫باشد‬ ‫گیری‬ ‫مشتق‬ ‫قابل‬ ‫خطا‬ ‫رابطه‬

‫افزایشی‬ ‫تقریب‬gradient descent
‫را‬ ‫آنها‬ ،‫مثالها‬ ‫همه‬ ‫مشاهده‬ ‫از‬ ‫پس‬ ‫وزنها‬ ‫تغییر‬ ‫بجای‬ ‫میتوان‬
‫وزنها‬ ‫حالت‬ ‫این‬ ‫در‬ .‫داد‬ ‫تغییر‬ ‫شده‬ ‫مشاهده‬ ‫مثال‬ ‫هر‬ ‫بازا‬
‫افزایشی‬ ‫بصورت‬incremental‫را‬ ‫روش‬ ‫این‬ .‫میکنند‬ ‫تغییر‬
stochastic gradient descentstochastic gradient descent.‫نیزمینامند‬.‫نیزمینامند‬
wwii = η (t-o) x= η (t-o) xii
‫مینیمم‬ ‫بروز‬ ‫از‬ ‫میتواند‬ ‫وزنها‬ ‫افزایشی‬ ‫تغییر‬ ‫موارد‬ ‫بعضی‬ ‫در‬‫مینیمم‬ ‫بروز‬ ‫از‬ ‫میتواند‬ ‫وزنها‬ ‫افزایشی‬ ‫تغییر‬ ‫موارد‬ ‫بعضی‬ ‫در‬
‫بیشتری‬ ‫محاسبات‬ ‫به‬ ‫نیاز‬ ‫استاندارد‬ ‫روش‬ .‫کند‬ ‫جلوگیری‬ ‫محلی‬‫بیشتری‬ ‫محاسبات‬ ‫به‬ ‫نیاز‬ ‫استاندارد‬ ‫روش‬ .‫کند‬ ‫جلوگیری‬ ‫محلی‬
‫طول‬ ‫میتواند‬ ‫درعوض‬ ‫دارد‬‫طول‬ ‫میتواند‬ ‫درعوض‬ ‫دارد‬stepstep.‫باشد‬ ‫داشته‬ ‫هم‬ ‫بزرگتری‬.‫باشد‬ ‫داشته‬ ‫هم‬ ‫بزرگتری‬
ΔΔ

‫افزایشی‬ ‫و‬ ‫یکجا‬ ‫آموزش‬ ‫مقایسه‬
) ‫یکجا‬ ‫آموزش‬Batch
learning(
) ‫افزایشی‬ ‫آموزش‬Online
learning(
w1
w2
w1
w2

‫خل ف‬ ‫بر‬‫خل ف‬ ‫بر‬‫پرسپترون‬‫پرسپترون‬‫مسائل‬ ‫یادگیری‬ ‫برای‬ ‫میتوانند‬ ‫لیه‬ ‫چند‬ ‫های‬ ‫شبکه‬ ‫ها‬‫مسائل‬ ‫یادگیری‬ ‫برای‬ ‫میتوانند‬ ‫لیه‬ ‫چند‬ ‫های‬ ‫شبکه‬ ‫ها‬
.‫روند‬ ‫بکار‬ ‫متعدد‬ ‫های‬ ‫گیری‬ ‫تصمیم‬ ‫با‬ ‫مسائلی‬ ‫همچنین‬ ‫و‬ ‫خطی‬ ‫غیر‬.‫روند‬ ‫بکار‬ ‫متعدد‬ ‫های‬ ‫گیری‬ ‫تصمیم‬ ‫با‬ ‫مسائلی‬ ‫همچنین‬ ‫و‬ ‫خطی‬ ‫غیر‬
Input nodesInput nodes
Internal nodesInternal nodes
Output nodesOutput nodes
‫لیه‬ ‫چند‬ ‫های‬ ‫شبکه‬

x1x1
x2x2
xnxn
X0=1X0=1
w0w0
w1w1
w2w2
wnwn
ΣΣ
O = σ(net) = 1 / 1 + eO = σ(net) = 1 / 1 + e -net-net
netnet
‫واحد‬ ‫سلول‬ ‫یک‬
‫هم‬ ‫از‬ ‫خطی‬ ‫غیر‬ ‫بصورت‬ ‫را‬ ‫گیری‬ ‫تصمیم‬ ‫فضای‬ ‫بتوانیم‬ ‫اینکه‬ ‫برای‬‫هم‬ ‫از‬ ‫خطی‬ ‫غیر‬ ‫بصورت‬ ‫را‬ ‫گیری‬ ‫تصمیم‬ ‫فضای‬ ‫بتوانیم‬ ‫اینکه‬ ‫برای‬
‫غیر‬ ‫تابع‬ ‫یک‬ ‫بصورت‬ ‫را‬ ‫واحد‬ ‫سلول‬ ‫هر‬ ‫تا‬ ‫است‬ ‫لزم‬ ،‫بکنیم‬ ‫جدا‬‫غیر‬ ‫تابع‬ ‫یک‬ ‫بصورت‬ ‫را‬ ‫واحد‬ ‫سلول‬ ‫هر‬ ‫تا‬ ‫است‬ ‫لزم‬ ،‫بکنیم‬ ‫جدا‬
‫سیگموئید‬ ‫واحد‬ ‫یک‬ ‫میتواند‬ ‫سلولی‬ ‫چنین‬ ‫از‬ ‫مثالی‬ .‫نمائیم‬ ‫تعریف‬ ‫خطی‬‫سیگموئید‬ ‫واحد‬ ‫یک‬ ‫میتواند‬ ‫سلولی‬ ‫چنین‬ ‫از‬ ‫مثالی‬ .‫نمائیم‬ ‫تعریف‬ ‫خطی‬
:‫باشد‬:‫باشد‬

O(x1,x2,…,xn) =O(x1,x2,…,xn) =σ ( WX )σ ( WX )
where:where: σσ ( WX ) = 1 / 1 + e( WX ) = 1 / 1 + e -WX-WX
d σ(y) / dy = σ(y) (1 – σ(y))d σ(y) / dy = σ(y) (1 – σ(y))
‫تابع‬‫تابع‬σσ‫دارای‬ ‫تابع‬ ‫این‬ .‫میشود‬ ‫نامیده‬ ‫لجستیک‬ ‫یا‬ ‫سیگموئید‬ ‫تابع‬‫دارای‬ ‫تابع‬ ‫این‬ .‫میشود‬ ‫نامیده‬ ‫لجستیک‬ ‫یا‬ ‫سیگموئید‬ ‫تابع‬
:‫است‬ ‫زیر‬ ‫خاصیت‬:‫است‬ ‫زیر‬ ‫خاصیت‬
‫سیگموئید‬ ‫تابع‬
:‫نمود‬ ‫بیان‬ ‫میتوان‬ ‫زیر‬ ‫بصورت‬ ‫را‬ ‫واحد‬ ‫سلول‬ ‫این‬ ‫خروجی‬:‫نمود‬ ‫بیان‬ ‫میتوان‬ ‫زیر‬ ‫بصورت‬ ‫را‬ ‫واحد‬ ‫سلول‬ ‫این‬ ‫خروجی‬

‫الگوریتم‬Back propagation
‫روش‬ ‫از‬ ‫لیه‬ ‫چند‬ ‫شبکه‬ ‫یک‬ ‫های‬ ‫وزن‬ ‫یادگیری‬ ‫برای‬Back
Propagation‫از‬ ‫استفاده‬ ‫با‬ ‫روش‬ ‫این‬ ‫در‬ .‫میشود‬ ‫استفاده‬
gradient descent‫بین‬ ‫خطای‬ ‫مربع‬ ‫تا‬ ‫میشود‬ ‫سعی‬
.‫شود‬ ‫مینیمم‬ ‫هدف‬ ‫تابع‬ ‫و‬ ‫شبکه‬ ‫های‬ ‫خروجی‬
:‫میشود‬ ‫تعریف‬ ‫زیر‬ ‫بصورت‬ ‫خطا‬
( )2
2
1
∑ ∑∈ ∈
→
−≡





Dd outputsk
kdkd otWE
‫از‬ ‫مراد‬outputs‫و‬ ‫خروجی‬ ‫لیه‬ ‫های‬ ‫واحد‬ ‫مجموعه‬ ‫خروجیهای‬tkd‫و‬
okd‫با‬ ‫متناظر‬ ‫خروجی‬ ‫و‬ ‫هدف‬ ‫مقدار‬k‫مثال‬ ‫و‬ ‫خروجی‬ ‫واحد‬ ‫امین‬
‫آموزشی‬d.‫است‬

‫الگوریتم‬Back propagation
‫از‬ ‫است‬ ‫عبارت‬ ‫روش‬ ‫این‬ ‫در‬ ‫جستجو‬ ‫مورد‬ ‫فرضیه‬ ‫فضای‬
‫تعریف‬ ‫وزنها‬ ‫برای‬ ‫ممکن‬ ‫مقادیر‬ ‫همه‬ ‫توسط‬ ‫که‬ ‫بزرگی‬ ‫فضای‬
‫روش‬ .‫میشود‬gradient descent‫مینیمم‬ ‫با‬ ‫تا‬ ‫میکند‬ ‫سعی‬
‫برای‬ ‫تضمینی‬ ‫اما‬ .‫کند‬ ‫پیدا‬ ‫دست‬ ‫مناسبی‬ ‫فرضیه‬ ‫به‬ ‫خطا‬ ‫کردن‬
.‫ندارد‬ ‫وجود‬ ‫برسد‬ ‫مطلق‬ ‫مینیمم‬ ‫به‬ ‫الگوریتم‬ ‫این‬ ‫اینکه‬

‫الگوریتم‬BP
1.‫با‬ ‫ای‬ ‫شبکه‬nin،‫ورودی‬ ‫گره‬nhidden‫و‬ ،‫مخفی‬ ‫گره‬nout‫گره‬
.‫کنید‬ ‫ایجاد‬ ‫خروجی‬
2..‫کنید‬ ‫دهی‬ ‫عدد‬ ‫کوچک‬ ‫تصادفی‬ ‫مقدار‬ ‫یک‬ ‫با‬ ‫را‬ ‫وزنها‬ ‫همه‬
3.‫را‬ ‫زیر‬ ‫مراحل‬ )‫خطا‬ ‫شدن‬ ‫کوچک‬ ( ‫پایانی‬ ‫شرط‬ ‫به‬ ‫رسیدن‬ ‫تا‬
:‫دهید‬ ‫انجام‬
‫هر‬ ‫برای‬x:‫آموزشی‬ ‫مثالهای‬ ‫به‬ ‫متعلق‬
‫مثال‬X‫دهید‬ ‫انتشار‬ ‫شبکه‬ ‫در‬ ‫جلو‬ ‫سمت‬ ‫به‬ ‫را‬
‫خطای‬E.‫دهید‬ ‫انتشار‬ ‫شبکه‬ ‫در‬ ‫عقب‬ ‫سمت‬ ‫به‬ ‫را‬
) ‫زوج‬ ‫یک‬ ‫بصورت‬ ‫آموزشی‬ ‫مثال‬ ‫هر‬x,t‫بردار‬ ‫که‬ ‫میشود‬ ‫ارائه‬ (x‫بردار‬ ‫و‬ ‫ورودی‬ ‫مقادیر‬t‫مقادیر‬
.‫میکنند‬ ‫تعیین‬ ‫را‬ ‫شبکه‬ ‫خروجی‬ ‫برای‬ ‫هدف‬

‫جلو‬ ‫سمت‬ ‫به‬ ‫انتشار‬
‫مثال‬ ‫هر‬ ‫برای‬X‫به‬ ‫تا‬ ‫کنید‬ ‫محاسبه‬ ‫را‬ ‫واحد‬ ‫هر‬ ‫خروجی‬ ‫مقدار‬
.‫برسید‬ ‫خروجی‬ ‫های‬ ‫گره‬
Input nodesInput nodes
Internal nodesInternal nodes
Output nodesOutput nodes
Example XExample X
Compute sigmoidCompute sigmoid
functionfunction

‫عقب‬ ‫سمت‬ ‫به‬ ‫انتشار‬
1.‫محاسبه‬ ‫زیر‬ ‫بصورت‬ ‫را‬ ‫خطا‬ ‫جمله‬ ‫خروجی‬ ‫واحد‬ ‫هر‬ ‫برای‬
:‫کنید‬δδkk = O= Okk (1-O(1-Okk)(t)(tkk – O– Okk((
2.2.‫محاسبه‬ ‫زیر‬ ‫بصورت‬ ‫را‬ ‫خطا‬ ‫جمله‬ ‫مخفی‬ ‫واحد‬ ‫هر‬ ‫برای‬‫محاسبه‬ ‫زیر‬ ‫بصورت‬ ‫را‬ ‫خطا‬ ‫جمله‬ ‫مخفی‬ ‫واحد‬ ‫هر‬ ‫برای‬
:‫کنید‬:‫کنید‬δδhh = O= Ohh (1-O(1-Ohh) Σ) Σkk WWkhkh δδkk
3.3.:‫دهید‬ ‫تغییر‬ ‫زیر‬ ‫بصورت‬ ‫را‬ ‫وزن‬ ‫مقدارهر‬:‫دهید‬ ‫تغییر‬ ‫زیر‬ ‫بصورت‬ ‫را‬ ‫وزن‬ ‫مقدارهر‬
WWjiji = W= Wjiji + ΔW+ ΔWjiji
: ‫آن‬ ‫در‬ ‫که‬: ‫آن‬ ‫در‬ ‫که‬
ΔWΔWjiji = η δ= η δjj XXjiji
ηη‫یادگیری‬ ‫نرخ‬ ‫از‬ ‫است‬ ‫عبارت‬

‫خاتمه‬ ‫شرط‬
‫الگوریتم‬ ‫معمول‬BP‫همان‬ ‫استفاده‬ ‫با‬ ‫بار‬ ‫هزاران‬ ‫خاتمه‬ ‫از‬ ‫پیش‬
‫میتوان‬ ‫را‬ ‫مختلفی‬ ‫شروط‬ ‫میگردد‬ ‫تکرار‬ ‫آموزشی‬ ‫های‬ ‫داده‬
:‫برد‬ ‫بکار‬ ‫الگوریتم‬ ‫خاتمه‬ ‫برای‬
‫معین‬ ‫دفعات‬ ‫به‬ ‫تکرار‬ ‫از‬ ‫بعد‬ ‫توقف‬
.‫شود‬ ‫کمتر‬ ‫شده‬ ‫تعیین‬ ‫مقدار‬ ‫یک‬ ‫از‬ ‫خطا‬ ‫که‬ ‫وقتی‬ ‫توقف‬
‫پیروی‬ ‫خاصی‬ ‫قاعده‬ ‫از‬ ‫تائید‬ ‫مجموعه‬ ‫مثالهای‬ ‫در‬ ‫خطا‬ ‫که‬ ‫وقتی‬ ‫توقف‬
.‫نماید‬
‫باشد‬ ‫زیاد‬ ‫اگر‬ ‫و‬ ‫داشت‬ ‫خواهیم‬ ‫خطا‬ ‫باشد‬ ‫کم‬ ‫تکرار‬ ‫دفعات‬ ‫اگر‬
‫مسئله‬Overfitting.‫داد‬ ‫خواهد‬ ‫رخ‬

‫یادگیری‬ ‫محنی‬

‫الگوریتم‬ ‫مرور‬BP
‫جستجوی‬ ‫یک‬ ‫الگوریتم‬ ‫این‬gradient descent‫فضای‬ ‫در‬
.‫میدهد‬ ‫انجام‬ ‫وزنها‬
‫بیافتد‬ ‫گیر‬ ‫محلی‬ ‫مینیمم‬ ‫یک‬ ‫در‬ ‫است‬ ‫ممکن‬
‫است‬ ‫بوده‬ ‫موثر‬ ‫بسیار‬ ‫عمل‬ ‫در‬
:‫دارد‬ ‫وجود‬ ‫مختلفی‬ ‫روشهای‬ ‫محلی‬ ‫مینیمم‬ ‫از‬ ‫پرهیز‬ ‫برای‬
‫ممنتم‬ ‫افزودن‬
‫از‬ ‫استفاده‬stochastic gradient descentstochastic gradient descent
‫اولیه‬ ‫وزنهای‬ ‫برای‬ ‫متفاوتی‬ ‫مقادیر‬ ‫با‬ ‫مختلف‬ ‫های‬ ‫ازشبکه‬ ‫استفاده‬

‫ممنتم‬ ‫افزودن‬
‫تغییر‬ ‫که‬ ‫گرفت‬ ‫نظر‬ ‫در‬ ‫طوری‬ ‫را‬ ‫وزنها‬ ‫تغییر‬ ‫قانون‬ ‫میتوان‬
‫تکر‬ ‫در‬ ‫وزن‬‫ار‬n‫قبلی‬ ‫تکرار‬ ‫در‬ ‫تغییروزن‬ ‫اندازه‬ ‫به‬ ‫حدی‬ ‫تا‬ ‫ام‬
.‫باشد‬ ‫داشته‬ ‫بستگی‬
ΔWΔWjiji (n) = η δ(n) = η δjj XXjiji + αΔW+ αΔWjiji (n-1)(n-1)
‫مقدارممنتم‬ ‫آن‬ ‫در‬ ‫که‬αα‫بصورت‬00=>=>α <= 1α <= 1.‫میباشد‬
‫سطح‬ ‫در‬ ‫قبلی‬ ‫مسیر‬ ‫در‬ ‫حرکت‬ ‫با‬ ‫تا‬ ‫میشود‬ ‫باعث‬ ‫ممنتم‬ ‫افزودن‬
:‫خطا‬
‫شود‬ ‫پرهیز‬ ‫محلی‬ ‫مینیم‬ ‫در‬ ‫افتادن‬ ‫گیر‬ ‫از‬
‫شود‬ ‫پرهیز‬ ‫صاف‬ ‫سطوح‬ ‫در‬ ‫قرارگرفتن‬ ‫از‬
.‫یابد‬ ‫افزایش‬ ‫جستجو‬ ‫سرعت‬ ،‫تغییرات‬ ‫پله‬ ‫مقدار‬ ‫تدریجی‬ ‫افزایش‬ ‫با‬
‫وزن‬ ‫تغییر‬ ‫قانون‬ ‫ممنتم‬ ‫عبارت‬

‫توابع‬ ‫نمایش‬ ‫قدرت‬
‫شبکه‬ ‫یک‬ ‫توسط‬ ‫به‬ ‫توابع‬ ‫نمایش‬ ‫قدرت‬ ‫گرچه‬feedforward‫به‬ ‫بسته‬
‫به‬ ‫میتوان‬ ‫را‬ ‫زیر‬ ‫موارد‬ ‫وجود‬ ‫این‬ ‫با‬ ،‫دارد‬ ‫شبکه‬ ‫گستردگی‬ ‫و‬ ‫عمق‬
:‫نمود‬ ‫بیان‬ ‫کلی‬ ‫قوانین‬ ‫صورت‬
‫بولی‬ ‫توابع‬‫سازی‬ ‫پیاده‬ ‫لیه‬ ‫دو‬ ‫شبکه‬ ‫یک‬ ‫توسط‬ ‫میتوان‬ ‫را‬ ‫بولی‬ ‫تابع‬ ‫هر‬ :
.‫نمود‬
‫پیوسته‬ ‫توابع‬‫لیه‬ ‫دو‬ ‫شبکه‬ ‫یک‬ ‫توسط‬ ‫میتوان‬ ‫را‬ ‫محدود‬ ‫پیوسته‬ ‫تابع‬ ‫هر‬ :
‫در‬ ‫سیگموئید‬ ‫تابع‬ ‫از‬ ‫که‬ ‫هائی‬ ‫شبکه‬ ‫مورد‬ ‫در‬ ‫مربوطه‬ ‫تئوری‬ .‫زد‬ ‫تقریب‬
.‫است‬ ‫صادق‬ ‫میکنند‬ ‫استفاده‬ ‫خروجی‬ ‫شبکه‬ ‫در‬ ‫خطی‬ ‫لیه‬ ‫و‬ ‫پنهان‬ ‫لیه‬
:‫دلخواه‬ ‫توابع‬‫قابل‬ ‫حد‬ ‫تا‬ ‫لیه‬ ‫سه‬ ‫شبکه‬ ‫یک‬ ‫با‬ ‫میتوان‬ ‫را‬ ‫دلخواه‬ ‫تابع‬ ‫هر‬
.‫زد‬ ‫تفریب‬ ‫قبولی‬
‫روش‬ ‫توسط‬ ‫شده‬ ‫جستجو‬ ‫فرضیه‬ ‫فضای‬ ‫که‬ ‫داست‬ ‫درنظر‬ ‫باید‬ ‫وجود‬ ‫این‬ ‫با‬gradient
deescent.‫نباشد‬ ‫وزنها‬ ‫ممکن‬ ‫مقادیر‬ ‫تمام‬ ‫برگیرنده‬ ‫در‬ ‫است‬ ‫ممکن‬

‫استقرا‬ ‫بایاس‬ ‫و‬ ‫فرضیه‬ ‫فضای‬
‫فضای‬ ‫یک‬ ‫بصورت‬ ‫میتوان‬ ‫را‬ ‫جستجو‬ ‫مورد‬ ‫فرضیه‬ ‫فضای‬
‫اقلیدسی‬ ‫فرضیه‬n‫(که‬ ‫گرفت‬ ‫نظر‬ ‫در‬ ‫شبکه‬ ‫وزنهای‬ ‫از‬ ‫بعدی‬n
)‫وزنهاست‬ ‫تعداد‬
‫یک‬ ‫تصمیم‬ ‫درخت‬ ‫فرضیه‬ ‫فضای‬ ‫خلف‬ ‫بر‬ ‫فرضیه‬ ‫فضای‬ ‫این‬
.‫است‬ ‫پیوسته‬ ‫فضای‬
:‫کرد‬ ‫بیان‬ ‫زیر‬ ‫بصورت‬ ‫میتوان‬ ‫را‬ ‫روش‬ ‫این‬ ‫استقرا‬ ‫بایاس‬
““smooth interpolation between data pointssmooth interpolation between data points””
‫الگوریتم‬ ‫که‬ ‫معنا‬ ‫این‬ ‫به‬‫الگوریتم‬ ‫که‬ ‫معنا‬ ‫این‬ ‫به‬BPBP‫هم‬ ‫به‬ ‫که‬ ‫را‬ ‫نقاطی‬ ‫تا‬ ‫میکند‬ ‫سعی‬‫هم‬ ‫به‬ ‫که‬ ‫را‬ ‫نقاطی‬ ‫تا‬ ‫میکند‬ ‫سعی‬
.‫دهد‬ ‫قرار‬ ‫بندی‬ ‫دسته‬ ‫یک‬ ‫در‬ ‫هستند‬ ‫نزدیکتر‬.‫دهد‬ ‫قرار‬ ‫بندی‬ ‫دسته‬ ‫یک‬ ‫در‬ ‫هستند‬ ‫نزدیکتر‬

x1x1
x2x2
Smooth regionsSmooth regions
‫مثال‬

‫پنهان‬ ‫لیه‬ ‫نمایش‬ ‫قدرت‬
‫خواص‬ ‫از‬ ‫یکی‬BP‫پنهان‬ ‫های‬ ‫لیه‬ ‫در‬ ‫میتواند‬ ‫که‬ ‫است‬ ‫این‬
.‫دهد‬ ‫نشان‬ ‫ورودی‬ ‫داده‬ ‫از‬ ‫آشکاری‬ ‫نا‬ ‫ویژگیهای‬ ‫شبکه‬
‫ورودی‬ ‫خروجی‬
‫شبکه‬ ‫مثال‬ ‫برای‬8x3x8‫طوری‬ ‫زیر‬
‫مقدارهرمثال‬ ‫که‬ ‫میشود‬ ‫داده‬ ‫آموزش‬
( ‫آورد‬ ‫د‬ ‫بوجو‬ ‫خروجی‬ ‫در‬ ‫عینا‬ ‫را‬ ‫ورودی‬
‫تابع‬f(x)=x‫خاص‬ ‫ساختار‬ .)‫بگیرد‬ ‫یاد‬ ‫را‬
‫لیه‬ ‫های‬ ‫واحد‬ ‫تا‬ ‫میشود‬ ‫باعث‬ ‫شبکه‬ ‫این‬
‫به‬ ‫را‬ ‫ورودی‬ ‫مقادیر‬ ‫های‬ ‫ویژگی‬ ‫وسط‬
‫بتواند‬ ‫خروحی‬ ‫لیه‬ ‫که‬ ‫کنند‬ ‫بندی‬ ‫کد‬ ‫نحوی‬
‫استفاده‬ ‫ها‬ ‫داده‬ ‫مجدد‬ ‫نمایش‬ ‫برای‬ ‫آنان‬ ‫از‬
.‫نماید‬

‫پنهان‬ ‫لیه‬ ‫نمایش‬ ‫قدرت‬
1000000010000000
0100000001000000
0010000000100000
0001000000010000
0000100000001000
0000010000000100
0000001000000010
0000000100000001
1000000010000000
0100000001000000
0010000000100000
0001000000010000
0000100000001000
0000010000000100
0000001000000010
0000000100000001
Hidden nodesHidden nodes
‫تعداد‬ ‫به‬ ‫که‬ ‫آزمایش‬ ‫این‬ ‫در‬5000‫از‬ ‫شده‬ ‫تکرار‬ ‫بار‬8‫به‬ ‫مختلف‬ ‫داده‬
‫الگوریتم‬ ‫از‬ ‫استفاده‬ ‫با‬ ‫شبکه‬ ‫و‬ ‫شده‬ ‫استفاده‬ ‫ورودی‬ ‫عنوان‬BP‫موفق‬
.‫بیاموزد‬ ‫را‬ ‫هدف‬ ‫تابع‬ ‫تا‬ ‫شده‬
‫معادل‬ ‫حاصل‬ ‫بردار‬ ‫که‬ ‫میشود‬ ‫مشخص‬ ‫میانی‬ ‫لیه‬ ‫های‬ ‫واحد‬ ‫خروجی‬ ‫مشاهده‬ ‫با‬
) ‫است‬ ‫بوده‬ ‫ورودی‬ ‫ههای‬ ‫داده‬ ‫استاندارد‬ ‫انکدینگ‬000,001,...,,111(

ErrorError
iterationsiterations
Different unitsDifferent units
iterationsiterations
Different weightsDifferent weights
weightweight
‫نمودارخطا‬

Number of weight updatesNumber of weight updates
ErrorError
Validation set errorValidation set error
Training set errorTraining set error
‫و‬ ‫تعمیم‬ ‫قدرت‬overfitting
‫الگوریتم‬ ‫پاین‬ ‫شرط‬BP‫چیست؟‬
‫از‬ ‫خطا‬ ‫تا‬ ‫دهیم‬ ‫ادامه‬ ‫آنقدر‬ ‫را‬ ‫الگوریتم‬ ‫که‬ ‫است‬ ‫این‬ ‫انتخاب‬ ‫یک‬
‫به‬ ‫منجر‬ ‫میتواند‬ ‫امر‬ ‫این‬ .‫شود‬ ‫کمتر‬ ‫معینی‬ ‫مقدار‬
overfitting.‫شود‬

‫دادن‬ ‫رخ‬ ‫دللیل‬overfitting
overfitting‫گرفتن‬ ‫نظر‬ ‫در‬ ‫برای‬ ‫وزنها‬ ‫تنظیم‬ ‫از‬ ‫ناشی‬
‫ها‬ ‫داده‬ ‫کلی‬ ‫توزیع‬ ‫با‬ ‫است‬ ‫ممکن‬ ‫که‬ ‫است‬ ‫نادری‬ ‫مثالهای‬
‫عصبی‬ ‫شبکه‬ ‫یک‬ ‫وزنهای‬ ‫زیاد‬ ‫تعداد‬ .‫باشند‬ ‫نداشته‬ ‫مطابقت‬
‫این‬ ‫با‬ ‫انطباق‬ ‫برای‬ ‫زیادی‬ ‫آزادی‬ ‫درجه‬ ‫شبکه‬ ‫تا‬ ‫میشود‬ ‫باعث‬
‫باشد‬ ‫داشته‬ ‫.مثالها‬
‫شده‬ ‫یادگرفته‬ ‫فرضیه‬ ‫فضای‬ ‫پیچیدگی‬ ،‫تکرار‬ ‫تعداد‬ ‫افزایش‬ ‫با‬
‫و‬ ‫نویز‬ ‫بتواند‬ ‫شبکه‬ ‫تا‬ ‫میشود‬ ‫بیشتر‬ ‫و‬ ‫بیشتر‬ ‫الگوریتم‬ ‫توسط‬
‫ارزیابی‬ ‫بدرستی‬ ‫را‬ ‫آموزش‬ ‫مجموعه‬ ‫در‬ ‫موجود‬ ‫نادر‬ ‫مثالهای‬
.‫نماید‬

‫حل‬ ‫راه‬
‫تائید‬ ‫مجموعه‬ ‫یک‬ ‫از‬ ‫استفاده‬Vallidation‫که‬ ‫هنگامی‬ ‫یادگیری‬ ‫توقف‬ ‫و‬
.‫میشود‬ ‫کوچک‬ ‫کافی‬ ‫اندازه‬ ‫به‬ ‫مجموعه‬ ‫این‬ ‫در‬ ‫خطا‬
‫استفاده‬ ‫میتواند‬ ‫راه‬ ‫یک‬ :‫تر‬ ‫ساده‬ ‫فرضیه‬ ‫فضاهای‬ ‫برای‬ ‫شبکه‬ ‫کردن‬ ‫بایاس‬
‫از‬weight decay‫باندازه‬ ‫بارتکرار‬ ‫هر‬ ‫در‬ ‫وزنها‬ ‫مقدار‬ ‫آن‬ ‫در‬ ‫که‬ ‫باشد‬
.‫میشود‬ ‫داده‬ ‫کاهش‬ ‫کمی‬ ‫خیلی‬
k-fold cross validation‫باشد‬ ‫کم‬ ‫آموزشی‬ ‫مثالهای‬ ‫تعداد‬ ‫که‬ ‫وقتی‬
‫میتوان‬m‫به‬ ‫را‬ ‫آموزشی‬ ‫داده‬K‫به‬ ‫را‬ ‫آزمایش‬ ‫و‬ ‫نموده‬ ‫بندی‬ ‫تقسیم‬ ‫دسته‬
‫تعداد‬k‫مجموعه‬ ‫بعنوان‬ ‫ها‬ ‫دسته‬ ‫از‬ ‫یکی‬ ‫دفعه‬ ‫هر‬ ‫در‬ .‫نمود‬ ‫تکرار‬ ‫دفعه‬
‫بر‬ ‫گیری‬ ‫تصمیم‬ .‫شد‬ ‫خواهند‬ ‫استفاده‬ ‫آموزشی‬ ‫مجموعه‬ ‫بعنوان‬ ‫بقیه‬ ‫و‬ ‫تست‬
‫میشود‬ ‫انجام‬ ‫نتایج‬ ‫میانگین‬ ‫.اساس‬

‫دلیگر‬ ‫روشهای‬
:‫جمله‬ ‫از‬ ‫دارد‬ ‫وجود‬ ‫جدید‬ ‫های‬ ‫شبکه‬ ‫ایجاد‬ ‫برای‬ ‫متنوعی‬ ‫بسیار‬ ‫های‬ ‫راه‬
‫خطا‬ ‫تابع‬ ‫برای‬ ‫دیگری‬ ‫تعاریف‬ ‫از‬ ‫استفاده‬
‫یادگیری‬ ‫حین‬ ‫در‬ ‫خطا‬ ‫کاهش‬ ‫برای‬ ‫دیگری‬ ‫روشهای‬ ‫از‬ ‫استفاده‬
Hybrid Global Learning
Simulated Annealing
Genetic Algorithms
‫واحدها‬ ‫در‬ ‫دیگری‬ ‫توابع‬ ‫از‬ ‫استفاده‬
Radial Basis Functions
‫شبکه‬ ‫برای‬ ‫دیگری‬ ‫های‬ ‫ساختار‬ ‫از‬ ‫استفاده‬
Recurrent Network

‫ارقام‬ ‫تشخیص‬ :‫مثال‬
‫یک‬ ‫از‬ ‫استفاده‬ ‫با‬ ‫بخواهیم‬ ‫کنید‬ ‫فرض‬
‫را‬ ‫دستنویس‬ ‫ارقام‬ ‫لیه‬ ‫دو‬ ‫شبکه‬
.‫دهیم‬ ‫تشخیص‬
‫روشنائی‬ ‫شدت‬ ‫اول‬ ‫لیه‬ ‫نرونهای‬
‫میزنندو‬ ‫تقریب‬ ‫را‬ ‫پیکسلها‬
‫تعیین‬ ‫را‬ ‫ارقام‬ ‫شکل‬ ‫آخر‬ ‫لیه‬ ‫نرونهای‬
.‫میکنند‬
0 1 2 3 4 5 6 7 8 9

:‫میشوند‬ ‫گرفته‬ ‫لیاد‬ ‫وزنها‬ ‫که‬ ‫روشی‬
.‫میشوند‬ ‫اضافه‬ ‫بتدریج‬ ‫فعال‬ ‫پیکسلهای‬ ‫وزنهای‬ ‫و‬ ‫شده‬ ‫ارائه‬ ‫شبکه‬ ‫به‬ ‫تصویر‬
.‫میابد‬ ‫کاهش‬ ‫بتدریج‬ ‫نیز‬ ‫موثر‬ ‫غیر‬ ‫پیکسلهای‬ ‫وزن‬
‫ورودی‬ ‫تصویر‬
1 2 3 4 5 6 7 8 9 0

:‫وزنها‬ ‫گیری‬ ‫شکل‬
1 2 3 4 5 6 7 8 9 0

1 2 3 4 5 6 7 8 9 0

The learned weights
1 2 3 4 5 6 7 8 9 0

‫میگیرد؟‬ ‫لیاد‬ ‫را‬ ‫چیزی‬ ‫چه‬ ‫شبکه‬
‫سری‬ ‫یک‬ ‫از‬ ‫استفاده‬ ‫با‬ ‫معادل‬ ‫لیه‬ ‫دو‬ ‫با‬ ‫شبکه‬ ‫یک‬ ‫مثال‬ ‫این‬ ‫در‬
template‫ورودی‬ ‫با‬ ‫تطبیق‬ ‫بهترین‬ ‫که‬ ‫را‬ ‫قالبی‬ ‫شبکه‬ ‫که‬ ‫است‬ ‫قالب‬ ‫یا‬
!‫میگزیند‬ ‫بر‬ ‫باشد‬ ‫داشته‬ ‫را‬
‫لذا‬ ‫هستند‬ ‫متنوع‬ ‫بسیار‬ ‫ورودی‬ ‫شکلهای‬ ‫دستنویس‬ ‫ارقام‬ ‫مسئله‬ ‫برای‬ ‫اما‬
‫نتیجه‬ ‫در‬ .‫ندارد‬ ‫وجود‬ ‫باشد‬ ‫سازگار‬ ‫ورودیها‬ ‫همه‬ ‫با‬ ‫که‬ ‫ساده‬ ‫قالب‬ ‫یک‬
!‫باشد‬ ‫کلی‬ ‫حالت‬ ‫در‬ ‫مسئله‬ ‫حل‬ ‫راه‬ ‫نمیتواند‬ ‫هم‬ ‫ای‬ ‫شبکه‬ ‫چنین‬
‫ورودی‬ ‫های‬ ‫بایدشکل‬ ‫نمود‬ ‫حل‬ ‫کلی‬ ‫حالت‬ ‫در‬ ‫را‬ ‫مسئله‬ ‫بتوان‬ ‫اینکه‬ ‫برای‬
‫ها‬ ‫ویژگی‬ ‫اساس‬ ‫بر‬ ‫را‬ ‫شبکه‬ ‫و‬ ‫شده‬ ‫تبدیل‬ ‫ها‬ ‫ویژگی‬ ‫از‬ ‫ای‬ ‫مجموعه‬ ‫به‬
.‫داد‬ ‫آموزش‬

‫دستنولیس‬ ‫ارقام‬ ‫تنوع‬ ‫از‬ ‫مثالی‬

Nn

Recommended

Recommended

More Related Content

Similar to Nn

Similar to Nn (11)

Nn

Editor's Notes