SlideShare a Scribd company logo
‫کامپیوتر‬ ‫مهندسی‬ ‫دانشکده‬
‫عصبی‬ ‫های‬‫شبکه‬ ‫با‬ ‫توالی‬‫به‬‫توالی‬ ‫یادگیری‬
Sequence to Sequence Learning with Neural Networks
‫طبیعی‬ ‫های‬‫زبان‬ ‫پردازش‬ ‫درس‬ ‫پروژه‬
‫دانـشجو‬:
‫ذاکری‬ ‫مرتضی‬
‫اسـتاد‬‫درس‬:
‫بهروز‬ ‫دکتر‬‫مینایی‬
‫ماه‬‫دی‬1396
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫رئوس‬‫مطالب‬
•‫مدل‬‫‌توالی‬‫ه‬‫‌ب‬‫ی‬‫توال‬
•‫آموزش‬‫و‬‫جزئیات‬‫مدل‬
•‫‌ها‬‫ش‬‫آزمای‬
•‫مجموعه‬‫‌ها‬‫ه‬‫داد‬
•‫‌سازی‬‫ن‬‫وارو‬‫‌های‬‫ه‬‫جمل‬‫مبدأ‬
•‫نتایج‬
•‫‌گیری‬‫ه‬‫نتیج‬
•‫مسائل‬‫باز‬‫و‬‫کارهای‬‫آتی‬
•‫مقدمه‬
•‫یادگیری‬‫ژرف‬
•‫شرح‬‫مسئله‬‫و‬‫اهمیت‬‫موضوع‬
•‫مفاهیم‬‫اولیه‬
•‫مدل‬‫زبانی‬
•‫‌های‬‫ه‬‫شبک‬‫عصبی‬‫مکرر‬
•‫کارهای‬‫مرتبط‬
•‫مدل‬‫کدگذار‬-‫کدگشا‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬2‌‫از‬20
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫یادگیری‬‫ژرف‬
•‫استفاده‬‫از‬‫‌های‬‫ف‬‫گرا‬‫محاسباتی‬‫با‬‫عمق‬‫بیشتر‬‫از‬‫یک‬‫الیه‬‫در‬‫‌های‬‫ه‬‫شبک‬‫عصبی‬
‫مـقدمه‬‫مفاهیم‌اولیه‬‫کارهای‌مرتبط‬‫‌توا‬‫ه‬‫‌ب‬‫ی‬‫مدل‌توال‬‫لی‬‫‌ها‬‫ش‬‫آزمای‬‫‌گیری‬‫ه‬‫نتیج‬
1 2
x
h
y
U
V
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬3‌‫از‬20
‫الیه‌ورودی‬
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫یادگیری‬‫ژرف‬
•‫‌های‬‫ه‬‫شبک‬‫عصبی‬‫مکرر‬:‫یادگیری‬‫وظایف‬‫مبتنی‬‫بر‬‫توالی‬(Goodfellow et al. 2016).
•‫یادگیری‬‫وظایفی‬‫که‬‫ترتیب‬‫ورودی‬‫در‬‫آنها‬‫مهم‬‫است‬:‫اکثر‬‫وظایف‬‫حوزه‬NLP.
‫مـقدمه‬‫مفاهیم‌اولیه‬‫کارهای‌مرتبط‬‫‌توا‬‫ه‬‫‌ب‬‫ی‬‫مدل‌توال‬‫لی‬‫‌ها‬‫ش‬‫آزمای‬‫‌گیری‬‫ه‬‫نتیج‬
xt-1
ht-1
yt-1
U
V
xt
ht
yt
U
V
xt+1
ht+1
yt+1
U
V
W W W
t-1 t t+1
W
x
h
y
U
V
W
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬4‌‫از‬20
‫الیه‌ورودی‬
‌‫الیه‬‫خروجی‬
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫شرح‬‫مسئله‬
•‫در‬‫شبکه‬‫عصبی‬،‫مکرر‬‫طول‬‫توالی‬‫ورودی‬‫و‬‫خروجی‬‫ثابت‬‫و‬‫برابر‬‫است‬.
•‫این‬‫مدل‬‫برای‬‫‌های‬‫ی‬‫توال‬‫ورودی‬‫و‬‫خروجی‬‫با‬‫طول‬‫متفاوت‬‫و‬‫متغیر‬‫مناسب‬‫نیست‬.
•‫‌هایی‬‫ه‬‫نمون‬‫از‬‫وظایف‬‫نگاشت‬‫‌توالی‬‫ه‬‫‌ب‬‫ی‬‫توال‬:
•‫ترجمه‬،‫ماشینی‬
•‫تبدیل‬‫گفتار‬‫به‬،‫نوشتار‬
•‫سیستم‬‫پرسش‬‫و‬،‫پاسخ‬
•‫و‬‫غیره‬.
•‫نیاز‬‫به‬‫یک‬‫مدل‬‫برای‬‫یادگیری‬‫نگاشت‬،‫‌توالی‬‫ه‬‫‌ب‬‫ی‬‫توال‬‫مستقل‬‫از‬‫دامنه‬‫مسئ‬‫له‬(‫وظیفه‬).
(Ilya Sutskever, Oriol Vinyals et al. 2014)
‫مـقدمه‬‫مفاهیم‌اولیه‬‫کارهای‌مرتبط‬‫‌توا‬‫ه‬‫‌ب‬‫ی‬‫مدل‌توال‬‫لی‬‫‌ها‬‫ش‬‫آزمای‬‫‌گیری‬‫ه‬‫نتیج‬
What is your name
‫چیست‬ ‫شما‬ ‫نام‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬5‌‫از‬20
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫مدل‬‫زبانی‬
•‫یک‬‫مفهوم‬‫پایه‬‫در‬NLP((Jurafsky & Martin 2009
•‫امکان‬‫‌بینی‬‫ش‬‫پی‬‫نشانه‬‫بعدی‬‫در‬‫یک‬‫توالی‬‫را‬‫فراهم‬‫‌کند‬‫ی‬‫م‬.
𝑥 = < 𝑥 1
, 𝑥 2
, … 𝑥 𝑚
> ⇒ 𝑝 𝑥 = ෑ
𝑡=1
𝑚
𝑝(𝑥 𝑡
|𝑥 <𝑡
)
•‫‌های‬‫ل‬‫مد‬‫سنتی‬n-gram(Luong 2016):
•‫محدودسازی‬‫‌ی‬‫ه‬‫رابط‬‫باال‬‫به‬‫تنها‬n-1‫‌ی‬‫ه‬‫نشان‬،‫قبل‬‫با‬‫استناد‬‫به‬‫فرض‬‫مارکوف‬.
•‫نارسایی‬‫مدل‬‫در‬‫‌های‬‫ی‬‫توال‬‫طوالنی‬‫بر‬‫اثر‬‫فرض‬‫ساده‬‫کننده‬.
•‫‌های‬‫ل‬‫مد‬‫زبانی‬‫عصبی‬(Luong 2016):
•‫استفاده‬‫از‬‫‌های‬‫ه‬‫شبک‬‫عصبی‬‫ژرف‬‫برای‬‫استنباط‬‫احتمال‬‫باال‬.
‫مـقدمه‬‫مفاهیم‌اولیه‬‫کارهای‌مرتبط‬‫‌توا‬‫ه‬‫‌ب‬‫ی‬‫مدل‌توال‬‫لی‬‫‌ها‬‫ش‬‫آزمای‬‫‌گیری‬‫ه‬‫نتیج‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬6‌‫از‬20
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫شبکه‬‫عصبی‬‫مکرر‬
•‫یک‬‫م‬‫ـ‬‫عماری‬‫جدید‬‫برای‬‫مدل‬‫زبانی‬
1) 𝑎 𝑡 = 𝑈𝑥 𝑡 + 𝑊ℎ 𝑡−1 + 𝑏,
2) ℎ(𝑡) = Φ(𝑎 𝑡 ),
3) 𝑦 𝑡 = 𝑉ℎ 𝑡 + 𝑐,
4) ŷ 𝑡 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑦 𝑡
‫مـقدمه‬‫مفاهیم‌اولیه‬‫کارهای‌مرتبط‬‫‌توا‬‫ه‬‫‌ب‬‫ی‬‫مدل‌توال‬‫لی‬‫‌ها‬‫ش‬‫آزمای‬‫‌گیری‬‫ه‬‫نتیج‬
xt-1
ht-1
yt-1
U
V
xt
ht
yt
U
V
xt+1
ht+1
yt+1
U
V
W W W
t-1 t t+1
W
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬7‌‫از‬20
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫کارهای‬‫مرتبط‬
•‫ایده‬‫اصلی‬‫استفاده‬‫شده‬‫در‬‫کارهای‬‫قبلی‬:
•‫فشردن‬‫اطالعات‬‫توالی‬‫مبدأ‬(‫ورودی‬)‫در‬‫یک‬‫بردار‬‫با‬‫بعد‬‫ثابت‬،
•‫استخراج‬‫توالی‬‫مقصد‬(‫خروجی‬)‫از‬‫روی‬‫بردار‬‫حاصل‬‫شده‬‫در‬‫مرحله‬‫قبل‬.
•Kalchbrenner‫و‬Blunsom(Kalchbrenner & Blunsom 2013):
•‫استفاده‬‫از‬‫شبکه‬‫عصبی‬‫پیچشی‬‫برای‬‫کدگذاری‬،
•‫عدم‬‫حفظ‬‫ترتیب‬‫‌ها‬‫ه‬‫نشان‬(‫‌ها‬‫ه‬‫واژ‬)‫در‬‫توالی‬.
•‫مدل‬‫کدگذار‬-‫کدگشا‬(Cho et al. 2014):
•‫استفاده‬‫از‬‫شبکه‬‫عصبی‬‫مکرر‬‫با‬‫سلول‬‫حافظه‬‫غیر‬LSTM،
•‫مشکل‬‫در‬‫یادگیری‬‫‌های‬‫ی‬‫توال‬‫طوالنی‬.
‫مـقدمه‬‫مفاهیم‌اولیه‬‫کارهای‌مرتبط‬‫‌توا‬‫ه‬‫‌ب‬‫ی‬‫مدل‌توال‬‫لی‬‫‌ها‬‫ش‬‫آزمای‬‫‌گیری‬‫ه‬‫نتیج‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬8‌‫از‬20
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫مدل‬‫کدگذار‬-‫کدگشا‬
‫مـقدمه‬‫مفاهیم‌اولیه‬‌‫کارهای‬‫مرتبط‬‫‌توا‬‫ه‬‫‌ب‬‫ی‬‫مدل‌توال‬‫لی‬‫‌ها‬‫ش‬‫آزمای‬‫‌گیری‬‫ه‬‫نتیج‬
‌‫مدل‬‫کدگذار‬–‫کدگشا‬(Cho et al. 2014).
‫هسته‌سلول‌حافظه‌استفاده‌شده‌در‌الیه‌پ‬‌‫نهان‬
‌‫مدل‬‫کدگذار‬–‫کدگشا‬(Cho et al. 2014).
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬9‌‫از‬20
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫مدل‬‫توالی‬‫به‬‫توالی‬
‫مـقدمه‬‫مفاهیم‌اولیه‬‫کارهای‌مرتبط‬‫‌توا‬‫ه‬‫‌ب‬‫ی‬‫مدل‌توال‬‫لی‬‫‌ها‬‫ش‬‫آزمای‬‫‌گیری‬‫ه‬‫نتیج‬
•‫هدف‬:‫تخمین‬‫احتمال‬‫شرطی‬
𝑝(< 𝑦 1 , 𝑦 2 , … , 𝑦 𝑚 > | < 𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 >)
•‫با‬‫استفاده‬‫از‬‫رابطه‬
𝑝 < 𝑦 1 , … , 𝑦 𝑚 > < 𝑥 1 , … , 𝑥 𝑛 > = ෑ
𝑡=1
𝑚
𝑝(𝑦 𝑡 |𝑣, 𝑦 1 , … , 𝑦 𝑡−1 )
•‫وظیفه‬‫انتخاب‬‫شده‬:‫ترجمه‬‫ماشینی‬‫عصبی‬(‫ترجمه‬‫انگلیسی‬‫به‬‫فرانسوی‬)
(Ilya Sutskever, Oriol Vinyals et al. 2014)
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬10‌‫از‬20
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫آموزش‬‫و‬‫آزمون‬‫مدل‬
‫مـقدمه‬‫مفاهیم‌اولیه‬‫کارهای‌مرتبط‬‫‌توا‬‫ه‬‫‌ب‬‫ی‬‫مدل‌توال‬‫لی‬‫‌ها‬‫ش‬‫آزمای‬‫‌گیری‬‫ه‬‫نتیج‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬11‌‫از‬20
(Luong 2016)‫ترجمه‌ماشینی‌عصبی‌با‌شبکه‌عصبی‌مکرر‌ژرف‬
()
(embedding layer)
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫جزئیات‬‫مدل‬
•‫حافظه‬‫‌مدت‬‫ه‬‫کوتا‬‫بلند‬(LSTM)‫با‬‫ژرفای‬4‫الیه‬‫و‬1000‫سلول‬‫در‬‫هر‬،‫الیه‬
•‫مقداردهی‬‫اولیه‬‫تصادفی‬‫پارامترها‬‫با‬‫توزیع‬،‫یکنواخت‬
•‫یادگیری‬‫به‬‫روش‬‫کاهش‬‫گرادیان‬‫تصادفی‬(SGD)‫با‬‫نرخ‬‫یادگیری‬0.7،
•‫‌سازی‬‫ه‬‫پیاد‬‫اولیه‬‫در‬(Ilya Sutskever, Oriol Vinyals et al. 2014) C++،
•‫‌های‬‫ی‬‫‌ساز‬‫ه‬‫پیاد‬‫مشابه‬‫در‬tensorflow(Luong et al. 2017)‫و‬keras(Keras-Team 2017).
‫مـقدمه‬‫مفاهیم‌اولیه‬‫کارهای‌مرتبط‬‫‌توا‬‫ه‬‫‌ب‬‫ی‬‫مدل‌توال‬‫لی‬‫‌ها‬‫ش‬‫آزمای‬‫‌گیری‬‫ه‬‫نتیج‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬12‌‫از‬20
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫مجموعه‬‫داده‬
•‫مجموعه‬‫داده‬‫ترجمه‬‫انگلیسی‬‫به‬‫فرانسوی‬WMT’14(Pecina 2014):
•‫زیرمجموعه‬12‫میلیون‬‫‌ای‬‫ه‬‫جمل‬،
•348‫میلیون‬‫واژه‬‫فرانسوی‬‫و‬340‫میلیون‬‫واژه‬‫انگلیسی‬.
•‫مجموعه‬‫آموزشی‬‫‌تر‬‫ک‬‫کوچ‬(Kelly 2017)
•‫برای‬‫آموزش‬‫در‬‫سطح‬‫کاراکتر‬.
•‫شامل‬‫مجموعه‬‫داده‬‫نمونه‬‫ترجمه‬‫انگلیسی‬‫به‬‫فارسی‬.
‫مـقدمه‬‫مفاهیم‌اولیه‬‫کارهای‌مرتبط‬‫‌توا‬‫ه‬‫‌ب‬‫ی‬‫مدل‌توال‬‫لی‬‫‌ها‬‫ش‬‫آزمای‬‫‌گیری‬‫ه‬‫نتیج‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬13‌‫از‬20
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫وارون‬‫سازی‬‫های‬‫جمله‬‫مبدأ‬
•‫در‬‫این‬‫روش‬‫جمله‬‫مبدأ‬‫‌شده‬‫ن‬‫وارو‬‫و‬
‫سپس‬‫جمله‬‫مقصد‬‫به‬‫آن‬‫الصاق‬‫‌ش‬‫ی‬‫م‬‫ود‬.
•‫کاهش‬‫تأخیر‬‫زمانی‬‫کمینه‬
•‫کاهش‬‫مقدار‬‫سرگشتگی‬‫مدل‬‫از‬5.8‫به‬
4.7
•‫افزایش‬‫امتیاز‬BLEU‫کسب‬‫شده‬‫توسط‬
‫مدل‬‫از‬25.9‫به‬30.6
•‫عدم‬‫تغییر‬‫میانگین‬‫تأخیر‬‫زمانی‬
•‫اثر‬‫این‬‫پدیده‬‫بر‬‫‌های‬‫ن‬‫زبا‬‫از‬‫راست‬‫به‬‫چپ؟؟؟‬
‫مـقدمه‬‫مفاهیم‌اولیه‬‫کارهای‌مرتبط‬‫‌توا‬‫ه‬‫‌ب‬‫ی‬‫مدل‌توال‬‫لی‬‫‌ها‬‫ش‬‫آزمای‬‫‌گیری‬‫ه‬‫نتیج‬
cba γβα
abc‫‌شده‬‫ن‬‫وارو‬ γβα
‫حالت‌عادی‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬14‌‫از‬20
1
3
5
3
3
3
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫امتیازهای‬BLEU‫حاصل‬‫شده‬
‫روش‬‫امتیاز‬BLEU(ntst14)
Bahdanau‫ک‬
(Bahdanau et al. 2014)
28.45
‫ک‬LSTM‫ل‬‫ت‬ ،1226.17
‫ک‬LSTM‫ت‬ ،1230.59
‫ج‬LSTM‫ت‬ ،133.00
LSTM‫ت‬ ،1233.27
‫ج‬LSTM‫ت‬ ،2134.50
‫ج‬LSTM‫ت‬ ،1234.81
‫مـقدمه‬‫مفاهیم‌اولیه‬‫کارهای‌مرتبط‬‫‌توا‬‫ه‬‫‌ب‬‫ی‬‫مدل‌توال‬‫لی‬‫‌ها‬‫ش‬‫آزمای‬‫‌گیری‬‫ه‬‫نتیج‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬15‌‫از‬20
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫کارآمدی‬‫روی‬‫های‬‫جمله‬‫طوالنی‬
‫مـقدمه‬‫مفاهیم‌اولیه‬‫کارهای‌مرتبط‬‫‌توا‬‫ه‬‫‌ب‬‫ی‬‫مدل‌توال‬‫لی‬‫‌ها‬‫ش‬‫آزمای‬‫‌گیری‬‫ه‬‫نتیج‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬16‌‫از‬20
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫یادگیری‬‫بازنمایی‬
‫مـقدمه‬‫مفاهیم‌اولیه‬‫کارهای‌مرتبط‬‫‌توا‬‫ه‬‫‌ب‬‫ی‬‫مدل‌توال‬‫لی‬‫‌ها‬‫ش‬‫آزمای‬‫‌گیری‬‫ه‬‫نتیج‬
‌‫‌ها‌در‌عبارت‬‫ه‬‫‌بندی‌عبارات‌با‌توجه‌به‌معنای‌آنها‌در‌دو‌بعد‌ثابت‌و‌تأثیر‌ترتیب‌آمدن‌واژ‬‫ه‬‫خوش‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬17‌‫از‬20
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫گیری‬‫نتیجه‬‫و‬‫کارهای‬‫آتی‬
•‫ارایه‬‫یک‬‫مدل‬‫مستقل‬‫از‬،‫دامنه‬‫برای‬‫وظایف‬‫مبتنی‬‫بر‬‫نگاشت‬‫‌ها‬‫ی‬‫توال‬‫به‬‫یک‬‫دیگر‬.
•‫یک‬‫شبکه‬LSTM‫ژرف‬‫قادر‬‫به‬‫شکست‬‫‌های‬‫م‬‫سیست‬‫ترجمه‬‫ماشینی‬‫سنتی‬‫است‬.
•‫وارون‬‫سازی‬‫توالی‬‫مبدأ‬‫سبب‬‫افزایش‬‫دقت‬‫و‬‫بهبود‬‫کارآمدی‬‫مدل‬‫‌شود‬‫ی‬‫م‬.
•LSTM‫در‬‫یادگیری‬‫‌های‬‫ی‬‫توال‬‫طوالنی‬‫خیلی‬‫خوب‬‫عمل‬‫‌کند‬‫ی‬‫م‬.
•‫افزایش‬‫دقت‬‫مدل‬‫با‬‫‌های‬‫ش‬‫رو‬‫مختلف‬‫مثل‬‫افزایش‬‫مجموعه‬‫داده‬‫آموزش‬
•‫استفاده‬‫از‬‫این‬‫مدل‬‫برای‬‫سایر‬‫وظایف‬‫مبتنی‬‫بر‬‫نگاشت‬‫‌توالی‬‫ه‬‫‌ب‬‫ی‬‫توال‬
‫مـقدمه‬‫مفاهیم‌اولیه‬‫کارهای‌مرتبط‬‫‌توا‬‫ه‬‫‌ب‬‫ی‬‫مدل‌توال‬‫لی‬‫‌ها‬‫ش‬‫آزمای‬‫‌گیری‬‫ه‬‫نتیج‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬18‌‫از‬20
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫مراجع‬
• hdanau, D., Cho, K. & Bengio, Y., 2014. Neural machine translation by jointly learning to align
and translate. , pp.1–15. Available at: http://arxiv.org/abs/1409.0473
• Cho, K. et al., 2014. Learning phrase representations using RNN encoder-decoder for
statistical machine translation. Available at: http://arxiv.org/abs/1406.1078.
• Goodfellow, I., Bengio, Y. & Courville, A., 2016. Deep learning, MIT Press. Available at:
http://www.deeplearningbook.org/.
• Ilya Sutskever, Oriol Vinyals, Q.V. Le et al., 2014. Sequence to sequence learning with neural
networks. Nips, pp.1–9.
• Jurafsky, D. & Martin, J.H., 2009. Speech and language processing (2nd edition), Upper Saddle
River, NJ, USA: Prentice-Hall, Inc.
• Kalchbrenner, N. & Blunsom, P., 2013. Recurrent continuous translation models. Emnlp,
(October), pp.1700–1709.
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬19‌‫از‬20
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫مراجع‬(‫ادامه‬)
• Kelly, C., 2017. Tab-delimited bilingual sentence pairs from the Tatoeba project (good for
anki and similar flashcard applications). Available at: http://www.manythings.org/anki/
[Accessed November 13, 2017].
• Keras-Team, 2017. Sequence to sequence example in Keras (character-level). Keras. Available
at: https://github.com/fchollet/keras/blob/master/examples/lstm_seq2seq.py [Accessed November
13, 2017].
• Luong, M.-T., Brevdo, E. & Zhao, R., 2017. Neural machine translation (seq2seq) tutorial.
https://github.com/tensorflow/nmt.
• Luong, M.T., 2016. Neural machine translation. Stanford university. Available at:
https://github.com/lmthang/thesis.
• Pecina, P., 2014. ACL 2014 ninth workshop on statistical machine translation. Available at:
http://www.statmt.org/wmt14/medical-task/index.html [Accessed November 13, 2017].
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬20‌‫از‬20
‫شما‬ ‫توجه‬ ‫از‬ ‫تشکر‬ ‫با‬
‫؟‬
M - Z A K E R I @ L I V E . C O M
Photo: Spring in IUST )Ordibehesht 2017( © Morteza Zakeri
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫مدل‬‫محاسباتی‬‫عصب‬(‫نورون‬)
‫توضیحات‌اضاف‬‫ی‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬1‌‫از‬9
•‫‌های‬‫ه‬‫شبک‬‫عصبی‬‫مصنوعی؛‬‫الهام‬‫گرفته‬‫شده‬‫از‬‫شبکه‬‫عصبی‬‫مغز‬‫انسان‬
‫ل‬
‫ل‬
‫ل‬
‫ک‬
‫ت‬
‫ل‬
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫جریان‬‫داده‬‫در‬‫یادگیری‬‫بانظارت‬
‫توضیحات‌اضاف‬‫ی‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬2‌‫از‬9
•‫محاسبه‬‫خطا‬‫و‬‫آموزش‬
‫ل‬
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫محاسبات‬‫شبکه‬‫عصبی‬‫ژرف‬
h1w11x1
x2
b1
w21
h2
y
w12
b2
v1
b3
v2
w22
x h yW v
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬3‌‫از‬9
‫توضیحات‌اضاف‬‫ی‬
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫یادگیری‬‫روش‬‫به‬‫انتشار‬‫پس‬(‫انتشار‬‫رو‬‫پس‬)
‫توضیحات‌اضاف‬‫ی‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬4‌‫از‬9
«‫ل‬»
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫انواع‬‫بست‬‫بهم‬‫های‬‫شبکه‬‫عصبی‬‫مکرر‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬5‌‫از‬9
‫توضیحات‌اضاف‬‫ی‬
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫اثر‬‫پدیده‬‫وارونگی‬‫بر‬‫های‬‫جمله‬‫فارسی‬
nameyourisWhat ‫چیست‬‫شما‬‫نام‬
Whatisyourname ‫چیست‬‫شما‬‫نام‬‫‌شده‬‫ن‬‫وارو‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬6‌‫از‬9
‫توضیحات‌اضاف‬‫ی‬
•‫اثر‬‫پدیده‬‫وارون‬‫سازی‬‫در‬‫ترجمه‬‫انگلیسی‬‫به‬‫فارسی؟‬
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫ترکیب‬‫ترجمه‬‫سنتی‬‫با‬‫ترجمه‬‫ماشینی‬‫عصبی‬
•‫امتیاز‬‫دهی‬n‫فهرست‬‫بهتر‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬7‌‫از‬9
BLEU(ntst14)
‌‫چــو‬‫و‬‌‫همکاران‬(Cho et al. 2014)34.54
‫امتیازدهی‬‌‫مجدد‬1000‌‫فهرست‌بهتر‌با‌یک‬LSTM‫‌جلو‬‫ه‬‫روب‬35.61
‫امتیازدهی‬‌‫مجدد‬1000‌‫فهرست‌بهتر‌با‌یک‬LSTM‫وارون‬35.85
‫امتیازدهی‬‌‫مجدد‬1000‌‫فهرست‌بهتر‌با‌پنج‬LSTM‫وارون‬36.50
‫‌گویی‬‫ش‬‫پی‬‫امتیازدهی‬‌‫مجدد‬1000‫فهرست‌بهتر‬45~
‫توضیحات‌اضاف‬‫ی‬
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫کارآمدی‬‫روی‬‫های‬‫جمله‬‫طوالنی‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬8‌‫از‬9
‫توضیحات‌اضاف‬‫ی‬
‫کامپیوت‬ ‫مهندسی‬ ‫دانشکده‬‫ر‬
‫پایان‬
•‫برای‬‫اطالعات‬‫بیشتر‬‫به‬‫فایل‬‫کامل‬‫پروژه‬‫در‬‫تارنمای‬‫بوته‬‫رجوع‬‫فرمایید‬.
•http://www.boute.ir/iust-nlp-96/290
‫توضیحات‌اضاف‬‫ی‬
13‫‌ماه‬‫ی‬‫د‬1396‌‫‌های‌عصبی‬‫ه‬‫‌توالی‌با‌شبک‬‫ه‬‫‌ب‬‫ی‬‫یادگیری‌توال‬-‌‫‌های‌طبیعی‬‫ن‬‫درس‌پردازش‌زبا‬-‫مرتضی‌ذاکری‬‌‫صفحه‬9‌‫از‬9

More Related Content

More from Morteza Zakeri

6-TDD
6-TDD6-TDD
3-use-casemodelling
3-use-casemodelling3-use-casemodelling
3-use-casemodelling
Morteza Zakeri
 
5-modular-design
5-modular-design5-modular-design
5-modular-design
Morteza Zakeri
 
4-architectural-views
4-architectural-views4-architectural-views
4-architectural-views
Morteza Zakeri
 
2-requirements-modelling
2-requirements-modelling2-requirements-modelling
2-requirements-modelling
Morteza Zakeri
 
1-requirements-elicitation
1-requirements-elicitation1-requirements-elicitation
1-requirements-elicitation
Morteza Zakeri
 
Analysis of Social Phenomena Using Machine Learning Techniques: A Mixed Resea...
Analysis of Social Phenomena Using Machine Learning Techniques: A Mixed Resea...Analysis of Social Phenomena Using Machine Learning Techniques: A Mixed Resea...
Analysis of Social Phenomena Using Machine Learning Techniques: A Mixed Resea...
Morteza Zakeri
 
Internet of Things: Middle-ware Platforms, Security, and Intrusion Detection
Internet of Things: Middle-ware Platforms, Security, and Intrusion DetectionInternet of Things: Middle-ware Platforms, Security, and Intrusion Detection
Internet of Things: Middle-ware Platforms, Security, and Intrusion Detection
Morteza Zakeri
 
Community Detection with Genetic Algorithm
Community Detection with Genetic AlgorithmCommunity Detection with Genetic Algorithm
Community Detection with Genetic Algorithm
Morteza Zakeri
 
SpotifyX Architectural Review
SpotifyX Architectural ReviewSpotifyX Architectural Review
SpotifyX Architectural Review
Morteza Zakeri
 
An overview of anomaly detection techniques
An overview of anomaly detection techniquesAn overview of anomaly detection techniques
An overview of anomaly detection techniques
Morteza Zakeri
 
SQLite and object-relational mapping in Java
SQLite and object-relational mapping in JavaSQLite and object-relational mapping in Java
SQLite and object-relational mapping in Java
Morteza Zakeri
 
Apache Mesos: Architecture, Design and Code Review
Apache Mesos: Architecture, Design and Code ReviewApache Mesos: Architecture, Design and Code Review
Apache Mesos: Architecture, Design and Code Review
Morteza Zakeri
 
Bridge Management System Using NoSQL Solutions
Bridge Management System Using NoSQL SolutionsBridge Management System Using NoSQL Solutions
Bridge Management System Using NoSQL Solutions
Morteza Zakeri
 
Extracting architectural model of software from source code
Extracting architectural model of software from source codeExtracting architectural model of software from source code
Extracting architectural model of software from source code
Morteza Zakeri
 
Software Fault Avoidance in Implementation
Software Fault Avoidance in ImplementationSoftware Fault Avoidance in Implementation
Software Fault Avoidance in Implementation
Morteza Zakeri
 
Introduction to Apache Mesos
Introduction to Apache MesosIntroduction to Apache Mesos
Introduction to Apache Mesos
Morteza Zakeri
 
Introduction to Oracle Grid Engine
Introduction to Oracle Grid Engine Introduction to Oracle Grid Engine
Introduction to Oracle Grid Engine
Morteza Zakeri
 
Introduction to Web Programming: PHP vs ASP.NET
Introduction to Web Programming: PHP vs ASP.NETIntroduction to Web Programming: PHP vs ASP.NET
Introduction to Web Programming: PHP vs ASP.NET
Morteza Zakeri
 
Tutorialspoint UI Analysis
Tutorialspoint UI AnalysisTutorialspoint UI Analysis
Tutorialspoint UI Analysis
Morteza Zakeri
 

More from Morteza Zakeri (20)

6-TDD
6-TDD6-TDD
6-TDD
 
3-use-casemodelling
3-use-casemodelling3-use-casemodelling
3-use-casemodelling
 
5-modular-design
5-modular-design5-modular-design
5-modular-design
 
4-architectural-views
4-architectural-views4-architectural-views
4-architectural-views
 
2-requirements-modelling
2-requirements-modelling2-requirements-modelling
2-requirements-modelling
 
1-requirements-elicitation
1-requirements-elicitation1-requirements-elicitation
1-requirements-elicitation
 
Analysis of Social Phenomena Using Machine Learning Techniques: A Mixed Resea...
Analysis of Social Phenomena Using Machine Learning Techniques: A Mixed Resea...Analysis of Social Phenomena Using Machine Learning Techniques: A Mixed Resea...
Analysis of Social Phenomena Using Machine Learning Techniques: A Mixed Resea...
 
Internet of Things: Middle-ware Platforms, Security, and Intrusion Detection
Internet of Things: Middle-ware Platforms, Security, and Intrusion DetectionInternet of Things: Middle-ware Platforms, Security, and Intrusion Detection
Internet of Things: Middle-ware Platforms, Security, and Intrusion Detection
 
Community Detection with Genetic Algorithm
Community Detection with Genetic AlgorithmCommunity Detection with Genetic Algorithm
Community Detection with Genetic Algorithm
 
SpotifyX Architectural Review
SpotifyX Architectural ReviewSpotifyX Architectural Review
SpotifyX Architectural Review
 
An overview of anomaly detection techniques
An overview of anomaly detection techniquesAn overview of anomaly detection techniques
An overview of anomaly detection techniques
 
SQLite and object-relational mapping in Java
SQLite and object-relational mapping in JavaSQLite and object-relational mapping in Java
SQLite and object-relational mapping in Java
 
Apache Mesos: Architecture, Design and Code Review
Apache Mesos: Architecture, Design and Code ReviewApache Mesos: Architecture, Design and Code Review
Apache Mesos: Architecture, Design and Code Review
 
Bridge Management System Using NoSQL Solutions
Bridge Management System Using NoSQL SolutionsBridge Management System Using NoSQL Solutions
Bridge Management System Using NoSQL Solutions
 
Extracting architectural model of software from source code
Extracting architectural model of software from source codeExtracting architectural model of software from source code
Extracting architectural model of software from source code
 
Software Fault Avoidance in Implementation
Software Fault Avoidance in ImplementationSoftware Fault Avoidance in Implementation
Software Fault Avoidance in Implementation
 
Introduction to Apache Mesos
Introduction to Apache MesosIntroduction to Apache Mesos
Introduction to Apache Mesos
 
Introduction to Oracle Grid Engine
Introduction to Oracle Grid Engine Introduction to Oracle Grid Engine
Introduction to Oracle Grid Engine
 
Introduction to Web Programming: PHP vs ASP.NET
Introduction to Web Programming: PHP vs ASP.NETIntroduction to Web Programming: PHP vs ASP.NET
Introduction to Web Programming: PHP vs ASP.NET
 
Tutorialspoint UI Analysis
Tutorialspoint UI AnalysisTutorialspoint UI Analysis
Tutorialspoint UI Analysis
 

Sequence to sequence learning with neural networks