SlideShare a Scribd company logo
1 of 73
Download to read offline
‫بازیابی‬‫بین‬ ‫اطالعات‬‫زبانی‬(‫بازبین‬)
‫استاد‬:‫دکتر‬ ‫سرکار‬‫ممتازی‬
‫دهنده‬ ‫ارائه‬:‫هادیفر‬ ‫امیر‬
‫تعریف‬
•‫زبانی‬ ‫بین‬ ‫اطالعات‬ ‫بازیابی‬
•Cross-lingual IR (CLIR), Bi-lingual IR, Multi-lingual IR
•‫جو‬ ‫و‬ ‫پرس‬ ‫از‬ ‫متفاوت‬ ‫زبانی‬ ‫به‬ ‫اسناد‬ ‫بازیابی‬
•‫زبان‬ ‫در‬ ‫پرسش‬ ‫یک‬X‫زبان‬ ‫در‬ ‫مرتبط‬ ‫اسناد‬ ‫کردن‬ ‫پیدا‬ ‫و‬Y
2/31
‫آ‬‫شد‬ ‫خواهد‬ ‫گفته‬ ‫نچه‬
•‫مقدمه‬
•‫کلی‬ ‫ساختار‬CLIR
•‫در‬ ‫موجود‬ ‫های‬ ‫روش‬CLIR
•‫زبانه‬ ‫دو‬ ‫دیکشنری‬
•‫ماشینی‬ ‫ترجمه‬
•‫تطبیقی‬ ‫و‬ ‫موازی‬ ‫های‬ ‫پیکره‬
•‫ارزیابی‬
•‫منابع‬
3/31
‫مقدمه‬
•IR‫غیرانگلیسی‬ ‫زبان‬ ‫روی‬
•IR‫زبانه‬ ‫تک‬ ‫اسناد‬ ‫روی‬ ‫زبانه‬ ‫چند‬ ‫پرسشهای‬ ‫با‬
•IR‫زبانه‬ ‫چند‬ ‫اسناد‬ ‫روی‬(‫زبان‬ ‫چندین‬ ‫شامل‬ ‫سند‬ ‫هر‬)
•IR‫بازیابی‬ ‫را‬ ‫زبان‬ ‫چندین‬ ‫با‬ ‫اسنادی‬ ‫میتوانند‬ ‫پرسشها‬ ‫که‬ ‫زبانه‬ ‫چند‬ ‫اسناد‬ ‫مجموعه‬ ‫روی‬‫کنند‬
•‫و‬...
[Hull & Grefenstette, 1996]
4/31
‫مقدمه‬
[Zhou, et al, 2012]
[searchengineland.com]
5/31
‫مقدمه‬
[Zhou, et al, 2012]
[searchengineland.com]
5/31
‫مقدمه‬
[Zhou, et al, 2012]
[searchengineland.com]
5/31
‫مقدمه‬
[Zhou, et al, 2012]
[searchengineland.com]
5/31
‫مقدمه‬
[Zhou, et al, 2012]
[searchengineland.com]
5/31
‫کلی‬ ‫ساختار‬
•‫ترجمه‬ ‫از‬ ‫قبل‬ ‫واحد‬
•‫ترجمه‬ ‫واحد‬
•‫ترجمه‬ ‫از‬ ‫پس‬ ‫واحد‬
•‫اطالعات‬ ‫بازیابی‬ ‫واحد‬
[Zhou, et al, 2012]
6/31
‫ترجمه‬ ‫از‬ ‫قبل‬ ‫واحدهای‬
•Tokenization
•Compounding & Clitics & segmentation
[https://www.ibm.com/…]
‫پاک‬ ‫برف‬‫کن‬
1- wiper
2- Snow clean do
3- Snow eraser
‫جان‬+‫ا‬
‫دعوا‬+‫یمان‬
‫چهار‬+‫م‬
He’d -> he would | he had
She’s -> she is | she has
Compounding Clitics
[Zhou, et al, 2012]
7/31
‫ترجمه‬ ‫از‬ ‫قبل‬ ‫واحدهای‬
•Tokenization
•Compounding & Clitics & segmentation
•Stop word removal
[https://www.ibm.com/…]
[Zhou, et al, 2012]
7/31
‫ترجمه‬ ‫از‬ ‫قبل‬ ‫واحدهای‬
•Tokenization
•Compounding & Clitics & segmentation
•Stop word removal
•Stemming or lemmatization
[https://www.ibm.com/…]
[Zhou, et al, 2012]
7/31
‫ترجمه‬ ‫از‬ ‫قبل‬ ‫واحدهای‬
•Tokenization
•Compounding & Clitics & segmentation
•Stop word removal
•Stemming or lemmatization
•Term expansion
[https://www.ibm.com/…]
[Zhou, et al, 2012]
7/31
‫ترجمه‬ ‫واحد‬
[Zhou, et al, 2012; Shakery & Zhai, 2012]
8/31
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•Machine readable (bilingual) dictionary (MRD)
•WbW
[Ballesteros & Croft, 1997]
Apple is most delicious fruit
‫سیب‬ ‫هست‬ ‫بیشترین‬ ‫لذیذ‬ ‫میوه‬
9/31
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•Machine readable (bilingual) dictionary (MRD)
•WbW
•40‫تا‬60‫زبانه‬ ‫تک‬ ‫های‬ ‫سیستم‬ ‫درصد‬
[Ballesteros & Croft, 1997]
Apple is most delicious fruit
‫سیب‬ ‫هست‬ ‫بیشترین‬ ‫لذیذ‬ ‫میوه‬
9/31
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•Machine readable (bilingual) dictionary (MRD)
•WbW
•40‫تا‬60‫زبانه‬ ‫تک‬ ‫های‬ ‫سیستم‬ ‫درصد‬
•Phrase – Dual pass
[Ballesteros & Croft, 1997]
Apple is most delicious fruit
‫سیب‬ ‫هست‬
Noun VB Adj Adj Noun
‫میوه‬ ‫لذیذترین‬
9/31
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•Machine readable (bilingual) dictionary (MRD)
•WbW
•40‫تا‬60‫زبانه‬ ‫تک‬ ‫های‬ ‫سیستم‬ ‫درصد‬
•Phrase – Dual pass
•35%-‫تا‬150%‫دقت‬
[Ballesteros & Croft, 1997]
Apple is most delicious fruit
‫سیب‬ ‫هست‬
Noun VB Adj Adj Noun
‫میوه‬ ‫لذیذترین‬
9/31
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•𝑡1,𝑡2𝑡𝑡𝑡2 2𝑡2,𝑡3𝑡𝑡𝑡3 3𝑡3,…}=𝑇𝑖𝑇𝑇𝑇𝑖𝑖𝑖𝑇𝑖‫میاوریم‬ ‫بدست‬ ‫را‬ ‫کلمه‬ ‫آن‬.
•‫در‬ ‫کلمه‬ ‫هر‬ ‫برای‬Query‫های‬ ‫ترجمه‬ ‫تمام‬ ‫مجموعه‬{𝑡 1 1 1 ,𝑡2,𝑡3, …}=𝑇𝑖‫میاوریم‬ ‫بدست‬ ‫را‬ ‫کلمه‬ ‫آن‬.
•‫بده‬ ‫انجام‬ ‫را‬ ‫زیر‬ ‫موارد‬
•‫ترجمه‬ ‫هر‬ ‫برای‬𝑇𝑖∈𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚‫و‬𝑇𝑗‫میکنیم‬ ‫حساب‬ ‫را‬.
•‫هر‬ ‫برای‬𝑡𝑖,𝑚‫امتیاز‬cohesion‫میکنیم‬ ‫حساب‬ ‫را‬ ‫آن‬.
•‫عبارتی‬𝑡𝑖‫مقدار‬ ‫بیشترین‬ ‫که‬cohesion‫در‬ ‫را‬𝑇𝑖‫میکنیم‬ ‫انتخاب‬.
‫ماشین‬ ‫قیمت‬
[ machine, engine]
[ price, value, worth]
10/31
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•∈𝑡𝑖,𝑚𝑡𝑡𝑡𝑖,𝑚𝑖𝑖,𝑚𝑚𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚𝑡𝑡𝑡𝑖,𝑚𝑖𝑖,𝑚𝑚𝑡𝑖,𝑚‫و‬𝑇𝑗𝑇𝑇𝑇𝑗𝑗𝑗𝑇𝑗‫را‬
‫میکنیم‬ ‫حساب‬.
•‫بده‬ ‫انجام‬ ‫را‬ ‫زیر‬ ‫موارد‬
•𝑡1,𝑡2𝑡𝑡𝑡2 2𝑡2,𝑡3𝑡𝑡𝑡3 3𝑡3,…}=𝑇𝑖𝑇𝑇𝑇𝑖𝑖𝑖𝑇𝑖‫میاوریم‬ ‫بدست‬ ‫را‬ ‫کلمه‬ ‫آن‬.
•‫ترجمه‬ ‫هر‬ ‫برای‬𝑇 𝑖 𝑖 𝑖 𝑖∈𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚‫و‬𝑇𝑗‫میکنیم‬ ‫حساب‬ ‫را‬.
•‫بده‬ ‫انجام‬ ‫را‬ ‫زیر‬ ‫موارد‬
•‫ترجمه‬ ‫هر‬ ‫برای‬𝑇𝑖∈𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚‫و‬𝑇𝑗‫میکنیم‬ ‫حساب‬ ‫را‬.
•‫هر‬ ‫برای‬𝑡𝑖,𝑚‫امتیاز‬cohesion‫میکنیم‬ ‫حساب‬ ‫را‬ ‫آن‬.
•‫عبارتی‬𝑡𝑖‫مقدار‬ ‫بیشترین‬ ‫که‬cohesion‫در‬ ‫را‬𝑇𝑖‫میکنیم‬ ‫انتخاب‬.‫ماشین‬ ‫قیمت‬
[ machine, engine]
[ price, value, worth]
[ machine, price] [ machine, value] [ machine, worth]+ +
0.012 0.0001 0.032
[ engine, price] [ engine, value] [ engine, worth]+ +
0.00701 0.00011 0.0001
10/31
...
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•𝑚𝑚𝑡𝑖,𝑚‫امتیاز‬cohesion‫میکنیم‬ ‫حساب‬ ‫را‬ ‫آن‬.
•∈𝑡𝑖,𝑚𝑡𝑡𝑡𝑖,𝑚𝑖𝑖,𝑚𝑚𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚𝑡𝑡𝑡𝑖,𝑚𝑖𝑖,𝑚𝑚𝑡𝑖,𝑚‫و‬𝑇𝑗𝑇𝑇𝑇𝑗𝑗𝑗𝑇𝑗‫حساب‬ ‫را‬
‫میکنیم‬.
•‫بده‬ ‫انجام‬ ‫را‬ ‫زیر‬ ‫موارد‬
•𝑡1,𝑡2𝑡𝑡𝑡2 2𝑡2,𝑡3𝑡𝑡𝑡3 3𝑡3,…}=𝑇𝑖𝑇𝑇𝑇𝑖𝑖𝑖𝑇𝑖‫میاوریم‬ ‫بدست‬ ‫را‬ ‫کلمه‬ ‫آن‬.
•‫هر‬ ‫برای‬𝑡 𝑖,𝑖,𝑚 𝑖,𝑚‫امتیاز‬cohesion‫میکنیم‬ ‫حساب‬ ‫را‬ ‫آن‬.
•‫بده‬ ‫انجام‬ ‫را‬ ‫زیر‬ ‫موارد‬
•‫ترجمه‬ ‫هر‬ ‫برای‬𝑇𝑖∈𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚‫و‬𝑇𝑗‫میکنیم‬ ‫حساب‬ ‫را‬.
•‫هر‬ ‫برای‬𝑡𝑖,𝑚‫امتیاز‬cohesion‫میکنیم‬ ‫حساب‬ ‫را‬ ‫آن‬.
•‫عبارتی‬𝑡𝑖‫مقدار‬ ‫بیشترین‬ ‫که‬cohesion‫در‬ ‫را‬𝑇𝑖‫میکنیم‬ ‫انتخاب‬.‫ماشین‬ ‫قیمت‬
[ machine, engine]
[ price, value, worth]
[ machine, price] [ machine, value] [ machine, worth]+ +
0.012 0.0001 0.032
[ engine, price] [ engine, value] [ engine, worth]+ +
0.00701 0.00011 0.0001
10/31
...
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•‫مقدار‬ ‫بیشترین‬ ‫که‬cohesion‫در‬ ‫را‬𝑇𝑖𝑇𝑇𝑇𝑖𝑖𝑖𝑇𝑖‫میکنیم‬ ‫انتخاب‬.
•𝑚𝑚𝑡𝑖,𝑚‫امتیاز‬cohesion‫میکنیم‬ ‫حساب‬ ‫را‬ ‫آن‬.
•∈𝑡𝑖,𝑚𝑡𝑡𝑡𝑖,𝑚𝑖𝑖,𝑚𝑚𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚𝑡𝑡𝑡𝑖,𝑚𝑖𝑖,𝑚𝑚𝑡𝑖,𝑚‫و‬𝑇𝑗𝑇𝑇𝑇𝑗𝑗𝑗𝑇𝑗‫میکنیم‬ ‫حساب‬ ‫را‬.
•‫بده‬ ‫انجام‬ ‫را‬ ‫زیر‬ ‫موارد‬
•𝑡1,𝑡2𝑡𝑡𝑡2 2𝑡2,𝑡3𝑡𝑡𝑡3 3𝑡3,…}=𝑇𝑖𝑇𝑇𝑇𝑖𝑖𝑖𝑇𝑖‫میاوریم‬ ‫بدست‬ ‫را‬ ‫کلمه‬ ‫آن‬.
•‫عبارتی‬𝑡 𝑖 𝑖 𝑖 𝑖‫مقدار‬ ‫بیشترین‬ ‫که‬cohesion‫در‬ ‫را‬𝑇𝑖‫میکنیم‬ ‫انتخاب‬.
•‫بده‬ ‫انجام‬ ‫را‬ ‫زیر‬ ‫موارد‬
•‫ترجمه‬ ‫هر‬ ‫برای‬𝑇𝑖∈𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚‫و‬𝑇𝑗‫میکنیم‬ ‫حساب‬ ‫را‬.
•‫هر‬ ‫برای‬𝑡𝑖,𝑚‫امتیاز‬cohesion‫میکنیم‬ ‫حساب‬ ‫را‬ ‫آن‬.
•‫عبارتی‬𝑡𝑖‫مقدار‬ ‫بیشترین‬ ‫که‬cohesion‫در‬ ‫را‬𝑇𝑖‫میکنیم‬ ‫انتخاب‬.
‫ماشین‬ ‫قیمت‬
[ machine, engine]
[ price, value, worth]
[ machine, price] [ machine, value] [ machine, worth]+ +
0.012 0.0001 0.032
[ engine, price] [ engine, value] [ engine, worth]+ +
0.00701 0.00011 0.0001
10/31
...
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•Structured query translation
[Hull, 1997; Pirkola, 1998; Oard & Wang, 2001]
11/31
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•Structured query translation
[Hull, 1997; Pirkola, 1998; Oard & Wang, 2001]
Query: ‫ماشین‬ ‫قیمت‬
Machine & Price Or Machine & Value Or engine & price≈
11/31
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•Structured query translation
•‫بر‬ ‫مبتنی‬TF-DF
[Hull, 1997; Pirkola, 1998; Oard & Wang, 2001]
11/31
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•Structured query translation
•‫بر‬ ‫مبتنی‬TF-DF
•‫تر‬ ‫پیشرفته‬
[Hull, 1997; Pirkola, 1998; Oard & Wang, 2001]
11/31
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•embedding translation module
•‫ترجمه‬ ‫و‬ ‫بازیابی‬ ‫سازی‬ ‫یکپارچه‬
[Berger & Lafferty, 1999; Kraaij, et al, 2003 ]
Car  automobile, vehicle
12/31
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•embedding translation module
•‫ترجمه‬ ‫و‬ ‫بازیابی‬ ‫سازی‬ ‫یکپارچه‬
[Berger & Lafferty, 1999; Kraaij, et al, 2003 ]
Car  automobile, vehicle Car  ‫,ماشین‬ ‫,خودرو‬ ‫اتومبیل‬
12/31
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•embedding translation module
•‫ترجمه‬ ‫و‬ ‫بازیابی‬ ‫سازی‬ ‫یکپارچه‬
•‫تا‬ ‫کارایی‬ ‫بهبود‬90%‫زبانه‬ ‫تک‬ ‫سیستم‬
[Berger & Lafferty, 1999; Kraaij, et al, 2003 ]
Car  automobile, vehicle Car  ‫,ماشین‬ ‫,خودرو‬ ‫اتومبیل‬
12/31
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•‫ابهام‬ ‫و‬ ‫پوشش‬(coverage & ambiguity)
•‫لغات‬ ‫دایره‬ ‫از‬ ‫خارج‬ ‫کلمات‬OOV))‫مونوپاد‬-‫اسفنجی‬ ‫باب‬–‫اسمیت‬–‫و‬ ‫ناسا‬...
[Karimi, et al, 2006; Karimi, 2008 ]
[Zhou, et al, 2012]
13/31
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•‫ابهام‬ ‫و‬ ‫پوشش‬(coverage & ambiguity)
•‫لغات‬ ‫دایره‬ ‫از‬ ‫خارج‬ ‫کلمات‬OOV))
•‫دامنه‬ ‫خاص‬ ‫دیکشنری‬
‫مونوپاد‬-‫اسفنجی‬ ‫باب‬–‫اسمیت‬–‫و‬ ‫ناسا‬...
[Karimi, et al, 2006; Karimi, 2008 ]
[Zhou, et al, 2012]
13/31
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•‫ابهام‬ ‫و‬ ‫پوشش‬(coverage & ambiguity)
•‫لغات‬ ‫دایره‬ ‫از‬ ‫خارج‬ ‫کلمات‬OOV))
•‫دامنه‬ ‫خاص‬ ‫دیکشنری‬
•Transliteration
‫مونوپاد‬-‫اسفنجی‬ ‫باب‬–‫اسمیت‬–‫و‬ ‫ناسا‬...
[Karimi, et al, 2006; Karimi, 2008 ]
[Zhou, et al, 2012]
13/31
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•‫ابهام‬ ‫و‬ ‫پوشش‬(coverage & ambiguity)
•‫لغات‬ ‫دایره‬ ‫از‬ ‫خارج‬ ‫کلمات‬OOV))
•‫دامنه‬ ‫خاص‬ ‫دیکشنری‬
•Transliteration
•‫پدیا‬ ‫ویکی‬ ‫از‬ ‫استفاده‬
‫مونوپاد‬-‫اسفنجی‬ ‫باب‬–‫اسمیت‬–‫و‬ ‫ناسا‬...
[Karimi, et al, 2006; Karimi, 2008 ]
[Zhou, et al, 2012]
13/31
‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•‫ابهام‬ ‫و‬ ‫پوشش‬(coverage & ambiguity)
•‫لغات‬ ‫دایره‬ ‫از‬ ‫خارج‬ ‫کلمات‬OOV))
•‫دامنه‬ ‫خاص‬ ‫دیکشنری‬
•Transliteration
•‫پدیا‬ ‫ویکی‬ ‫از‬ ‫استفاده‬
•‫نکنیم‬ ‫ترجمه‬!
‫مونوپاد‬-‫اسفنجی‬ ‫باب‬–‫اسمیت‬–‫و‬ ‫ناسا‬...
[Karimi, et al, 2006; Karimi, 2008 ]
[Zhou, et al, 2012]
13/31
‫ماشین‬ ‫ترجمه‬
•(MT Systems)Machine Translation
•‫اخیر‬ ‫های‬ ‫سال‬ ‫در‬ ‫روش‬ ‫ترین‬ ‫محبوب‬
[Brown, et al, 1990; Lopez, 2008]
14/31
‫ماشین‬ ‫ترجمه‬
•(MT Systems)Machine Translation
•‫اخیر‬ ‫های‬ ‫سال‬ ‫در‬ ‫روش‬ ‫ترین‬ ‫محبوب‬
•‫ها‬ ‫روش‬:
•Neural MT, Statistical MT, Hybrid MT, Rule based MT
[Brown, et al, 1990; Lopez, 2008]
14/31
‫ماشین‬ ‫ترجمه‬
•(MT Systems)Machine Translation
•‫اخیر‬ ‫های‬ ‫سال‬ ‫در‬ ‫روش‬ ‫ترین‬ ‫محبوب‬
•‫ها‬ ‫روش‬:
•Neural MT, Statistical MT, Hybrid MT, Rule based MT
•‫دقت‬99%‫گوگل‬ ‫با‬API‫در‬CLEF 2009
[Brown, et al, 1990; Lopez, 2008]
14/31
‫ماشین‬ ‫ترجمه‬
•(MT Systems)Machine Translation
•‫اخیر‬ ‫های‬ ‫سال‬ ‫در‬ ‫روش‬ ‫ترین‬ ‫محبوب‬
•‫ها‬ ‫روش‬:
•Neural MT, Statistical MT, Hybrid MT, Rule based MT
•‫دقت‬99%‫گوگل‬ ‫با‬API‫در‬CLEF 2009
•“Can we take this as meaning that Google is going to solve the cross-language
translation resource quandary?”
[Brown, et al, 1990; Lopez, 2008]
14/31
‫ماشین‬ ‫ترجمه‬
•TEP (Tehran English-Persian) Parallel corpus
[Pilevar, et al, 2011]
15/31
‫آماری‬ ‫ماشین‬ ‫ترجمه‬
•‫متن‬ ‫یک‬ ‫کنید‬ ‫فرض‬f‫ترجمه‬ ‫میخواهیم‬ ‫و‬ ‫باشیم‬ ‫داشته‬e‫کنیم‬ ‫پیدا‬ ‫رو‬Pr(e|f)
[Brown, et al, 1990; Lopez, 2008]
16/31
‫آماری‬ ‫ماشین‬ ‫ترجمه‬
•‫متن‬ ‫یک‬ ‫کنید‬ ‫فرض‬f‫ترجمه‬ ‫میخواهیم‬ ‫و‬ ‫باشیم‬ ‫داشته‬e‫کنیم‬ ‫پیدا‬ ‫رو‬
•‫از‬ ‫استفاده‬Naive Bayes
Pr(e|f)
[Brown, et al, 1990; Lopez, 2008]
Pr(e|f) = Pr(f|e)Pr(e)/pr(f)
16/31
‫آماری‬ ‫ماشین‬ ‫ترجمه‬
•‫متن‬ ‫یک‬ ‫کنید‬ ‫فرض‬f‫ترجمه‬ ‫میخواهیم‬ ‫و‬ ‫باشیم‬ ‫داشته‬e‫کنیم‬ ‫پیدا‬ ‫رو‬
•‫از‬ ‫استفاده‬Naive Bayes
•‫محاسبه‬Pr(e)
Pr(e|f)
[Brown, et al, 1990; Lopez, 2008]
Pr(e|f) = Pr(f|e)Pr(e)/pr(f)
Pr(Le chien est battu par Jean | John(6) does beat(3,4) the(1) dog(2))
16/31
‫آماری‬ ‫ماشین‬ ‫ترجمه‬
•‫متن‬ ‫یک‬ ‫کنید‬ ‫فرض‬f‫ترجمه‬ ‫میخواهیم‬ ‫و‬ ‫باشیم‬ ‫داشته‬e‫کنیم‬ ‫پیدا‬ ‫رو‬
•‫از‬ ‫استفاده‬Naive Bayes
•‫محاسبه‬Pr(e)
•‫محاسبه‬Pr(f|e)
•alignment & fertility
Pr(e|f)
[Brown, et al, 1990; Lopez, 2008]
Pr(e|f) = Pr(f|e)Pr(e)/pr(f)
Pr(Le chien est battu par Jean | John(6) does beat(3,4) the(1) dog(2))
16/31
‫آماری‬ ‫ماشین‬ ‫ترجمه‬
[medium.com/@ageitgey/..]
17/31
‫آماری‬ ‫ماشین‬ ‫ترجمه‬
[medium.com/@ageitgey/..]
17/31
‫آماری‬ ‫ماشین‬ ‫ترجمه‬
[medium.com/@ageitgey/..]
17/31
‫آماری‬ ‫ماشین‬ ‫ترجمه‬
[medium.com/@ageitgey/..]
17/31
[wu, et al, 2016]
[medium.com/@ageitgey/..]
18/31
[wu, et al, 2016]
[medium.com/@ageitgey/..]
18/31
[wu, et al, 2016]
[medium.com/@ageitgey/..]
18/31
encoding
[wu, et al, 2016]
[medium.com/@ageitgey/..]
19/31
encoding
[wu, et al, 2016]
[medium.com/@ageitgey/..]
19/31
encoding
[wu, et al, 2016]
[medium.com/@ageitgey/..]
19/31
‫ماشین‬ ‫ترجمه‬
[wu, et al, 2016]
[medium.com/@ageitgey/..]
20/31
‫ماشین‬ ‫ترجمه‬
[wu, et al, 2016]
[medium.com/@ageitgey/..]
20/31
‫ترجمه‬ ‫واحد‬
[Zhou, et al, 2012; Shakery & Zhai, 2012]
21/31
‫تطبیقی‬ ‫های‬ ‫پیکره‬
22/31
‫تطبیقی‬ ‫های‬ ‫پیکره‬
•Comparable corpora
•‫یکسان‬ ‫زمانی‬ ‫های‬ ‫بازه‬ ‫در‬ ‫مختلف‬ ‫زبانهای‬ ‫در‬ ‫مشابه‬ ‫موضوعات‬
[Shakery & Zhai, 2012]
23/31
‫تطبیقی‬ ‫های‬ ‫پیکره‬
•‫صفحات‬ ‫استخراج‬
[Shakery & Zhai, 2012]
24/31
‫تطبیقی‬ ‫های‬ ‫پیکره‬
•‫صفحات‬ ‫استخراج‬
•‫کلمات‬ ‫بردارهای‬ ‫محاسبه‬
[Shakery & Zhai, 2012]
24/31
‫تطبیقی‬ ‫های‬ ‫پیکره‬
•‫صفحات‬ ‫استخراج‬
•‫کلمات‬ ‫بردارهای‬ ‫محاسبه‬
•‫محاسبه‬correlation
[Shakery & Zhai, 2012]
24/31
‫تطبیقی‬ ‫های‬ ‫پیکره‬
•‫پرسش‬ ‫زبانی‬ ‫مدل‬ ‫محاسبه‬
•‫محاسبه‬KL
[Shakery & Zhai, 2012]
25/31
‫ترجمه‬ ‫واحد‬
[Zhou, et al, 2012; Shakery & Zhai, 2012]
26/31
‫ترجمه‬ ‫واحد‬
•Transitive translation
[Zhou, et al, 2012]
27/31
‫ترجمه‬ ‫واحد‬
•Transitive translation
German
fisch
[Zhou, et al, 2012]
27/31
‫ترجمه‬ ‫واحد‬
•Transitive translation
German
fisch
Spanish
Pez, Pescado
Dutch
Vis
[Zhou, et al, 2012]
27/31
‫ترجمه‬ ‫واحد‬
•Transitive translation
German
fisch
Spanish
Pez, Pescado
Dutch
Vis
English
Pitch, Fish, tar, food
English
Pisces the fishes, Pisces,
Fish
[Zhou, et al, 2012]
27/31
‫ترجمه‬ ‫واحد‬
•Transitive translation
German
fisch
Spanish
Pez, Pescado
Dutch
Vis
English
Pitch, Fish, tar, food
English
Pisces the fishes, Pisces,
Fish
English
Fish
[Zhou, et al, 2012]
27/31
‫کلی‬ ‫ساختار‬
•‫ترجمه‬ ‫از‬ ‫قبل‬ ‫واحد‬
•‫ترجمه‬ ‫واحد‬
•‫ترجمه‬ ‫از‬ ‫پس‬ ‫واحد‬
•‫اطالعات‬ ‫بازیابی‬ ‫واحد‬
[Zhou, et al, 2012]
28/31
‫ارزیابی‬
[Shakery & Zhai, 2012]
29/31
‫منابع‬
[1] D. Zhou,T. Brailsford, M. Turan, V. Wade, and H. Ashman “Translation Techniques in Cross-
Language Information Retrieval,” ACM Comput. Surv, vol. 45, no. 44, 2012.
[2] A. Shakery and C. Zhai, “Leveraging comparable corpora for cross-lingual information
retrieval in resource-lean language pairs,” Inf. Retr. Boston., vol. 16, no. 1, pp. 1–29, Feb. 2013.
[3] E. Agirre, G. M. Di Nunzio, N. Ferro, T. Mandl, and C. Peters, CLEF 2008 : Ad Hoc Track
Overview. 2008.
[4] L. Ballestems and W. B. Croft, “Phrasal Translation and Query Expansion Techniques for
Cross-Language Information Retrieval,” no. Mi, pp. 84–91.
[5] P. F. Brown, J. Cocke, S. A. Della Pietra, V. J. Della Pietra, F. Jelinek, J. D. Lafferty, R. L.
Mercer, P. S. Roossin, and T. J. Watson, “A STATISTICALAPPROACH TO MACHINE
TRANSLATION,” vol. 16, no. 2, pp. 79–85, 1990.
30/31
‫منابع‬
[6] D. A. Hull, “Using Structured Queries for Disambiguation in Cross-Language Information
Retrieval Background : Cross-Language,” 1997.
[7] S. Karimi, A. Turpin, and F. Scholer, “English to Persian Transliteration,” pp. 255–266, 2006.
[8] A. Lopez, “Statistical Machine Translation,” vol. 40, no. 3, pp. 1–49, 2008.
[9] D. Maupertuis, “Across Languages : A Dictionary-Based Information Approach to
Multilingual,” pp. 49–57.
[10] Y. Wu, M. Schuster, Z. Chen, Q. V Le, M. Norouzi, W. Macherey, M. Krikun, Y. Cao, Q.
Gao, K. Macherey, J. Klingner, A. Shah, M. Johnson, X. Liu, Ł. Kaiser, S. Gouws, Y. Kato, T.
Kudo, H. Kazawa, K. Stevens, G. Kurian, N. Patil, W. Wang, C. Young, J. Smith, J. Riesa, A.
Rudnick, O. Vinyals, G. Corrado, M. Hughes, and J. Dean, “Google ’ s Neural Machine
Translation System : Bridging the Gap between Human and Machine Translation,” pp. 1–23.
31/31

More Related Content

Featured

Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 

Cross Language Information Retrieval

  • 2. ‫تعریف‬ •‫زبانی‬ ‫بین‬ ‫اطالعات‬ ‫بازیابی‬ •Cross-lingual IR (CLIR), Bi-lingual IR, Multi-lingual IR •‫جو‬ ‫و‬ ‫پرس‬ ‫از‬ ‫متفاوت‬ ‫زبانی‬ ‫به‬ ‫اسناد‬ ‫بازیابی‬ •‫زبان‬ ‫در‬ ‫پرسش‬ ‫یک‬X‫زبان‬ ‫در‬ ‫مرتبط‬ ‫اسناد‬ ‫کردن‬ ‫پیدا‬ ‫و‬Y 2/31
  • 3. ‫آ‬‫شد‬ ‫خواهد‬ ‫گفته‬ ‫نچه‬ •‫مقدمه‬ •‫کلی‬ ‫ساختار‬CLIR •‫در‬ ‫موجود‬ ‫های‬ ‫روش‬CLIR •‫زبانه‬ ‫دو‬ ‫دیکشنری‬ •‫ماشینی‬ ‫ترجمه‬ •‫تطبیقی‬ ‫و‬ ‫موازی‬ ‫های‬ ‫پیکره‬ •‫ارزیابی‬ •‫منابع‬ 3/31
  • 4. ‫مقدمه‬ •IR‫غیرانگلیسی‬ ‫زبان‬ ‫روی‬ •IR‫زبانه‬ ‫تک‬ ‫اسناد‬ ‫روی‬ ‫زبانه‬ ‫چند‬ ‫پرسشهای‬ ‫با‬ •IR‫زبانه‬ ‫چند‬ ‫اسناد‬ ‫روی‬(‫زبان‬ ‫چندین‬ ‫شامل‬ ‫سند‬ ‫هر‬) •IR‫بازیابی‬ ‫را‬ ‫زبان‬ ‫چندین‬ ‫با‬ ‫اسنادی‬ ‫میتوانند‬ ‫پرسشها‬ ‫که‬ ‫زبانه‬ ‫چند‬ ‫اسناد‬ ‫مجموعه‬ ‫روی‬‫کنند‬ •‫و‬... [Hull & Grefenstette, 1996] 4/31
  • 5. ‫مقدمه‬ [Zhou, et al, 2012] [searchengineland.com] 5/31
  • 6. ‫مقدمه‬ [Zhou, et al, 2012] [searchengineland.com] 5/31
  • 7. ‫مقدمه‬ [Zhou, et al, 2012] [searchengineland.com] 5/31
  • 8. ‫مقدمه‬ [Zhou, et al, 2012] [searchengineland.com] 5/31
  • 9. ‫مقدمه‬ [Zhou, et al, 2012] [searchengineland.com] 5/31
  • 10. ‫کلی‬ ‫ساختار‬ •‫ترجمه‬ ‫از‬ ‫قبل‬ ‫واحد‬ •‫ترجمه‬ ‫واحد‬ •‫ترجمه‬ ‫از‬ ‫پس‬ ‫واحد‬ •‫اطالعات‬ ‫بازیابی‬ ‫واحد‬ [Zhou, et al, 2012] 6/31
  • 11. ‫ترجمه‬ ‫از‬ ‫قبل‬ ‫واحدهای‬ •Tokenization •Compounding & Clitics & segmentation [https://www.ibm.com/…] ‫پاک‬ ‫برف‬‫کن‬ 1- wiper 2- Snow clean do 3- Snow eraser ‫جان‬+‫ا‬ ‫دعوا‬+‫یمان‬ ‫چهار‬+‫م‬ He’d -> he would | he had She’s -> she is | she has Compounding Clitics [Zhou, et al, 2012] 7/31
  • 12. ‫ترجمه‬ ‫از‬ ‫قبل‬ ‫واحدهای‬ •Tokenization •Compounding & Clitics & segmentation •Stop word removal [https://www.ibm.com/…] [Zhou, et al, 2012] 7/31
  • 13. ‫ترجمه‬ ‫از‬ ‫قبل‬ ‫واحدهای‬ •Tokenization •Compounding & Clitics & segmentation •Stop word removal •Stemming or lemmatization [https://www.ibm.com/…] [Zhou, et al, 2012] 7/31
  • 14. ‫ترجمه‬ ‫از‬ ‫قبل‬ ‫واحدهای‬ •Tokenization •Compounding & Clitics & segmentation •Stop word removal •Stemming or lemmatization •Term expansion [https://www.ibm.com/…] [Zhou, et al, 2012] 7/31
  • 15. ‫ترجمه‬ ‫واحد‬ [Zhou, et al, 2012; Shakery & Zhai, 2012] 8/31
  • 16. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •Machine readable (bilingual) dictionary (MRD) •WbW [Ballesteros & Croft, 1997] Apple is most delicious fruit ‫سیب‬ ‫هست‬ ‫بیشترین‬ ‫لذیذ‬ ‫میوه‬ 9/31
  • 17. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •Machine readable (bilingual) dictionary (MRD) •WbW •40‫تا‬60‫زبانه‬ ‫تک‬ ‫های‬ ‫سیستم‬ ‫درصد‬ [Ballesteros & Croft, 1997] Apple is most delicious fruit ‫سیب‬ ‫هست‬ ‫بیشترین‬ ‫لذیذ‬ ‫میوه‬ 9/31
  • 18. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •Machine readable (bilingual) dictionary (MRD) •WbW •40‫تا‬60‫زبانه‬ ‫تک‬ ‫های‬ ‫سیستم‬ ‫درصد‬ •Phrase – Dual pass [Ballesteros & Croft, 1997] Apple is most delicious fruit ‫سیب‬ ‫هست‬ Noun VB Adj Adj Noun ‫میوه‬ ‫لذیذترین‬ 9/31
  • 19. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •Machine readable (bilingual) dictionary (MRD) •WbW •40‫تا‬60‫زبانه‬ ‫تک‬ ‫های‬ ‫سیستم‬ ‫درصد‬ •Phrase – Dual pass •35%-‫تا‬150%‫دقت‬ [Ballesteros & Croft, 1997] Apple is most delicious fruit ‫سیب‬ ‫هست‬ Noun VB Adj Adj Noun ‫میوه‬ ‫لذیذترین‬ 9/31
  • 20. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •𝑡1,𝑡2𝑡𝑡𝑡2 2𝑡2,𝑡3𝑡𝑡𝑡3 3𝑡3,…}=𝑇𝑖𝑇𝑇𝑇𝑖𝑖𝑖𝑇𝑖‫میاوریم‬ ‫بدست‬ ‫را‬ ‫کلمه‬ ‫آن‬. •‫در‬ ‫کلمه‬ ‫هر‬ ‫برای‬Query‫های‬ ‫ترجمه‬ ‫تمام‬ ‫مجموعه‬{𝑡 1 1 1 ,𝑡2,𝑡3, …}=𝑇𝑖‫میاوریم‬ ‫بدست‬ ‫را‬ ‫کلمه‬ ‫آن‬. •‫بده‬ ‫انجام‬ ‫را‬ ‫زیر‬ ‫موارد‬ •‫ترجمه‬ ‫هر‬ ‫برای‬𝑇𝑖∈𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚‫و‬𝑇𝑗‫میکنیم‬ ‫حساب‬ ‫را‬. •‫هر‬ ‫برای‬𝑡𝑖,𝑚‫امتیاز‬cohesion‫میکنیم‬ ‫حساب‬ ‫را‬ ‫آن‬. •‫عبارتی‬𝑡𝑖‫مقدار‬ ‫بیشترین‬ ‫که‬cohesion‫در‬ ‫را‬𝑇𝑖‫میکنیم‬ ‫انتخاب‬. ‫ماشین‬ ‫قیمت‬ [ machine, engine] [ price, value, worth] 10/31
  • 21. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •∈𝑡𝑖,𝑚𝑡𝑡𝑡𝑖,𝑚𝑖𝑖,𝑚𝑚𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚𝑡𝑡𝑡𝑖,𝑚𝑖𝑖,𝑚𝑚𝑡𝑖,𝑚‫و‬𝑇𝑗𝑇𝑇𝑇𝑗𝑗𝑗𝑇𝑗‫را‬ ‫میکنیم‬ ‫حساب‬. •‫بده‬ ‫انجام‬ ‫را‬ ‫زیر‬ ‫موارد‬ •𝑡1,𝑡2𝑡𝑡𝑡2 2𝑡2,𝑡3𝑡𝑡𝑡3 3𝑡3,…}=𝑇𝑖𝑇𝑇𝑇𝑖𝑖𝑖𝑇𝑖‫میاوریم‬ ‫بدست‬ ‫را‬ ‫کلمه‬ ‫آن‬. •‫ترجمه‬ ‫هر‬ ‫برای‬𝑇 𝑖 𝑖 𝑖 𝑖∈𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚‫و‬𝑇𝑗‫میکنیم‬ ‫حساب‬ ‫را‬. •‫بده‬ ‫انجام‬ ‫را‬ ‫زیر‬ ‫موارد‬ •‫ترجمه‬ ‫هر‬ ‫برای‬𝑇𝑖∈𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚‫و‬𝑇𝑗‫میکنیم‬ ‫حساب‬ ‫را‬. •‫هر‬ ‫برای‬𝑡𝑖,𝑚‫امتیاز‬cohesion‫میکنیم‬ ‫حساب‬ ‫را‬ ‫آن‬. •‫عبارتی‬𝑡𝑖‫مقدار‬ ‫بیشترین‬ ‫که‬cohesion‫در‬ ‫را‬𝑇𝑖‫میکنیم‬ ‫انتخاب‬.‫ماشین‬ ‫قیمت‬ [ machine, engine] [ price, value, worth] [ machine, price] [ machine, value] [ machine, worth]+ + 0.012 0.0001 0.032 [ engine, price] [ engine, value] [ engine, worth]+ + 0.00701 0.00011 0.0001 10/31 ...
  • 22. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •𝑚𝑚𝑡𝑖,𝑚‫امتیاز‬cohesion‫میکنیم‬ ‫حساب‬ ‫را‬ ‫آن‬. •∈𝑡𝑖,𝑚𝑡𝑡𝑡𝑖,𝑚𝑖𝑖,𝑚𝑚𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚𝑡𝑡𝑡𝑖,𝑚𝑖𝑖,𝑚𝑚𝑡𝑖,𝑚‫و‬𝑇𝑗𝑇𝑇𝑇𝑗𝑗𝑗𝑇𝑗‫حساب‬ ‫را‬ ‫میکنیم‬. •‫بده‬ ‫انجام‬ ‫را‬ ‫زیر‬ ‫موارد‬ •𝑡1,𝑡2𝑡𝑡𝑡2 2𝑡2,𝑡3𝑡𝑡𝑡3 3𝑡3,…}=𝑇𝑖𝑇𝑇𝑇𝑖𝑖𝑖𝑇𝑖‫میاوریم‬ ‫بدست‬ ‫را‬ ‫کلمه‬ ‫آن‬. •‫هر‬ ‫برای‬𝑡 𝑖,𝑖,𝑚 𝑖,𝑚‫امتیاز‬cohesion‫میکنیم‬ ‫حساب‬ ‫را‬ ‫آن‬. •‫بده‬ ‫انجام‬ ‫را‬ ‫زیر‬ ‫موارد‬ •‫ترجمه‬ ‫هر‬ ‫برای‬𝑇𝑖∈𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚‫و‬𝑇𝑗‫میکنیم‬ ‫حساب‬ ‫را‬. •‫هر‬ ‫برای‬𝑡𝑖,𝑚‫امتیاز‬cohesion‫میکنیم‬ ‫حساب‬ ‫را‬ ‫آن‬. •‫عبارتی‬𝑡𝑖‫مقدار‬ ‫بیشترین‬ ‫که‬cohesion‫در‬ ‫را‬𝑇𝑖‫میکنیم‬ ‫انتخاب‬.‫ماشین‬ ‫قیمت‬ [ machine, engine] [ price, value, worth] [ machine, price] [ machine, value] [ machine, worth]+ + 0.012 0.0001 0.032 [ engine, price] [ engine, value] [ engine, worth]+ + 0.00701 0.00011 0.0001 10/31 ...
  • 23. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •‫مقدار‬ ‫بیشترین‬ ‫که‬cohesion‫در‬ ‫را‬𝑇𝑖𝑇𝑇𝑇𝑖𝑖𝑖𝑇𝑖‫میکنیم‬ ‫انتخاب‬. •𝑚𝑚𝑡𝑖,𝑚‫امتیاز‬cohesion‫میکنیم‬ ‫حساب‬ ‫را‬ ‫آن‬. •∈𝑡𝑖,𝑚𝑡𝑡𝑡𝑖,𝑚𝑖𝑖,𝑚𝑚𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚𝑡𝑡𝑡𝑖,𝑚𝑖𝑖,𝑚𝑚𝑡𝑖,𝑚‫و‬𝑇𝑗𝑇𝑇𝑇𝑗𝑗𝑗𝑇𝑗‫میکنیم‬ ‫حساب‬ ‫را‬. •‫بده‬ ‫انجام‬ ‫را‬ ‫زیر‬ ‫موارد‬ •𝑡1,𝑡2𝑡𝑡𝑡2 2𝑡2,𝑡3𝑡𝑡𝑡3 3𝑡3,…}=𝑇𝑖𝑇𝑇𝑇𝑖𝑖𝑖𝑇𝑖‫میاوریم‬ ‫بدست‬ ‫را‬ ‫کلمه‬ ‫آن‬. •‫عبارتی‬𝑡 𝑖 𝑖 𝑖 𝑖‫مقدار‬ ‫بیشترین‬ ‫که‬cohesion‫در‬ ‫را‬𝑇𝑖‫میکنیم‬ ‫انتخاب‬. •‫بده‬ ‫انجام‬ ‫را‬ ‫زیر‬ ‫موارد‬ •‫ترجمه‬ ‫هر‬ ‫برای‬𝑇𝑖∈𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚‫و‬𝑇𝑗‫میکنیم‬ ‫حساب‬ ‫را‬. •‫هر‬ ‫برای‬𝑡𝑖,𝑚‫امتیاز‬cohesion‫میکنیم‬ ‫حساب‬ ‫را‬ ‫آن‬. •‫عبارتی‬𝑡𝑖‫مقدار‬ ‫بیشترین‬ ‫که‬cohesion‫در‬ ‫را‬𝑇𝑖‫میکنیم‬ ‫انتخاب‬. ‫ماشین‬ ‫قیمت‬ [ machine, engine] [ price, value, worth] [ machine, price] [ machine, value] [ machine, worth]+ + 0.012 0.0001 0.032 [ engine, price] [ engine, value] [ engine, worth]+ + 0.00701 0.00011 0.0001 10/31 ...
  • 24. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •Structured query translation [Hull, 1997; Pirkola, 1998; Oard & Wang, 2001] 11/31
  • 25. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •Structured query translation [Hull, 1997; Pirkola, 1998; Oard & Wang, 2001] Query: ‫ماشین‬ ‫قیمت‬ Machine & Price Or Machine & Value Or engine & price≈ 11/31
  • 26. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •Structured query translation •‫بر‬ ‫مبتنی‬TF-DF [Hull, 1997; Pirkola, 1998; Oard & Wang, 2001] 11/31
  • 27. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •Structured query translation •‫بر‬ ‫مبتنی‬TF-DF •‫تر‬ ‫پیشرفته‬ [Hull, 1997; Pirkola, 1998; Oard & Wang, 2001] 11/31
  • 28. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •embedding translation module •‫ترجمه‬ ‫و‬ ‫بازیابی‬ ‫سازی‬ ‫یکپارچه‬ [Berger & Lafferty, 1999; Kraaij, et al, 2003 ] Car  automobile, vehicle 12/31
  • 29. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •embedding translation module •‫ترجمه‬ ‫و‬ ‫بازیابی‬ ‫سازی‬ ‫یکپارچه‬ [Berger & Lafferty, 1999; Kraaij, et al, 2003 ] Car  automobile, vehicle Car  ‫,ماشین‬ ‫,خودرو‬ ‫اتومبیل‬ 12/31
  • 30. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •embedding translation module •‫ترجمه‬ ‫و‬ ‫بازیابی‬ ‫سازی‬ ‫یکپارچه‬ •‫تا‬ ‫کارایی‬ ‫بهبود‬90%‫زبانه‬ ‫تک‬ ‫سیستم‬ [Berger & Lafferty, 1999; Kraaij, et al, 2003 ] Car  automobile, vehicle Car  ‫,ماشین‬ ‫,خودرو‬ ‫اتومبیل‬ 12/31
  • 31. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •‫ابهام‬ ‫و‬ ‫پوشش‬(coverage & ambiguity) •‫لغات‬ ‫دایره‬ ‫از‬ ‫خارج‬ ‫کلمات‬OOV))‫مونوپاد‬-‫اسفنجی‬ ‫باب‬–‫اسمیت‬–‫و‬ ‫ناسا‬... [Karimi, et al, 2006; Karimi, 2008 ] [Zhou, et al, 2012] 13/31
  • 32. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •‫ابهام‬ ‫و‬ ‫پوشش‬(coverage & ambiguity) •‫لغات‬ ‫دایره‬ ‫از‬ ‫خارج‬ ‫کلمات‬OOV)) •‫دامنه‬ ‫خاص‬ ‫دیکشنری‬ ‫مونوپاد‬-‫اسفنجی‬ ‫باب‬–‫اسمیت‬–‫و‬ ‫ناسا‬... [Karimi, et al, 2006; Karimi, 2008 ] [Zhou, et al, 2012] 13/31
  • 33. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •‫ابهام‬ ‫و‬ ‫پوشش‬(coverage & ambiguity) •‫لغات‬ ‫دایره‬ ‫از‬ ‫خارج‬ ‫کلمات‬OOV)) •‫دامنه‬ ‫خاص‬ ‫دیکشنری‬ •Transliteration ‫مونوپاد‬-‫اسفنجی‬ ‫باب‬–‫اسمیت‬–‫و‬ ‫ناسا‬... [Karimi, et al, 2006; Karimi, 2008 ] [Zhou, et al, 2012] 13/31
  • 34. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •‫ابهام‬ ‫و‬ ‫پوشش‬(coverage & ambiguity) •‫لغات‬ ‫دایره‬ ‫از‬ ‫خارج‬ ‫کلمات‬OOV)) •‫دامنه‬ ‫خاص‬ ‫دیکشنری‬ •Transliteration •‫پدیا‬ ‫ویکی‬ ‫از‬ ‫استفاده‬ ‫مونوپاد‬-‫اسفنجی‬ ‫باب‬–‫اسمیت‬–‫و‬ ‫ناسا‬... [Karimi, et al, 2006; Karimi, 2008 ] [Zhou, et al, 2012] 13/31
  • 35. ‫دیکشنری‬ ‫بر‬ ‫مبتنی‬ •‫ابهام‬ ‫و‬ ‫پوشش‬(coverage & ambiguity) •‫لغات‬ ‫دایره‬ ‫از‬ ‫خارج‬ ‫کلمات‬OOV)) •‫دامنه‬ ‫خاص‬ ‫دیکشنری‬ •Transliteration •‫پدیا‬ ‫ویکی‬ ‫از‬ ‫استفاده‬ •‫نکنیم‬ ‫ترجمه‬! ‫مونوپاد‬-‫اسفنجی‬ ‫باب‬–‫اسمیت‬–‫و‬ ‫ناسا‬... [Karimi, et al, 2006; Karimi, 2008 ] [Zhou, et al, 2012] 13/31
  • 36. ‫ماشین‬ ‫ترجمه‬ •(MT Systems)Machine Translation •‫اخیر‬ ‫های‬ ‫سال‬ ‫در‬ ‫روش‬ ‫ترین‬ ‫محبوب‬ [Brown, et al, 1990; Lopez, 2008] 14/31
  • 37. ‫ماشین‬ ‫ترجمه‬ •(MT Systems)Machine Translation •‫اخیر‬ ‫های‬ ‫سال‬ ‫در‬ ‫روش‬ ‫ترین‬ ‫محبوب‬ •‫ها‬ ‫روش‬: •Neural MT, Statistical MT, Hybrid MT, Rule based MT [Brown, et al, 1990; Lopez, 2008] 14/31
  • 38. ‫ماشین‬ ‫ترجمه‬ •(MT Systems)Machine Translation •‫اخیر‬ ‫های‬ ‫سال‬ ‫در‬ ‫روش‬ ‫ترین‬ ‫محبوب‬ •‫ها‬ ‫روش‬: •Neural MT, Statistical MT, Hybrid MT, Rule based MT •‫دقت‬99%‫گوگل‬ ‫با‬API‫در‬CLEF 2009 [Brown, et al, 1990; Lopez, 2008] 14/31
  • 39. ‫ماشین‬ ‫ترجمه‬ •(MT Systems)Machine Translation •‫اخیر‬ ‫های‬ ‫سال‬ ‫در‬ ‫روش‬ ‫ترین‬ ‫محبوب‬ •‫ها‬ ‫روش‬: •Neural MT, Statistical MT, Hybrid MT, Rule based MT •‫دقت‬99%‫گوگل‬ ‫با‬API‫در‬CLEF 2009 •“Can we take this as meaning that Google is going to solve the cross-language translation resource quandary?” [Brown, et al, 1990; Lopez, 2008] 14/31
  • 40. ‫ماشین‬ ‫ترجمه‬ •TEP (Tehran English-Persian) Parallel corpus [Pilevar, et al, 2011] 15/31
  • 41. ‫آماری‬ ‫ماشین‬ ‫ترجمه‬ •‫متن‬ ‫یک‬ ‫کنید‬ ‫فرض‬f‫ترجمه‬ ‫میخواهیم‬ ‫و‬ ‫باشیم‬ ‫داشته‬e‫کنیم‬ ‫پیدا‬ ‫رو‬Pr(e|f) [Brown, et al, 1990; Lopez, 2008] 16/31
  • 42. ‫آماری‬ ‫ماشین‬ ‫ترجمه‬ •‫متن‬ ‫یک‬ ‫کنید‬ ‫فرض‬f‫ترجمه‬ ‫میخواهیم‬ ‫و‬ ‫باشیم‬ ‫داشته‬e‫کنیم‬ ‫پیدا‬ ‫رو‬ •‫از‬ ‫استفاده‬Naive Bayes Pr(e|f) [Brown, et al, 1990; Lopez, 2008] Pr(e|f) = Pr(f|e)Pr(e)/pr(f) 16/31
  • 43. ‫آماری‬ ‫ماشین‬ ‫ترجمه‬ •‫متن‬ ‫یک‬ ‫کنید‬ ‫فرض‬f‫ترجمه‬ ‫میخواهیم‬ ‫و‬ ‫باشیم‬ ‫داشته‬e‫کنیم‬ ‫پیدا‬ ‫رو‬ •‫از‬ ‫استفاده‬Naive Bayes •‫محاسبه‬Pr(e) Pr(e|f) [Brown, et al, 1990; Lopez, 2008] Pr(e|f) = Pr(f|e)Pr(e)/pr(f) Pr(Le chien est battu par Jean | John(6) does beat(3,4) the(1) dog(2)) 16/31
  • 44. ‫آماری‬ ‫ماشین‬ ‫ترجمه‬ •‫متن‬ ‫یک‬ ‫کنید‬ ‫فرض‬f‫ترجمه‬ ‫میخواهیم‬ ‫و‬ ‫باشیم‬ ‫داشته‬e‫کنیم‬ ‫پیدا‬ ‫رو‬ •‫از‬ ‫استفاده‬Naive Bayes •‫محاسبه‬Pr(e) •‫محاسبه‬Pr(f|e) •alignment & fertility Pr(e|f) [Brown, et al, 1990; Lopez, 2008] Pr(e|f) = Pr(f|e)Pr(e)/pr(f) Pr(Le chien est battu par Jean | John(6) does beat(3,4) the(1) dog(2)) 16/31
  • 49. [wu, et al, 2016] [medium.com/@ageitgey/..] 18/31
  • 50. [wu, et al, 2016] [medium.com/@ageitgey/..] 18/31
  • 51. [wu, et al, 2016] [medium.com/@ageitgey/..] 18/31
  • 52. encoding [wu, et al, 2016] [medium.com/@ageitgey/..] 19/31
  • 53. encoding [wu, et al, 2016] [medium.com/@ageitgey/..] 19/31
  • 54. encoding [wu, et al, 2016] [medium.com/@ageitgey/..] 19/31
  • 55. ‫ماشین‬ ‫ترجمه‬ [wu, et al, 2016] [medium.com/@ageitgey/..] 20/31
  • 56. ‫ماشین‬ ‫ترجمه‬ [wu, et al, 2016] [medium.com/@ageitgey/..] 20/31
  • 57. ‫ترجمه‬ ‫واحد‬ [Zhou, et al, 2012; Shakery & Zhai, 2012] 21/31
  • 59. ‫تطبیقی‬ ‫های‬ ‫پیکره‬ •Comparable corpora •‫یکسان‬ ‫زمانی‬ ‫های‬ ‫بازه‬ ‫در‬ ‫مختلف‬ ‫زبانهای‬ ‫در‬ ‫مشابه‬ ‫موضوعات‬ [Shakery & Zhai, 2012] 23/31
  • 60. ‫تطبیقی‬ ‫های‬ ‫پیکره‬ •‫صفحات‬ ‫استخراج‬ [Shakery & Zhai, 2012] 24/31
  • 61. ‫تطبیقی‬ ‫های‬ ‫پیکره‬ •‫صفحات‬ ‫استخراج‬ •‫کلمات‬ ‫بردارهای‬ ‫محاسبه‬ [Shakery & Zhai, 2012] 24/31
  • 62. ‫تطبیقی‬ ‫های‬ ‫پیکره‬ •‫صفحات‬ ‫استخراج‬ •‫کلمات‬ ‫بردارهای‬ ‫محاسبه‬ •‫محاسبه‬correlation [Shakery & Zhai, 2012] 24/31
  • 63. ‫تطبیقی‬ ‫های‬ ‫پیکره‬ •‫پرسش‬ ‫زبانی‬ ‫مدل‬ ‫محاسبه‬ •‫محاسبه‬KL [Shakery & Zhai, 2012] 25/31
  • 64. ‫ترجمه‬ ‫واحد‬ [Zhou, et al, 2012; Shakery & Zhai, 2012] 26/31
  • 68. ‫ترجمه‬ ‫واحد‬ •Transitive translation German fisch Spanish Pez, Pescado Dutch Vis English Pitch, Fish, tar, food English Pisces the fishes, Pisces, Fish [Zhou, et al, 2012] 27/31
  • 69. ‫ترجمه‬ ‫واحد‬ •Transitive translation German fisch Spanish Pez, Pescado Dutch Vis English Pitch, Fish, tar, food English Pisces the fishes, Pisces, Fish English Fish [Zhou, et al, 2012] 27/31
  • 70. ‫کلی‬ ‫ساختار‬ •‫ترجمه‬ ‫از‬ ‫قبل‬ ‫واحد‬ •‫ترجمه‬ ‫واحد‬ •‫ترجمه‬ ‫از‬ ‫پس‬ ‫واحد‬ •‫اطالعات‬ ‫بازیابی‬ ‫واحد‬ [Zhou, et al, 2012] 28/31
  • 72. ‫منابع‬ [1] D. Zhou,T. Brailsford, M. Turan, V. Wade, and H. Ashman “Translation Techniques in Cross- Language Information Retrieval,” ACM Comput. Surv, vol. 45, no. 44, 2012. [2] A. Shakery and C. Zhai, “Leveraging comparable corpora for cross-lingual information retrieval in resource-lean language pairs,” Inf. Retr. Boston., vol. 16, no. 1, pp. 1–29, Feb. 2013. [3] E. Agirre, G. M. Di Nunzio, N. Ferro, T. Mandl, and C. Peters, CLEF 2008 : Ad Hoc Track Overview. 2008. [4] L. Ballestems and W. B. Croft, “Phrasal Translation and Query Expansion Techniques for Cross-Language Information Retrieval,” no. Mi, pp. 84–91. [5] P. F. Brown, J. Cocke, S. A. Della Pietra, V. J. Della Pietra, F. Jelinek, J. D. Lafferty, R. L. Mercer, P. S. Roossin, and T. J. Watson, “A STATISTICALAPPROACH TO MACHINE TRANSLATION,” vol. 16, no. 2, pp. 79–85, 1990. 30/31
  • 73. ‫منابع‬ [6] D. A. Hull, “Using Structured Queries for Disambiguation in Cross-Language Information Retrieval Background : Cross-Language,” 1997. [7] S. Karimi, A. Turpin, and F. Scholer, “English to Persian Transliteration,” pp. 255–266, 2006. [8] A. Lopez, “Statistical Machine Translation,” vol. 40, no. 3, pp. 1–49, 2008. [9] D. Maupertuis, “Across Languages : A Dictionary-Based Information Approach to Multilingual,” pp. 49–57. [10] Y. Wu, M. Schuster, Z. Chen, Q. V Le, M. Norouzi, W. Macherey, M. Krikun, Y. Cao, Q. Gao, K. Macherey, J. Klingner, A. Shah, M. Johnson, X. Liu, Ł. Kaiser, S. Gouws, Y. Kato, T. Kudo, H. Kazawa, K. Stevens, G. Kurian, N. Patil, W. Wang, C. Young, J. Smith, J. Riesa, A. Rudnick, O. Vinyals, G. Corrado, M. Hughes, and J. Dean, “Google ’ s Neural Machine Translation System : Bridging the Gap between Human and Machine Translation,” pp. 1–23. 31/31