Cross Language Information Retrieval

‫بازیابی‬‫بین‬ ‫اطالعات‬‫زبانی‬(‫بازبین‬)
‫استاد‬:‫دکتر‬ ‫سرکار‬‫ممتازی‬
‫دهنده‬ ‫ارائه‬:‫هادیفر‬ ‫امیر‬

‫تعریف‬
•‫زبانی‬ ‫بین‬ ‫اطالعات‬ ‫بازیابی‬
•Cross-lingual IR (CLIR), Bi-lingual IR, Multi-lingual IR
•‫جو‬ ‫و‬ ‫پرس‬ ‫از‬ ‫متفاوت‬ ‫زبانی‬ ‫به‬ ‫اسناد‬ ‫بازیابی‬
•‫زبان‬ ‫در‬ ‫پرسش‬ ‫یک‬X‫زبان‬ ‫در‬ ‫مرتبط‬ ‫اسناد‬ ‫کردن‬ ‫پیدا‬ ‫و‬Y
2/31

‫آ‬‫شد‬ ‫خواهد‬ ‫گفته‬ ‫نچه‬
•‫مقدمه‬
•‫کلی‬ ‫ساختار‬CLIR
•‫در‬ ‫موجود‬ ‫های‬ ‫روش‬CLIR
•‫زبانه‬ ‫دو‬ ‫دیکشنری‬
•‫ماشینی‬ ‫ترجمه‬
•‫تطبیقی‬ ‫و‬ ‫موازی‬ ‫های‬ ‫پیکره‬
•‫ارزیابی‬
•‫منابع‬
3/31

‫مقدمه‬
•IR‫غیرانگلیسی‬ ‫زبان‬ ‫روی‬
•IR‫زبانه‬ ‫تک‬ ‫اسناد‬ ‫روی‬ ‫زبانه‬ ‫چند‬ ‫پرسشهای‬ ‫با‬
•IR‫زبانه‬ ‫چند‬ ‫اسناد‬ ‫روی‬(‫زبان‬ ‫چندین‬ ‫شامل‬ ‫سند‬ ‫هر‬)
•IR‫بازیابی‬ ‫را‬ ‫زبان‬ ‫چندین‬ ‫با‬ ‫اسنادی‬ ‫میتوانند‬ ‫پرسشها‬ ‫که‬ ‫زبانه‬ ‫چند‬ ‫اسناد‬ ‫مجموعه‬ ‫روی‬‫کنند‬
•‫و‬...
[Hull & Grefenstette, 1996]
4/31

‫مقدمه‬
[Zhou, et al, 2012]
[searchengineland.com]
5/31

‫کلی‬ ‫ساختار‬
•‫ترجمه‬ ‫از‬ ‫قبل‬ ‫واحد‬
•‫ترجمه‬ ‫واحد‬
•‫ترجمه‬ ‫از‬ ‫پس‬ ‫واحد‬
•‫اطالعات‬ ‫بازیابی‬ ‫واحد‬
[Zhou, et al, 2012]
6/31

‫ترجمه‬ ‫از‬ ‫قبل‬ ‫واحدهای‬
•Tokenization
•Compounding & Clitics & segmentation
[https://www.ibm.com/…]
‫پاک‬ ‫برف‬‫کن‬
1- wiper
2- Snow clean do
3- Snow eraser
‫جان‬+‫ا‬
‫دعوا‬+‫یمان‬
‫چهار‬+‫م‬
He’d -> he would | he had
She’s -> she is | she has
Compounding Clitics
[Zhou, et al, 2012]
7/31

•Tokenization
•Stop word removal
[Zhou, et al, 2012]
7/31

•Tokenization
•Stemming or lemmatization
[Zhou, et al, 2012]
7/31

•Tokenization
•Stemming or lemmatization
•Term expansion
[Zhou, et al, 2012]
7/31

‫ترجمه‬ ‫واحد‬
[Zhou, et al, 2012; Shakery & Zhai, 2012]
8/31

‫دیکشنری‬ ‫بر‬ ‫مبتنی‬
•Machine readable (bilingual) dictionary (MRD)
•WbW
[Ballesteros & Croft, 1997]
Apple is most delicious fruit
‫سیب‬ ‫هست‬ ‫بیشترین‬ ‫لذیذ‬ ‫میوه‬
9/31

•WbW
•40‫تا‬60‫زبانه‬ ‫تک‬ ‫های‬ ‫سیستم‬ ‫درصد‬
‫سیب‬ ‫هست‬ ‫بیشترین‬ ‫لذیذ‬ ‫میوه‬
9/31

•WbW
•Phrase – Dual pass
‫سیب‬ ‫هست‬
Noun VB Adj Adj Noun
‫میوه‬ ‫لذیذترین‬
9/31

•WbW
•Phrase – Dual pass
•35%-‫تا‬150%‫دقت‬
‫سیب‬ ‫هست‬
Noun VB Adj Adj Noun
‫میوه‬ ‫لذیذترین‬
9/31

•𝑡1,𝑡2𝑡𝑡𝑡2 2𝑡2,𝑡3𝑡𝑡𝑡3 3𝑡3,…}=𝑇𝑖𝑇𝑇𝑇𝑖𝑖𝑖𝑇𝑖‫میاوریم‬ ‫بدست‬ ‫را‬ ‫کلمه‬ ‫آن‬.
•‫در‬ ‫کلمه‬ ‫هر‬ ‫برای‬Query‫های‬ ‫ترجمه‬ ‫تمام‬ ‫مجموعه‬{𝑡 1 1 1 ,𝑡2,𝑡3, …}=𝑇𝑖‫میاوریم‬ ‫بدست‬ ‫را‬ ‫کلمه‬ ‫آن‬.
•‫بده‬ ‫انجام‬ ‫را‬ ‫زیر‬ ‫موارد‬
•‫ترجمه‬ ‫هر‬ ‫برای‬𝑇𝑖∈𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚‫و‬𝑇𝑗‫میکنیم‬ ‫حساب‬ ‫را‬.
•‫هر‬ ‫برای‬𝑡𝑖,𝑚‫امتیاز‬cohesion‫میکنیم‬ ‫حساب‬ ‫را‬ ‫آن‬.
•‫عبارتی‬𝑡𝑖‫مقدار‬ ‫بیشترین‬ ‫که‬cohesion‫در‬ ‫را‬𝑇𝑖‫میکنیم‬ ‫انتخاب‬.
‫ماشین‬ ‫قیمت‬
[ machine, engine]
[ price, value, worth]
10/31

•∈𝑡𝑖,𝑚𝑡𝑡𝑡𝑖,𝑚𝑖𝑖,𝑚𝑚𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚𝑡𝑡𝑡𝑖,𝑚𝑖𝑖,𝑚𝑚𝑡𝑖,𝑚‫و‬𝑇𝑗𝑇𝑇𝑇𝑗𝑗𝑗𝑇𝑗‫را‬
‫میکنیم‬ ‫حساب‬.
•‫ترجمه‬ ‫هر‬ ‫برای‬𝑇 𝑖 𝑖 𝑖 𝑖∈𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚‫و‬𝑇𝑗‫میکنیم‬ ‫حساب‬ ‫را‬.
•‫عبارتی‬𝑡𝑖‫مقدار‬ ‫بیشترین‬ ‫که‬cohesion‫در‬ ‫را‬𝑇𝑖‫میکنیم‬ ‫انتخاب‬.‫ماشین‬ ‫قیمت‬
[ machine, engine]
[ machine, price] [ machine, value] [ machine, worth]+ +
0.012 0.0001 0.032
[ engine, price] [ engine, value] [ engine, worth]+ +
0.00701 0.00011 0.0001
10/31
...

•𝑚𝑚𝑡𝑖,𝑚‫امتیاز‬cohesion‫میکنیم‬ ‫حساب‬ ‫را‬ ‫آن‬.
•∈𝑡𝑖,𝑚𝑡𝑡𝑡𝑖,𝑚𝑖𝑖,𝑚𝑚𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚𝑡𝑡𝑡𝑖,𝑚𝑖𝑖,𝑚𝑚𝑡𝑖,𝑚‫و‬𝑇𝑗𝑇𝑇𝑇𝑗𝑗𝑗𝑇𝑗‫حساب‬ ‫را‬
‫میکنیم‬.
•‫هر‬ ‫برای‬𝑡 𝑖,𝑖,𝑚 𝑖,𝑚‫امتیاز‬cohesion‫میکنیم‬ ‫حساب‬ ‫را‬ ‫آن‬.
•‫عبارتی‬𝑡𝑖‫مقدار‬ ‫بیشترین‬ ‫که‬cohesion‫در‬ ‫را‬𝑇𝑖‫میکنیم‬ ‫انتخاب‬.‫ماشین‬ ‫قیمت‬
[ machine, engine]
0.012 0.0001 0.032
0.00701 0.00011 0.0001
10/31
...

•‫مقدار‬ ‫بیشترین‬ ‫که‬cohesion‫در‬ ‫را‬𝑇𝑖𝑇𝑇𝑇𝑖𝑖𝑖𝑇𝑖‫میکنیم‬ ‫انتخاب‬.
•𝑚𝑚𝑡𝑖,𝑚‫امتیاز‬cohesion‫میکنیم‬ ‫حساب‬ ‫را‬ ‫آن‬.
•∈𝑡𝑖,𝑚𝑡𝑡𝑡𝑖,𝑚𝑖𝑖,𝑚𝑚𝑡𝑖,𝑚‫کلمه‬ ‫میان‬ ‫شباهت‬ ‫معیار‬𝑡𝑖,𝑚𝑡𝑡𝑡𝑖,𝑚𝑖𝑖,𝑚𝑚𝑡𝑖,𝑚‫و‬𝑇𝑗𝑇𝑇𝑇𝑗𝑗𝑗𝑇𝑗‫میکنیم‬ ‫حساب‬ ‫را‬.
•‫عبارتی‬𝑡 𝑖 𝑖 𝑖 𝑖‫مقدار‬ ‫بیشترین‬ ‫که‬cohesion‫در‬ ‫را‬𝑇𝑖‫میکنیم‬ ‫انتخاب‬.
•‫عبارتی‬𝑡𝑖‫مقدار‬ ‫بیشترین‬ ‫که‬cohesion‫در‬ ‫را‬𝑇𝑖‫میکنیم‬ ‫انتخاب‬.
‫ماشین‬ ‫قیمت‬
[ machine, engine]
0.012 0.0001 0.032
0.00701 0.00011 0.0001
10/31
...

•Structured query translation
[Hull, 1997; Pirkola, 1998; Oard & Wang, 2001]
11/31

Query: ‫ماشین‬ ‫قیمت‬
Machine & Price Or Machine & Value Or engine & price≈
11/31

•‫بر‬ ‫مبتنی‬TF-DF
11/31

•‫بر‬ ‫مبتنی‬TF-DF
•‫تر‬ ‫پیشرفته‬
11/31

•embedding translation module
•‫ترجمه‬ ‫و‬ ‫بازیابی‬ ‫سازی‬ ‫یکپارچه‬
[Berger & Lafferty, 1999; Kraaij, et al, 2003 ]
Car  automobile, vehicle
12/31

Car  automobile, vehicle Car  ‫,ماشین‬ ‫,خودرو‬ ‫اتومبیل‬
12/31

•‫تا‬ ‫کارایی‬ ‫بهبود‬90%‫زبانه‬ ‫تک‬ ‫سیستم‬
Car  automobile, vehicle Car  ‫,ماشین‬ ‫,خودرو‬ ‫اتومبیل‬
12/31

•‫ابهام‬ ‫و‬ ‫پوشش‬(coverage & ambiguity)
•‫لغات‬ ‫دایره‬ ‫از‬ ‫خارج‬ ‫کلمات‬OOV))‫مونوپاد‬-‫اسفنجی‬ ‫باب‬–‫اسمیت‬–‫و‬ ‫ناسا‬...
[Karimi, et al, 2006; Karimi, 2008 ]
[Zhou, et al, 2012]
13/31

•‫لغات‬ ‫دایره‬ ‫از‬ ‫خارج‬ ‫کلمات‬OOV))
•‫دامنه‬ ‫خاص‬ ‫دیکشنری‬
‫مونوپاد‬-‫اسفنجی‬ ‫باب‬–‫اسمیت‬–‫و‬ ‫ناسا‬...
[Zhou, et al, 2012]
13/31

•Transliteration
[Zhou, et al, 2012]
13/31

•Transliteration
•‫پدیا‬ ‫ویکی‬ ‫از‬ ‫استفاده‬
[Zhou, et al, 2012]
13/31

•Transliteration
•‫پدیا‬ ‫ویکی‬ ‫از‬ ‫استفاده‬
•‫نکنیم‬ ‫ترجمه‬!
[Zhou, et al, 2012]
13/31

‫ماشین‬ ‫ترجمه‬
•(MT Systems)Machine Translation
•‫اخیر‬ ‫های‬ ‫سال‬ ‫در‬ ‫روش‬ ‫ترین‬ ‫محبوب‬
[Brown, et al, 1990; Lopez, 2008]
14/31

•‫ها‬ ‫روش‬:
•Neural MT, Statistical MT, Hybrid MT, Rule based MT
14/31

•‫دقت‬99%‫گوگل‬ ‫با‬API‫در‬CLEF 2009
14/31

•‫دقت‬99%‫گوگل‬ ‫با‬API‫در‬CLEF 2009
•“Can we take this as meaning that Google is going to solve the cross-language
translation resource quandary?”
14/31

•TEP (Tehran English-Persian) Parallel corpus
[Pilevar, et al, 2011]
15/31

‫آماری‬ ‫ماشین‬ ‫ترجمه‬
•‫متن‬ ‫یک‬ ‫کنید‬ ‫فرض‬f‫ترجمه‬ ‫میخواهیم‬ ‫و‬ ‫باشیم‬ ‫داشته‬e‫کنیم‬ ‫پیدا‬ ‫رو‬Pr(e|f)
16/31

•‫متن‬ ‫یک‬ ‫کنید‬ ‫فرض‬f‫ترجمه‬ ‫میخواهیم‬ ‫و‬ ‫باشیم‬ ‫داشته‬e‫کنیم‬ ‫پیدا‬ ‫رو‬
•‫از‬ ‫استفاده‬Naive Bayes
Pr(e|f)
Pr(e|f) = Pr(f|e)Pr(e)/pr(f)
16/31

•‫محاسبه‬Pr(e)
Pr(e|f)
Pr(Le chien est battu par Jean | John(6) does beat(3,4) the(1) dog(2))
16/31

•‫محاسبه‬Pr(e)
•‫محاسبه‬Pr(f|e)
•alignment & fertility
Pr(e|f)
Pr(Le chien est battu par Jean | John(6) does beat(3,4) the(1) dog(2))
16/31

[medium.com/@ageitgey/..]
17/31

[wu, et al, 2016]
18/31

encoding
[wu, et al, 2016]
19/31

[wu, et al, 2016]
20/31

21/31

‫تطبیقی‬ ‫های‬ ‫پیکره‬
22/31

•Comparable corpora
•‫یکسان‬ ‫زمانی‬ ‫های‬ ‫بازه‬ ‫در‬ ‫مختلف‬ ‫زبانهای‬ ‫در‬ ‫مشابه‬ ‫موضوعات‬
[Shakery & Zhai, 2012]
23/31

•‫صفحات‬ ‫استخراج‬
24/31

•‫کلمات‬ ‫بردارهای‬ ‫محاسبه‬
24/31

•‫کلمات‬ ‫بردارهای‬ ‫محاسبه‬
•‫محاسبه‬correlation
24/31

•‫پرسش‬ ‫زبانی‬ ‫مدل‬ ‫محاسبه‬
•‫محاسبه‬KL
25/31

26/31

•Transitive translation
[Zhou, et al, 2012]
27/31

German
fisch
[Zhou, et al, 2012]
27/31

German
fisch
Spanish
Pez, Pescado
Dutch
Vis
[Zhou, et al, 2012]
27/31

German
fisch
Spanish
Pez, Pescado
Dutch
Vis
English
Pitch, Fish, tar, food
English
Pisces the fishes, Pisces,
Fish
[Zhou, et al, 2012]
27/31

German
fisch
Spanish
Pez, Pescado
Dutch
Vis
English
Pitch, Fish, tar, food
English
Pisces the fishes, Pisces,
Fish
English
Fish
[Zhou, et al, 2012]
27/31

‫کلی‬ ‫ساختار‬
•‫ترجمه‬ ‫از‬ ‫قبل‬ ‫واحد‬
•‫ترجمه‬ ‫واحد‬
•‫ترجمه‬ ‫از‬ ‫پس‬ ‫واحد‬
•‫اطالعات‬ ‫بازیابی‬ ‫واحد‬
[Zhou, et al, 2012]
28/31

‫ارزیابی‬
29/31

‫منابع‬
[1] D. Zhou,T. Brailsford, M. Turan, V. Wade, and H. Ashman “Translation Techniques in Cross-
Language Information Retrieval,” ACM Comput. Surv, vol. 45, no. 44, 2012.
[2] A. Shakery and C. Zhai, “Leveraging comparable corpora for cross-lingual information
retrieval in resource-lean language pairs,” Inf. Retr. Boston., vol. 16, no. 1, pp. 1–29, Feb. 2013.
[3] E. Agirre, G. M. Di Nunzio, N. Ferro, T. Mandl, and C. Peters, CLEF 2008 : Ad Hoc Track
Overview. 2008.
[4] L. Ballestems and W. B. Croft, “Phrasal Translation and Query Expansion Techniques for
Cross-Language Information Retrieval,” no. Mi, pp. 84–91.
[5] P. F. Brown, J. Cocke, S. A. Della Pietra, V. J. Della Pietra, F. Jelinek, J. D. Lafferty, R. L.
Mercer, P. S. Roossin, and T. J. Watson, “A STATISTICALAPPROACH TO MACHINE
TRANSLATION,” vol. 16, no. 2, pp. 79–85, 1990.
30/31

‫منابع‬
[6] D. A. Hull, “Using Structured Queries for Disambiguation in Cross-Language Information
Retrieval Background : Cross-Language,” 1997.
[7] S. Karimi, A. Turpin, and F. Scholer, “English to Persian Transliteration,” pp. 255–266, 2006.
[8] A. Lopez, “Statistical Machine Translation,” vol. 40, no. 3, pp. 1–49, 2008.
[9] D. Maupertuis, “Across Languages : A Dictionary-Based Information Approach to
Multilingual,” pp. 49–57.
[10] Y. Wu, M. Schuster, Z. Chen, Q. V Le, M. Norouzi, W. Macherey, M. Krikun, Y. Cao, Q.
Gao, K. Macherey, J. Klingner, A. Shah, M. Johnson, X. Liu, Ł. Kaiser, S. Gouws, Y. Kato, T.
Kudo, H. Kazawa, K. Stevens, G. Kurian, N. Patil, W. Wang, C. Young, J. Smith, J. Riesa, A.
Rudnick, O. Vinyals, G. Corrado, M. Hughes, and J. Dean, “Google ’ s Neural Machine
Translation System : Bridging the Gap between Human and Machine Translation,” pp. 1–23.
31/31

Cross Language Information Retrieval

Recommended

Recommended

More Related Content

Featured

Featured (20)

Cross Language Information Retrieval