SlideShare a Scribd company logo
Exploiting structure and content of
Wikipedia for Query Expansion
in the context of Question Answering

Surya Ganesh, Vasudeva Varma,
Language Technologies Research Centre,IIIT-Hyderabad, India

Boursinos Christos-IR PRESENTATION
1.
2.
3.
4.
5.
6.

INDRODUCTION
RELATED WORK
METHODOLOGY
PROXIMITY SCORE
OUTLINK SCORE
EXPERIMENTS

Boursinos Christos-IR PRESENTATION
INTRODUCTION-Τι θα δούμε.
• Νέα μέθοδο query expansion η οποία στοχεύει στο να κατατάξει την
απάντηση που περιέχουν τα αποσπάσματα καλύτερα.
• Χρησιμοποιούμε την WIKIPEDIA για να δημιουργούμε ένα set από όρους
που σχετίζονται με το ερώτημα.
• Επειδή έχουμε Boolean model οι όροι που είναι σημασιολογικά κοντά θα
προστεθούν σε ένα Boolean query.

• TREC 2006 QA . Αποτελέσματα: αύξηση κατά 24,6 % precision at 1,
11,1% MRR at 20, 12,4% TDRR

Boursinos Christos-IR PRESENTATION
• QA το passage retrieval μειώνει το search space σε μεγάλες συλλογές.
• Έχει μειονέκτημα ότι μπορεί στις συλλογές που ψάχνει να μην υπάρχει
απάντηση στο ερώτημά μας. (vocabulary mismatch) (25,7% question
passages από ένα άλλο σύστημα δεν απαντήθηκαν.)
• Λύση αυτού του προβλήματος είναι το QUERY EXPANSION. Είναι η
διαδικασία που προσθέτουμε και άλλους ορούς στο ερώτημα μας.
• Βάζοντας συνώνυμα των λέξεων του ερωτήματος έχει καλύτερα
αποτελέσματα.
• Χρησιμοποιούμε την WIKIPEDIA (αξιόπιστη, TREC 2006)
• η κάλυψη των άρθρων του είναι ευθέως ανάλογη προς το μέγεθος του
περιεχομένου του κειμένου σε αυτές

• Άνθρωποι , οργανισμοί , events που ψάχνουμε στο σύστημά μας.
Boursinos Christos-IR PRESENTATION
1.
2.
3.
4.
5.
6.

INDRODUCTION
RELATED WORK
METHODOLOGY
PROXIMITY SCORE
OUTLINK SCORE
EXPERIMENTS

Boursinos Christos-IR PRESENTATION
RELATED WORK(1/2)
• MONZ :
– επιλογή όρων με βάση των standard ROCCHIO και το βάρος από τα Ν
πρώτα κείμενα.
– Μείωση της επίδοσης με βάση το απλό ερώτημα.
– Αλλά είχε καλύτερη εφαρμογή σε ad-hoc retrieval task.

• PIZZATO:
– χρησιμοποιεί το όνομα των οντοτήτων του αντίστοιχου τύπου
απάντησης από τα κορυφαία έγγραφα για να σχηματίσει ένα
διευρυμένο ερώτημα.
– Δεν έδειξε κάποια αύξηση επίδοσης.

• YANG:
– χρησιμοποίησε το WorldNet και το Web για το expansion.
– To Web επέκταση των όρων και το WorldNet χρησιμοποιήθηκε για το
rank της.
– Και εδώ είχαμε μείωση της επίδοσης.
Boursinos Christos-IR PRESENTATION
RELATED WORK(1/2)
• BILLOTI :
– μελετά τις επιπτώσεις του stemming και της χρησιμοποίησης
κλιτών λέξεων στο expansion.
– Μείωση και αύξηση RECALL αντίστοιχα.

• SUN :
– 2 query expansion τεχνικές οι οποίες κάνουν χρήση της σχέσης
εξάρτησης για την ανάλυση και την εξαγωγή συμφραζομένων
όρων και τις σχέσεις μεταξύ των όρων.
– Οι μέθοδος μεταξύ των σχέσεων ήταν καλύτερη από αυτή της
τοπικής ανάλυσης.

• ARGUELLO :
– περιγράφει μια τεχνική για την εξόρυξη των δεσμών και των
anchor text στη Wikipedia για το QE.
– Καλύτερο RECALL κ PRECISION.
Boursinos Christos-IR PRESENTATION
1.
2.
3.
4.
5.
6.

INDRODUCTION
RELATED WORK
METHODOLOGY
PROXIMITY SCORE
OUTLINK SCORE
EXPERIMENTS

Boursinos Christos-IR PRESENTATION
• QETS
– Query expansion term space ( επιλογή των όρων με βάση το πόσο
κοντά είναι μεταξύ τους)
– Μας βοηθήσει στο ότι έχουμε περισσότερες λέξεις για το expansion,
και ενώνει το κενό ανάμεσα στα κείμενα που είναι κοντά στο
ερώτημα μας και σ αυτά που δεν είναι.

• CONSTRUCT QETS
1.
2.
3.
4.

•
•

Βρίσκουμε το άρθρο (Α) από την Wikipedia για το ερώτημα (Q)
Παίρνουμε τις προτάσεις(S) που αντιστοιχούν στα keywords
Αφαιρούμε stop words και question keywords
Κάθε λέξη παίρνει ένα βάρος ανάλογα με την συγγένεια στο
ερώτημα.
ο τύπος μας δίνει την δύναμη του όρου στο QETS.
Ps proximity / ls out link

Boursinos Christos-IR PRESENTATION
1.
2.
3.
4.
5.
6.

INDRODUCTION
RELATED WORK
METHODOLOGY
PROXIMITY SCORE
OUTLINK SCORE
EXPERIMENTS

Boursinos Christos-IR PRESENTATION
• Το proximity score μας δίνει την απόσταση των όρων μεταξύ
τους και ουσιαστικά ορίζει την δύναμή τους.
• Το Proximity score ενός όρου μας είναι:
– Η συχνότητα εμφάνισής του και η minimum απόσταση από τα
keywords του question. Επειδή είναι ένας ο κάθε όρος στο question
τότε είναι το άθροισμα των minimum αποστάσεων από τα keywords.

• Κάθε όρος στο QETS έχει βάρος:

• Όπου |S| όροι της πρότασης μας.
• dt απόσταση όρου term από το keyword του question(Q)

Boursinos Christos-IR PRESENTATION
1.
2.
3.
4.
5.
6.

INDRODUCTION
RELATED WORK
METHODOLOGY
PROXIMITY SCORE
OUTLINK SCORE
EXPERIMENTS

Boursinos Christos-IR PRESENTATION
• Αυτή η μέθοδος εκμεταλλεύεται το σκορ δομημένων πληροφοριών της
Wikipedia για την κατάταξη των QETS όρων.
• Τα out links ίσως να μην είναι όλα σχετικά με το ερώτημα. Οπότε
παίρνουμε μόνο αυτά που είναι σχετικά με το ερώτημά μας.
• Μόνο όσα από τα out links είναι κατηγορίας ίδιας με αυτή του
ερωτήματος θεωρούνται σημασιολογικά συναφείς.
• ΠΑΡΑΔΕΙΓΜΑ
• “which position did Warren Moon play in professional football”
• Τα out links είναι “position ,play ,football ,professional ” που θεωρούνται
σημασιολογικά συναφείς με το ερώτημα.
• Όλα αυτά τα terms έχουν βάρος ανάλογα στις συχνότητές των όρων της
προτάσεως, για όλα τα άλλα out links στο QETS είναι μηδέν.
=>
=>

Boursinos Christos-IR PRESENTATION
• Κάνουμε sort του πρώτους Ν όρους που έχουν βγει από το QETS. Οι
πρώτοι 10 όροι είναι για το query expansion
• ΠΑΡΑΔΕΙΓΜΑ
• “which position did Warren Moon play in professional football”
• Από το TREC 2006 έχουμε το dataset

• Όλοι οι όροι σχετίζονται σημασιολογικά με τα keywords του question.
• Χρησιμοποιούμε το term expansion length (el) το οποίο καθορίζει τον
αριθμό των όρων που είναι για την επέκταση του ερωτήματος.

• Κ = σταθερά * |Q| = ο αριθμός των όρων του ερωτήματος.
Boursinos Christos-IR PRESENTATION
• Οπότε για μικρά queries έχουμε μικρό μήκος. Για μεγάλα queries έχουμε
μεγάλο μήκος για το QETS.
• Με βάση το paper του TELLEX το Boolean model έχει καλύτερη
συμπεριφορά από τα άλλα μοντέλα.
• Χρησιμοποιούμε το Boolean model για το expansion μας.
• Το Boolean query είναι ένας συνδυασμός
– Question target
– Keywords

Boursinos Christos-IR PRESENTATION
1.
2.
3.
4.
5.
6.

INDRODUCTION
RELATED WORK
METHODOLOGY
PROXIMITY SCORE
OUTLINK SCORE
EXPERIMENTS

Boursinos Christos-IR PRESENTATION
3 βασικά μέτρα χρησιμοποιούνται για τις μετρήσεις μας είναι:

•

Precision at 1
– είναι το ποσοστό των ερωτήσεων για τις οποίες η σωστή απάντηση
εμφανίζεται στο πρώτο που έχει ανακτηθεί

• Mean Reciprocal Rank (MRR) at N
– Είναι ο μέσος όρος της αναστροφής από την ψιλά ιεραρχημένη σωστή
απάντηση αν αυτή η απάντηση εμφανίζεται στα πρώτα Ν.

• Total Document Reciprocal Rank (TDRR)
– Επεκτείνει το MRR με το RECALL.
– Είναι το άθροισμα όλων των αμοιβαίων τάξεων που έχουν να κάνουν με την
ερώτηση και λαμβάνει την μέγιστη τιμή αν όλα τα ανακτηθέντα
αποσπάσματα είναι σχετικά.

• τα χρησιμοποιήσαμε για τα πρώτα top 20 κείμενα μας.
• TREC 2006 QA / test set AQUAINT corpus / 1.033.461 documents.
• Question set: έχει 75 στόχους και το κάθε ένα έχει 5 συγκεκριμένες
ερωτήσεις. Το TREC δίνει τα πρώτα 1000 κείμενα από κάθε στόχο.

Boursinos Christos-IR PRESENTATION
• Χρησιμοποιούμε το Prise για search engine στη Wikipedia.
• Χρησιμοποιούμε το Lusene που υποστηρίζει Boolean model για να
κάνουμε ανάκτηση των πρώτων 1000 κειμένων.
• 3 πειράματα με 2 αξιολογήσεις στο καθένα
– Strict criteria
• Η απάντηση θα πρέπει να είναι στο απόσπασμα , και το απόσπασμα να
είναι στα άρθρα που είναι σχετικά.

– Lenient criteria
• Η απάντηση θα πρέπει να είναι στο απόσπασμα

– Άνω και κάτω φράγμα τα κριτήρια μας

• 1ο μας πείραμα έγινε για κ=8 expansion length.
–
–
–
–
–

αύξηση 24,6% precision@1
11,1% MRR@20
12,4% TDRR
18,4% precision@1
10,5% MRR 13,8% TDRR

Boursinos Christos-IR PRESENTATION
• 2ο μας πείραμα
– Ελέγχουμε 2 μεθόδους scoring για το πόσο επηρεάζουν την ανάκτηση
– Κ=8 , και οι όροι επιλέγονται απ το QETS.
–
(ps) proximity score
–
(os) out link score
–
καλυτέρα από πριν.

• 3ο μας πείραμα
– Κάνουμε πειράματα με διαφορετικά κ από (0-10)

Boursinos Christos-IR PRESENTATION
• Κ=8 έχουμε την Max τιμή μας.

Boursinos Christos-IR PRESENTATION

More Related Content

Viewers also liked

Rapid stream presentation
Rapid stream presentationRapid stream presentation
Rapid stream presentation
Tripsta
 
Signal guru
Signal guruSignal guru
Signal guru
Tripsta
 
Switchboard
SwitchboardSwitchboard
Switchboard
Tripsta
 
Icx
IcxIcx
magnetic refrigeration ppt
magnetic refrigeration  pptmagnetic refrigeration  ppt
magnetic refrigeration ppt
hardik9343
 
Generation of High Resolution DSM Using UAV Images.
Generation of High Resolution DSM Using UAV Images.Generation of High Resolution DSM Using UAV Images.
Generation of High Resolution DSM Using UAV Images.
Niroj Panta
 
a seminar report on multi-mode 2/4 stroke internal combustion engine
a seminar report on multi-mode 2/4 stroke internal combustion enginea seminar report on multi-mode 2/4 stroke internal combustion engine
a seminar report on multi-mode 2/4 stroke internal combustion engine
hardik9343
 

Viewers also liked (7)

Rapid stream presentation
Rapid stream presentationRapid stream presentation
Rapid stream presentation
 
Signal guru
Signal guruSignal guru
Signal guru
 
Switchboard
SwitchboardSwitchboard
Switchboard
 
Icx
IcxIcx
Icx
 
magnetic refrigeration ppt
magnetic refrigeration  pptmagnetic refrigeration  ppt
magnetic refrigeration ppt
 
Generation of High Resolution DSM Using UAV Images.
Generation of High Resolution DSM Using UAV Images.Generation of High Resolution DSM Using UAV Images.
Generation of High Resolution DSM Using UAV Images.
 
a seminar report on multi-mode 2/4 stroke internal combustion engine
a seminar report on multi-mode 2/4 stroke internal combustion enginea seminar report on multi-mode 2/4 stroke internal combustion engine
a seminar report on multi-mode 2/4 stroke internal combustion engine
 

Recently uploaded

PANELLINIES 2024 LATINIKA APANTISEIS.pdf
PANELLINIES 2024 LATINIKA APANTISEIS.pdfPANELLINIES 2024 LATINIKA APANTISEIS.pdf
PANELLINIES 2024 LATINIKA APANTISEIS.pdf
konstantinantountoum1
 
Όμιλος. Σχέδιο Δράσης. 56ο. Sxedio2023-24OmilosSEP-2F.docx
Όμιλος. Σχέδιο Δράσης. 56ο. Sxedio2023-24OmilosSEP-2F.docxΌμιλος. Σχέδιο Δράσης. 56ο. Sxedio2023-24OmilosSEP-2F.docx
Όμιλος. Σχέδιο Δράσης. 56ο. Sxedio2023-24OmilosSEP-2F.docx
Tassos Karampinis
 
Σχέδιο Δράσης - 56ο Γυμνάσιο ΑΘήνας. Sxedio2023-24OmilosEikastikwn.doc
Σχέδιο Δράσης - 56ο Γυμνάσιο ΑΘήνας. Sxedio2023-24OmilosEikastikwn.docΣχέδιο Δράσης - 56ο Γυμνάσιο ΑΘήνας. Sxedio2023-24OmilosEikastikwn.doc
Σχέδιο Δράσης - 56ο Γυμνάσιο ΑΘήνας. Sxedio2023-24OmilosEikastikwn.doc
Tassos Karampinis
 
Outdoor and Environmental Education(1).pptx
Outdoor and Environmental Education(1).pptxOutdoor and Environmental Education(1).pptx
Outdoor and Environmental Education(1).pptx
eleni rizopoulou
 
Θέματα χημείας -Πανελλαδικές εξετάσεις 2024
Θέματα χημείας  -Πανελλαδικές εξετάσεις 2024Θέματα χημείας  -Πανελλαδικές εξετάσεις 2024
Θέματα χημείας -Πανελλαδικές εξετάσεις 2024
Θεόδωρος Μαραγκούλας
 
Εργασία ΤΠΕ Οι 4 εποχές (ΜΑΡΙΑ ΖΗΣΗΣ).ppt
Εργασία ΤΠΕ Οι 4 εποχές (ΜΑΡΙΑ ΖΗΣΗΣ).pptΕργασία ΤΠΕ Οι 4 εποχές (ΜΑΡΙΑ ΖΗΣΗΣ).ppt
Εργασία ΤΠΕ Οι 4 εποχές (ΜΑΡΙΑ ΖΗΣΗΣ).ppt
nikzoit
 
SxedioDrasis2023-24ApologismosKainotomias-2F.docx
SxedioDrasis2023-24ApologismosKainotomias-2F.docxSxedioDrasis2023-24ApologismosKainotomias-2F.docx
SxedioDrasis2023-24ApologismosKainotomias-2F.docx
Tassos Karampinis
 
ΑΠΑΝΤΗΣΕΙΣ_ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑ-ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdf
ΑΠΑΝΤΗΣΕΙΣ_ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑ-ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdfΑΠΑΝΤΗΣΕΙΣ_ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑ-ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdf
ΑΠΑΝΤΗΣΕΙΣ_ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑ-ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdf
athinadimi
 
Απολογισμός Ομίλου Ρομποτικής - SxedioDrasis2023-24ApologismosRobotiki-F.docx
Απολογισμός Ομίλου Ρομποτικής - SxedioDrasis2023-24ApologismosRobotiki-F.docxΑπολογισμός Ομίλου Ρομποτικής - SxedioDrasis2023-24ApologismosRobotiki-F.docx
Απολογισμός Ομίλου Ρομποτικής - SxedioDrasis2023-24ApologismosRobotiki-F.docx
Tassos Karampinis
 
Απαντήσεις Χημείας - ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdf
Απαντήσεις Χημείας - ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdfΑπαντήσεις Χημείας - ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdf
Απαντήσεις Χημείας - ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdf
athinadimi
 
them_arxaia_gel_arxaiaellinika2024gel.pdf
them_arxaia_gel_arxaiaellinika2024gel.pdfthem_arxaia_gel_arxaiaellinika2024gel.pdf
them_arxaia_gel_arxaiaellinika2024gel.pdf
konstantinantountoum1
 
Απαντήσεις Χημείας - ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdf
Απαντήσεις Χημείας - ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdfΑπαντήσεις Χημείας - ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdf
Απαντήσεις Χημείας - ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdf
athinadimi
 
Οι απαντήσεις στην Πληροφορική για τα ΓΕΛ
Οι απαντήσεις στην Πληροφορική για τα ΓΕΛΟι απαντήσεις στην Πληροφορική για τα ΓΕΛ
Οι απαντήσεις στην Πληροφορική για τα ΓΕΛ
Newsroom8
 
Εργασία ΤΠΕ Οι 4 εποχές (ΑΝΔΡΕΑΣ ΠΑΝΑΓΙΩΤΗΣ).ppt
Εργασία ΤΠΕ Οι 4 εποχές (ΑΝΔΡΕΑΣ ΠΑΝΑΓΙΩΤΗΣ).pptΕργασία ΤΠΕ Οι 4 εποχές (ΑΝΔΡΕΑΣ ΠΑΝΑΓΙΩΤΗΣ).ppt
Εργασία ΤΠΕ Οι 4 εποχές (ΑΝΔΡΕΑΣ ΠΑΝΑΓΙΩΤΗΣ).ppt
nikzoit
 
Εργασίες Οδύσσειας Α1, Κοργιαλένειο 1ο Γυμνάσιο Αργοστολίου, σχ. έτος 2023-24...
Εργασίες Οδύσσειας Α1, Κοργιαλένειο 1ο Γυμνάσιο Αργοστολίου, σχ. έτος 2023-24...Εργασίες Οδύσσειας Α1, Κοργιαλένειο 1ο Γυμνάσιο Αργοστολίου, σχ. έτος 2023-24...
Εργασίες Οδύσσειας Α1, Κοργιαλένειο 1ο Γυμνάσιο Αργοστολίου, σχ. έτος 2023-24...
Eugenia Kosmatou
 
MÜNCHEN.pptx (2. Gymnasium Korinth - Klasse A1)
MÜNCHEN.pptx (2. Gymnasium Korinth - Klasse A1)MÜNCHEN.pptx (2. Gymnasium Korinth - Klasse A1)
MÜNCHEN.pptx (2. Gymnasium Korinth - Klasse A1)
vastsielou
 
Κοινωνικές και πολιτικές διαστάσεις της βιομηχανικής επανάστασης.ppt
Κοινωνικές και πολιτικές διαστάσεις της βιομηχανικής επανάστασης.pptΚοινωνικές και πολιτικές διαστάσεις της βιομηχανικής επανάστασης.ppt
Κοινωνικές και πολιτικές διαστάσεις της βιομηχανικής επανάστασης.ppt
Χρύσα Παπακωνσταντίνου
 
Εργασία ΤΠΕ Οι 4 εποχές (ΚΑΛΥΨΩ ΜΥΡΤΩ).ppt
Εργασία ΤΠΕ Οι 4 εποχές (ΚΑΛΥΨΩ ΜΥΡΤΩ).pptΕργασία ΤΠΕ Οι 4 εποχές (ΚΑΛΥΨΩ ΜΥΡΤΩ).ppt
Εργασία ΤΠΕ Οι 4 εποχές (ΚΑΛΥΨΩ ΜΥΡΤΩ).ppt
nikzoit
 
them_latin_gel_240606. latinika panellinies 2024pdf
them_latin_gel_240606. latinika panellinies 2024pdfthem_latin_gel_240606. latinika panellinies 2024pdf
them_latin_gel_240606. latinika panellinies 2024pdf
konstantinantountoum1
 
Hardware Personal Computer a small Introduction
Hardware Personal Computer a small  IntroductionHardware Personal Computer a small  Introduction
Hardware Personal Computer a small Introduction
ssuserd4abe0
 

Recently uploaded (20)

PANELLINIES 2024 LATINIKA APANTISEIS.pdf
PANELLINIES 2024 LATINIKA APANTISEIS.pdfPANELLINIES 2024 LATINIKA APANTISEIS.pdf
PANELLINIES 2024 LATINIKA APANTISEIS.pdf
 
Όμιλος. Σχέδιο Δράσης. 56ο. Sxedio2023-24OmilosSEP-2F.docx
Όμιλος. Σχέδιο Δράσης. 56ο. Sxedio2023-24OmilosSEP-2F.docxΌμιλος. Σχέδιο Δράσης. 56ο. Sxedio2023-24OmilosSEP-2F.docx
Όμιλος. Σχέδιο Δράσης. 56ο. Sxedio2023-24OmilosSEP-2F.docx
 
Σχέδιο Δράσης - 56ο Γυμνάσιο ΑΘήνας. Sxedio2023-24OmilosEikastikwn.doc
Σχέδιο Δράσης - 56ο Γυμνάσιο ΑΘήνας. Sxedio2023-24OmilosEikastikwn.docΣχέδιο Δράσης - 56ο Γυμνάσιο ΑΘήνας. Sxedio2023-24OmilosEikastikwn.doc
Σχέδιο Δράσης - 56ο Γυμνάσιο ΑΘήνας. Sxedio2023-24OmilosEikastikwn.doc
 
Outdoor and Environmental Education(1).pptx
Outdoor and Environmental Education(1).pptxOutdoor and Environmental Education(1).pptx
Outdoor and Environmental Education(1).pptx
 
Θέματα χημείας -Πανελλαδικές εξετάσεις 2024
Θέματα χημείας  -Πανελλαδικές εξετάσεις 2024Θέματα χημείας  -Πανελλαδικές εξετάσεις 2024
Θέματα χημείας -Πανελλαδικές εξετάσεις 2024
 
Εργασία ΤΠΕ Οι 4 εποχές (ΜΑΡΙΑ ΖΗΣΗΣ).ppt
Εργασία ΤΠΕ Οι 4 εποχές (ΜΑΡΙΑ ΖΗΣΗΣ).pptΕργασία ΤΠΕ Οι 4 εποχές (ΜΑΡΙΑ ΖΗΣΗΣ).ppt
Εργασία ΤΠΕ Οι 4 εποχές (ΜΑΡΙΑ ΖΗΣΗΣ).ppt
 
SxedioDrasis2023-24ApologismosKainotomias-2F.docx
SxedioDrasis2023-24ApologismosKainotomias-2F.docxSxedioDrasis2023-24ApologismosKainotomias-2F.docx
SxedioDrasis2023-24ApologismosKainotomias-2F.docx
 
ΑΠΑΝΤΗΣΕΙΣ_ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑ-ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdf
ΑΠΑΝΤΗΣΕΙΣ_ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑ-ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdfΑΠΑΝΤΗΣΕΙΣ_ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑ-ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdf
ΑΠΑΝΤΗΣΕΙΣ_ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑ-ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdf
 
Απολογισμός Ομίλου Ρομποτικής - SxedioDrasis2023-24ApologismosRobotiki-F.docx
Απολογισμός Ομίλου Ρομποτικής - SxedioDrasis2023-24ApologismosRobotiki-F.docxΑπολογισμός Ομίλου Ρομποτικής - SxedioDrasis2023-24ApologismosRobotiki-F.docx
Απολογισμός Ομίλου Ρομποτικής - SxedioDrasis2023-24ApologismosRobotiki-F.docx
 
Απαντήσεις Χημείας - ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdf
Απαντήσεις Χημείας - ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdfΑπαντήσεις Χημείας - ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdf
Απαντήσεις Χημείας - ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdf
 
them_arxaia_gel_arxaiaellinika2024gel.pdf
them_arxaia_gel_arxaiaellinika2024gel.pdfthem_arxaia_gel_arxaiaellinika2024gel.pdf
them_arxaia_gel_arxaiaellinika2024gel.pdf
 
Απαντήσεις Χημείας - ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdf
Απαντήσεις Χημείας - ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdfΑπαντήσεις Χημείας - ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdf
Απαντήσεις Χημείας - ΠΑΝΕΛΛΗΝΙΕΣ 2024.pdf
 
Οι απαντήσεις στην Πληροφορική για τα ΓΕΛ
Οι απαντήσεις στην Πληροφορική για τα ΓΕΛΟι απαντήσεις στην Πληροφορική για τα ΓΕΛ
Οι απαντήσεις στην Πληροφορική για τα ΓΕΛ
 
Εργασία ΤΠΕ Οι 4 εποχές (ΑΝΔΡΕΑΣ ΠΑΝΑΓΙΩΤΗΣ).ppt
Εργασία ΤΠΕ Οι 4 εποχές (ΑΝΔΡΕΑΣ ΠΑΝΑΓΙΩΤΗΣ).pptΕργασία ΤΠΕ Οι 4 εποχές (ΑΝΔΡΕΑΣ ΠΑΝΑΓΙΩΤΗΣ).ppt
Εργασία ΤΠΕ Οι 4 εποχές (ΑΝΔΡΕΑΣ ΠΑΝΑΓΙΩΤΗΣ).ppt
 
Εργασίες Οδύσσειας Α1, Κοργιαλένειο 1ο Γυμνάσιο Αργοστολίου, σχ. έτος 2023-24...
Εργασίες Οδύσσειας Α1, Κοργιαλένειο 1ο Γυμνάσιο Αργοστολίου, σχ. έτος 2023-24...Εργασίες Οδύσσειας Α1, Κοργιαλένειο 1ο Γυμνάσιο Αργοστολίου, σχ. έτος 2023-24...
Εργασίες Οδύσσειας Α1, Κοργιαλένειο 1ο Γυμνάσιο Αργοστολίου, σχ. έτος 2023-24...
 
MÜNCHEN.pptx (2. Gymnasium Korinth - Klasse A1)
MÜNCHEN.pptx (2. Gymnasium Korinth - Klasse A1)MÜNCHEN.pptx (2. Gymnasium Korinth - Klasse A1)
MÜNCHEN.pptx (2. Gymnasium Korinth - Klasse A1)
 
Κοινωνικές και πολιτικές διαστάσεις της βιομηχανικής επανάστασης.ppt
Κοινωνικές και πολιτικές διαστάσεις της βιομηχανικής επανάστασης.pptΚοινωνικές και πολιτικές διαστάσεις της βιομηχανικής επανάστασης.ppt
Κοινωνικές και πολιτικές διαστάσεις της βιομηχανικής επανάστασης.ppt
 
Εργασία ΤΠΕ Οι 4 εποχές (ΚΑΛΥΨΩ ΜΥΡΤΩ).ppt
Εργασία ΤΠΕ Οι 4 εποχές (ΚΑΛΥΨΩ ΜΥΡΤΩ).pptΕργασία ΤΠΕ Οι 4 εποχές (ΚΑΛΥΨΩ ΜΥΡΤΩ).ppt
Εργασία ΤΠΕ Οι 4 εποχές (ΚΑΛΥΨΩ ΜΥΡΤΩ).ppt
 
them_latin_gel_240606. latinika panellinies 2024pdf
them_latin_gel_240606. latinika panellinies 2024pdfthem_latin_gel_240606. latinika panellinies 2024pdf
them_latin_gel_240606. latinika panellinies 2024pdf
 
Hardware Personal Computer a small Introduction
Hardware Personal Computer a small  IntroductionHardware Personal Computer a small  Introduction
Hardware Personal Computer a small Introduction
 

Exploiting structure and content of wikipedia for query

  • 1. Exploiting structure and content of Wikipedia for Query Expansion in the context of Question Answering Surya Ganesh, Vasudeva Varma, Language Technologies Research Centre,IIIT-Hyderabad, India Boursinos Christos-IR PRESENTATION
  • 2. 1. 2. 3. 4. 5. 6. INDRODUCTION RELATED WORK METHODOLOGY PROXIMITY SCORE OUTLINK SCORE EXPERIMENTS Boursinos Christos-IR PRESENTATION
  • 3. INTRODUCTION-Τι θα δούμε. • Νέα μέθοδο query expansion η οποία στοχεύει στο να κατατάξει την απάντηση που περιέχουν τα αποσπάσματα καλύτερα. • Χρησιμοποιούμε την WIKIPEDIA για να δημιουργούμε ένα set από όρους που σχετίζονται με το ερώτημα. • Επειδή έχουμε Boolean model οι όροι που είναι σημασιολογικά κοντά θα προστεθούν σε ένα Boolean query. • TREC 2006 QA . Αποτελέσματα: αύξηση κατά 24,6 % precision at 1, 11,1% MRR at 20, 12,4% TDRR Boursinos Christos-IR PRESENTATION
  • 4. • QA το passage retrieval μειώνει το search space σε μεγάλες συλλογές. • Έχει μειονέκτημα ότι μπορεί στις συλλογές που ψάχνει να μην υπάρχει απάντηση στο ερώτημά μας. (vocabulary mismatch) (25,7% question passages από ένα άλλο σύστημα δεν απαντήθηκαν.) • Λύση αυτού του προβλήματος είναι το QUERY EXPANSION. Είναι η διαδικασία που προσθέτουμε και άλλους ορούς στο ερώτημα μας. • Βάζοντας συνώνυμα των λέξεων του ερωτήματος έχει καλύτερα αποτελέσματα. • Χρησιμοποιούμε την WIKIPEDIA (αξιόπιστη, TREC 2006) • η κάλυψη των άρθρων του είναι ευθέως ανάλογη προς το μέγεθος του περιεχομένου του κειμένου σε αυτές • Άνθρωποι , οργανισμοί , events που ψάχνουμε στο σύστημά μας. Boursinos Christos-IR PRESENTATION
  • 5. 1. 2. 3. 4. 5. 6. INDRODUCTION RELATED WORK METHODOLOGY PROXIMITY SCORE OUTLINK SCORE EXPERIMENTS Boursinos Christos-IR PRESENTATION
  • 6. RELATED WORK(1/2) • MONZ : – επιλογή όρων με βάση των standard ROCCHIO και το βάρος από τα Ν πρώτα κείμενα. – Μείωση της επίδοσης με βάση το απλό ερώτημα. – Αλλά είχε καλύτερη εφαρμογή σε ad-hoc retrieval task. • PIZZATO: – χρησιμοποιεί το όνομα των οντοτήτων του αντίστοιχου τύπου απάντησης από τα κορυφαία έγγραφα για να σχηματίσει ένα διευρυμένο ερώτημα. – Δεν έδειξε κάποια αύξηση επίδοσης. • YANG: – χρησιμοποίησε το WorldNet και το Web για το expansion. – To Web επέκταση των όρων και το WorldNet χρησιμοποιήθηκε για το rank της. – Και εδώ είχαμε μείωση της επίδοσης. Boursinos Christos-IR PRESENTATION
  • 7. RELATED WORK(1/2) • BILLOTI : – μελετά τις επιπτώσεις του stemming και της χρησιμοποίησης κλιτών λέξεων στο expansion. – Μείωση και αύξηση RECALL αντίστοιχα. • SUN : – 2 query expansion τεχνικές οι οποίες κάνουν χρήση της σχέσης εξάρτησης για την ανάλυση και την εξαγωγή συμφραζομένων όρων και τις σχέσεις μεταξύ των όρων. – Οι μέθοδος μεταξύ των σχέσεων ήταν καλύτερη από αυτή της τοπικής ανάλυσης. • ARGUELLO : – περιγράφει μια τεχνική για την εξόρυξη των δεσμών και των anchor text στη Wikipedia για το QE. – Καλύτερο RECALL κ PRECISION. Boursinos Christos-IR PRESENTATION
  • 8. 1. 2. 3. 4. 5. 6. INDRODUCTION RELATED WORK METHODOLOGY PROXIMITY SCORE OUTLINK SCORE EXPERIMENTS Boursinos Christos-IR PRESENTATION
  • 9. • QETS – Query expansion term space ( επιλογή των όρων με βάση το πόσο κοντά είναι μεταξύ τους) – Μας βοηθήσει στο ότι έχουμε περισσότερες λέξεις για το expansion, και ενώνει το κενό ανάμεσα στα κείμενα που είναι κοντά στο ερώτημα μας και σ αυτά που δεν είναι. • CONSTRUCT QETS 1. 2. 3. 4. • • Βρίσκουμε το άρθρο (Α) από την Wikipedia για το ερώτημα (Q) Παίρνουμε τις προτάσεις(S) που αντιστοιχούν στα keywords Αφαιρούμε stop words και question keywords Κάθε λέξη παίρνει ένα βάρος ανάλογα με την συγγένεια στο ερώτημα. ο τύπος μας δίνει την δύναμη του όρου στο QETS. Ps proximity / ls out link Boursinos Christos-IR PRESENTATION
  • 10. 1. 2. 3. 4. 5. 6. INDRODUCTION RELATED WORK METHODOLOGY PROXIMITY SCORE OUTLINK SCORE EXPERIMENTS Boursinos Christos-IR PRESENTATION
  • 11. • Το proximity score μας δίνει την απόσταση των όρων μεταξύ τους και ουσιαστικά ορίζει την δύναμή τους. • Το Proximity score ενός όρου μας είναι: – Η συχνότητα εμφάνισής του και η minimum απόσταση από τα keywords του question. Επειδή είναι ένας ο κάθε όρος στο question τότε είναι το άθροισμα των minimum αποστάσεων από τα keywords. • Κάθε όρος στο QETS έχει βάρος: • Όπου |S| όροι της πρότασης μας. • dt απόσταση όρου term από το keyword του question(Q) Boursinos Christos-IR PRESENTATION
  • 12. 1. 2. 3. 4. 5. 6. INDRODUCTION RELATED WORK METHODOLOGY PROXIMITY SCORE OUTLINK SCORE EXPERIMENTS Boursinos Christos-IR PRESENTATION
  • 13. • Αυτή η μέθοδος εκμεταλλεύεται το σκορ δομημένων πληροφοριών της Wikipedia για την κατάταξη των QETS όρων. • Τα out links ίσως να μην είναι όλα σχετικά με το ερώτημα. Οπότε παίρνουμε μόνο αυτά που είναι σχετικά με το ερώτημά μας. • Μόνο όσα από τα out links είναι κατηγορίας ίδιας με αυτή του ερωτήματος θεωρούνται σημασιολογικά συναφείς. • ΠΑΡΑΔΕΙΓΜΑ • “which position did Warren Moon play in professional football” • Τα out links είναι “position ,play ,football ,professional ” που θεωρούνται σημασιολογικά συναφείς με το ερώτημα. • Όλα αυτά τα terms έχουν βάρος ανάλογα στις συχνότητές των όρων της προτάσεως, για όλα τα άλλα out links στο QETS είναι μηδέν. => => Boursinos Christos-IR PRESENTATION
  • 14. • Κάνουμε sort του πρώτους Ν όρους που έχουν βγει από το QETS. Οι πρώτοι 10 όροι είναι για το query expansion • ΠΑΡΑΔΕΙΓΜΑ • “which position did Warren Moon play in professional football” • Από το TREC 2006 έχουμε το dataset • Όλοι οι όροι σχετίζονται σημασιολογικά με τα keywords του question. • Χρησιμοποιούμε το term expansion length (el) το οποίο καθορίζει τον αριθμό των όρων που είναι για την επέκταση του ερωτήματος. • Κ = σταθερά * |Q| = ο αριθμός των όρων του ερωτήματος. Boursinos Christos-IR PRESENTATION
  • 15. • Οπότε για μικρά queries έχουμε μικρό μήκος. Για μεγάλα queries έχουμε μεγάλο μήκος για το QETS. • Με βάση το paper του TELLEX το Boolean model έχει καλύτερη συμπεριφορά από τα άλλα μοντέλα. • Χρησιμοποιούμε το Boolean model για το expansion μας. • Το Boolean query είναι ένας συνδυασμός – Question target – Keywords Boursinos Christos-IR PRESENTATION
  • 16. 1. 2. 3. 4. 5. 6. INDRODUCTION RELATED WORK METHODOLOGY PROXIMITY SCORE OUTLINK SCORE EXPERIMENTS Boursinos Christos-IR PRESENTATION
  • 17. 3 βασικά μέτρα χρησιμοποιούνται για τις μετρήσεις μας είναι: • Precision at 1 – είναι το ποσοστό των ερωτήσεων για τις οποίες η σωστή απάντηση εμφανίζεται στο πρώτο που έχει ανακτηθεί • Mean Reciprocal Rank (MRR) at N – Είναι ο μέσος όρος της αναστροφής από την ψιλά ιεραρχημένη σωστή απάντηση αν αυτή η απάντηση εμφανίζεται στα πρώτα Ν. • Total Document Reciprocal Rank (TDRR) – Επεκτείνει το MRR με το RECALL. – Είναι το άθροισμα όλων των αμοιβαίων τάξεων που έχουν να κάνουν με την ερώτηση και λαμβάνει την μέγιστη τιμή αν όλα τα ανακτηθέντα αποσπάσματα είναι σχετικά. • τα χρησιμοποιήσαμε για τα πρώτα top 20 κείμενα μας. • TREC 2006 QA / test set AQUAINT corpus / 1.033.461 documents. • Question set: έχει 75 στόχους και το κάθε ένα έχει 5 συγκεκριμένες ερωτήσεις. Το TREC δίνει τα πρώτα 1000 κείμενα από κάθε στόχο. Boursinos Christos-IR PRESENTATION
  • 18. • Χρησιμοποιούμε το Prise για search engine στη Wikipedia. • Χρησιμοποιούμε το Lusene που υποστηρίζει Boolean model για να κάνουμε ανάκτηση των πρώτων 1000 κειμένων. • 3 πειράματα με 2 αξιολογήσεις στο καθένα – Strict criteria • Η απάντηση θα πρέπει να είναι στο απόσπασμα , και το απόσπασμα να είναι στα άρθρα που είναι σχετικά. – Lenient criteria • Η απάντηση θα πρέπει να είναι στο απόσπασμα – Άνω και κάτω φράγμα τα κριτήρια μας • 1ο μας πείραμα έγινε για κ=8 expansion length. – – – – – αύξηση 24,6% precision@1 11,1% MRR@20 12,4% TDRR 18,4% precision@1 10,5% MRR 13,8% TDRR Boursinos Christos-IR PRESENTATION
  • 19. • 2ο μας πείραμα – Ελέγχουμε 2 μεθόδους scoring για το πόσο επηρεάζουν την ανάκτηση – Κ=8 , και οι όροι επιλέγονται απ το QETS. – (ps) proximity score – (os) out link score – καλυτέρα από πριν. • 3ο μας πείραμα – Κάνουμε πειράματα με διαφορετικά κ από (0-10) Boursinos Christos-IR PRESENTATION
  • 20. • Κ=8 έχουμε την Max τιμή μας. Boursinos Christos-IR PRESENTATION