SlideShare a Scribd company logo
1 of 20
Download to read offline
Exploiting structure and content of
Wikipedia for Query Expansion
in the context of Question Answering

Surya Ganesh, Vasudeva Varma,
Language Technologies Research Centre,IIIT-Hyderabad, India

Boursinos Christos-IR PRESENTATION
1.
2.
3.
4.
5.
6.

INDRODUCTION
RELATED WORK
METHODOLOGY
PROXIMITY SCORE
OUTLINK SCORE
EXPERIMENTS

Boursinos Christos-IR PRESENTATION
INTRODUCTION-Τι θα δούμε.
• Νέα μέθοδο query expansion η οποία στοχεύει στο να κατατάξει την
απάντηση που περιέχουν τα αποσπάσματα καλύτερα.
• Χρησιμοποιούμε την WIKIPEDIA για να δημιουργούμε ένα set από όρους
που σχετίζονται με το ερώτημα.
• Επειδή έχουμε Boolean model οι όροι που είναι σημασιολογικά κοντά θα
προστεθούν σε ένα Boolean query.

• TREC 2006 QA . Αποτελέσματα: αύξηση κατά 24,6 % precision at 1,
11,1% MRR at 20, 12,4% TDRR

Boursinos Christos-IR PRESENTATION
• QA το passage retrieval μειώνει το search space σε μεγάλες συλλογές.
• Έχει μειονέκτημα ότι μπορεί στις συλλογές που ψάχνει να μην υπάρχει
απάντηση στο ερώτημά μας. (vocabulary mismatch) (25,7% question
passages από ένα άλλο σύστημα δεν απαντήθηκαν.)
• Λύση αυτού του προβλήματος είναι το QUERY EXPANSION. Είναι η
διαδικασία που προσθέτουμε και άλλους ορούς στο ερώτημα μας.
• Βάζοντας συνώνυμα των λέξεων του ερωτήματος έχει καλύτερα
αποτελέσματα.
• Χρησιμοποιούμε την WIKIPEDIA (αξιόπιστη, TREC 2006)
• η κάλυψη των άρθρων του είναι ευθέως ανάλογη προς το μέγεθος του
περιεχομένου του κειμένου σε αυτές

• Άνθρωποι , οργανισμοί , events που ψάχνουμε στο σύστημά μας.
Boursinos Christos-IR PRESENTATION
1.
2.
3.
4.
5.
6.

INDRODUCTION
RELATED WORK
METHODOLOGY
PROXIMITY SCORE
OUTLINK SCORE
EXPERIMENTS

Boursinos Christos-IR PRESENTATION
RELATED WORK(1/2)
• MONZ :
– επιλογή όρων με βάση των standard ROCCHIO και το βάρος από τα Ν
πρώτα κείμενα.
– Μείωση της επίδοσης με βάση το απλό ερώτημα.
– Αλλά είχε καλύτερη εφαρμογή σε ad-hoc retrieval task.

• PIZZATO:
– χρησιμοποιεί το όνομα των οντοτήτων του αντίστοιχου τύπου
απάντησης από τα κορυφαία έγγραφα για να σχηματίσει ένα
διευρυμένο ερώτημα.
– Δεν έδειξε κάποια αύξηση επίδοσης.

• YANG:
– χρησιμοποίησε το WorldNet και το Web για το expansion.
– To Web επέκταση των όρων και το WorldNet χρησιμοποιήθηκε για το
rank της.
– Και εδώ είχαμε μείωση της επίδοσης.
Boursinos Christos-IR PRESENTATION
RELATED WORK(1/2)
• BILLOTI :
– μελετά τις επιπτώσεις του stemming και της χρησιμοποίησης
κλιτών λέξεων στο expansion.
– Μείωση και αύξηση RECALL αντίστοιχα.

• SUN :
– 2 query expansion τεχνικές οι οποίες κάνουν χρήση της σχέσης
εξάρτησης για την ανάλυση και την εξαγωγή συμφραζομένων
όρων και τις σχέσεις μεταξύ των όρων.
– Οι μέθοδος μεταξύ των σχέσεων ήταν καλύτερη από αυτή της
τοπικής ανάλυσης.

• ARGUELLO :
– περιγράφει μια τεχνική για την εξόρυξη των δεσμών και των
anchor text στη Wikipedia για το QE.
– Καλύτερο RECALL κ PRECISION.
Boursinos Christos-IR PRESENTATION
1.
2.
3.
4.
5.
6.

INDRODUCTION
RELATED WORK
METHODOLOGY
PROXIMITY SCORE
OUTLINK SCORE
EXPERIMENTS

Boursinos Christos-IR PRESENTATION
• QETS
– Query expansion term space ( επιλογή των όρων με βάση το πόσο
κοντά είναι μεταξύ τους)
– Μας βοηθήσει στο ότι έχουμε περισσότερες λέξεις για το expansion,
και ενώνει το κενό ανάμεσα στα κείμενα που είναι κοντά στο
ερώτημα μας και σ αυτά που δεν είναι.

• CONSTRUCT QETS
1.
2.
3.
4.

•
•

Βρίσκουμε το άρθρο (Α) από την Wikipedia για το ερώτημα (Q)
Παίρνουμε τις προτάσεις(S) που αντιστοιχούν στα keywords
Αφαιρούμε stop words και question keywords
Κάθε λέξη παίρνει ένα βάρος ανάλογα με την συγγένεια στο
ερώτημα.
ο τύπος μας δίνει την δύναμη του όρου στο QETS.
Ps proximity / ls out link

Boursinos Christos-IR PRESENTATION
1.
2.
3.
4.
5.
6.

INDRODUCTION
RELATED WORK
METHODOLOGY
PROXIMITY SCORE
OUTLINK SCORE
EXPERIMENTS

Boursinos Christos-IR PRESENTATION
• Το proximity score μας δίνει την απόσταση των όρων μεταξύ
τους και ουσιαστικά ορίζει την δύναμή τους.
• Το Proximity score ενός όρου μας είναι:
– Η συχνότητα εμφάνισής του και η minimum απόσταση από τα
keywords του question. Επειδή είναι ένας ο κάθε όρος στο question
τότε είναι το άθροισμα των minimum αποστάσεων από τα keywords.

• Κάθε όρος στο QETS έχει βάρος:

• Όπου |S| όροι της πρότασης μας.
• dt απόσταση όρου term από το keyword του question(Q)

Boursinos Christos-IR PRESENTATION
1.
2.
3.
4.
5.
6.

INDRODUCTION
RELATED WORK
METHODOLOGY
PROXIMITY SCORE
OUTLINK SCORE
EXPERIMENTS

Boursinos Christos-IR PRESENTATION
• Αυτή η μέθοδος εκμεταλλεύεται το σκορ δομημένων πληροφοριών της
Wikipedia για την κατάταξη των QETS όρων.
• Τα out links ίσως να μην είναι όλα σχετικά με το ερώτημα. Οπότε
παίρνουμε μόνο αυτά που είναι σχετικά με το ερώτημά μας.
• Μόνο όσα από τα out links είναι κατηγορίας ίδιας με αυτή του
ερωτήματος θεωρούνται σημασιολογικά συναφείς.
• ΠΑΡΑΔΕΙΓΜΑ
• “which position did Warren Moon play in professional football”
• Τα out links είναι “position ,play ,football ,professional ” που θεωρούνται
σημασιολογικά συναφείς με το ερώτημα.
• Όλα αυτά τα terms έχουν βάρος ανάλογα στις συχνότητές των όρων της
προτάσεως, για όλα τα άλλα out links στο QETS είναι μηδέν.
=>
=>

Boursinos Christos-IR PRESENTATION
• Κάνουμε sort του πρώτους Ν όρους που έχουν βγει από το QETS. Οι
πρώτοι 10 όροι είναι για το query expansion
• ΠΑΡΑΔΕΙΓΜΑ
• “which position did Warren Moon play in professional football”
• Από το TREC 2006 έχουμε το dataset

• Όλοι οι όροι σχετίζονται σημασιολογικά με τα keywords του question.
• Χρησιμοποιούμε το term expansion length (el) το οποίο καθορίζει τον
αριθμό των όρων που είναι για την επέκταση του ερωτήματος.

• Κ = σταθερά * |Q| = ο αριθμός των όρων του ερωτήματος.
Boursinos Christos-IR PRESENTATION
• Οπότε για μικρά queries έχουμε μικρό μήκος. Για μεγάλα queries έχουμε
μεγάλο μήκος για το QETS.
• Με βάση το paper του TELLEX το Boolean model έχει καλύτερη
συμπεριφορά από τα άλλα μοντέλα.
• Χρησιμοποιούμε το Boolean model για το expansion μας.
• Το Boolean query είναι ένας συνδυασμός
– Question target
– Keywords

Boursinos Christos-IR PRESENTATION
1.
2.
3.
4.
5.
6.

INDRODUCTION
RELATED WORK
METHODOLOGY
PROXIMITY SCORE
OUTLINK SCORE
EXPERIMENTS

Boursinos Christos-IR PRESENTATION
3 βασικά μέτρα χρησιμοποιούνται για τις μετρήσεις μας είναι:

•

Precision at 1
– είναι το ποσοστό των ερωτήσεων για τις οποίες η σωστή απάντηση
εμφανίζεται στο πρώτο που έχει ανακτηθεί

• Mean Reciprocal Rank (MRR) at N
– Είναι ο μέσος όρος της αναστροφής από την ψιλά ιεραρχημένη σωστή
απάντηση αν αυτή η απάντηση εμφανίζεται στα πρώτα Ν.

• Total Document Reciprocal Rank (TDRR)
– Επεκτείνει το MRR με το RECALL.
– Είναι το άθροισμα όλων των αμοιβαίων τάξεων που έχουν να κάνουν με την
ερώτηση και λαμβάνει την μέγιστη τιμή αν όλα τα ανακτηθέντα
αποσπάσματα είναι σχετικά.

• τα χρησιμοποιήσαμε για τα πρώτα top 20 κείμενα μας.
• TREC 2006 QA / test set AQUAINT corpus / 1.033.461 documents.
• Question set: έχει 75 στόχους και το κάθε ένα έχει 5 συγκεκριμένες
ερωτήσεις. Το TREC δίνει τα πρώτα 1000 κείμενα από κάθε στόχο.

Boursinos Christos-IR PRESENTATION
• Χρησιμοποιούμε το Prise για search engine στη Wikipedia.
• Χρησιμοποιούμε το Lusene που υποστηρίζει Boolean model για να
κάνουμε ανάκτηση των πρώτων 1000 κειμένων.
• 3 πειράματα με 2 αξιολογήσεις στο καθένα
– Strict criteria
• Η απάντηση θα πρέπει να είναι στο απόσπασμα , και το απόσπασμα να
είναι στα άρθρα που είναι σχετικά.

– Lenient criteria
• Η απάντηση θα πρέπει να είναι στο απόσπασμα

– Άνω και κάτω φράγμα τα κριτήρια μας

• 1ο μας πείραμα έγινε για κ=8 expansion length.
–
–
–
–
–

αύξηση 24,6% precision@1
11,1% MRR@20
12,4% TDRR
18,4% precision@1
10,5% MRR 13,8% TDRR

Boursinos Christos-IR PRESENTATION
• 2ο μας πείραμα
– Ελέγχουμε 2 μεθόδους scoring για το πόσο επηρεάζουν την ανάκτηση
– Κ=8 , και οι όροι επιλέγονται απ το QETS.
–
(ps) proximity score
–
(os) out link score
–
καλυτέρα από πριν.

• 3ο μας πείραμα
– Κάνουμε πειράματα με διαφορετικά κ από (0-10)

Boursinos Christos-IR PRESENTATION
• Κ=8 έχουμε την Max τιμή μας.

Boursinos Christos-IR PRESENTATION

More Related Content

Viewers also liked (7)

Rapid stream presentation
Rapid stream presentationRapid stream presentation
Rapid stream presentation
 
Signal guru
Signal guruSignal guru
Signal guru
 
Switchboard
SwitchboardSwitchboard
Switchboard
 
Icx
IcxIcx
Icx
 
magnetic refrigeration ppt
magnetic refrigeration  pptmagnetic refrigeration  ppt
magnetic refrigeration ppt
 
Generation of High Resolution DSM Using UAV Images.
Generation of High Resolution DSM Using UAV Images.Generation of High Resolution DSM Using UAV Images.
Generation of High Resolution DSM Using UAV Images.
 
a seminar report on multi-mode 2/4 stroke internal combustion engine
a seminar report on multi-mode 2/4 stroke internal combustion enginea seminar report on multi-mode 2/4 stroke internal combustion engine
a seminar report on multi-mode 2/4 stroke internal combustion engine
 

Recently uploaded

Recently uploaded (20)

Φαινόμενο του θερμοκηπίου και κλιματική αλλαγή.pptx
Φαινόμενο του θερμοκηπίου και κλιματική αλλαγή.pptxΦαινόμενο του θερμοκηπίου και κλιματική αλλαγή.pptx
Φαινόμενο του θερμοκηπίου και κλιματική αλλαγή.pptx
 
Ελένη Καλία & Κατερίνα Πολύζου , ΤΟ ΧΟΡΟΣΤΑΣΙ ΤΗΣ ΓΗΣ.pptx
Ελένη Καλία & Κατερίνα Πολύζου , ΤΟ ΧΟΡΟΣΤΑΣΙ ΤΗΣ ΓΗΣ.pptxΕλένη Καλία & Κατερίνα Πολύζου , ΤΟ ΧΟΡΟΣΤΑΣΙ ΤΗΣ ΓΗΣ.pptx
Ελένη Καλία & Κατερίνα Πολύζου , ΤΟ ΧΟΡΟΣΤΑΣΙ ΤΗΣ ΓΗΣ.pptx
 
Μέμτσα Ι.,Τραούδα Π.,ΠαρουσίασηΜΗΤΤΑ.pptx
Μέμτσα Ι.,Τραούδα Π.,ΠαρουσίασηΜΗΤΤΑ.pptxΜέμτσα Ι.,Τραούδα Π.,ΠαρουσίασηΜΗΤΤΑ.pptx
Μέμτσα Ι.,Τραούδα Π.,ΠαρουσίασηΜΗΤΤΑ.pptx
 
YlhGermanB-2324.pdf. School year: 2023-2024
YlhGermanB-2324.pdf. School year: 2023-2024YlhGermanB-2324.pdf. School year: 2023-2024
YlhGermanB-2324.pdf. School year: 2023-2024
 
ΤΟ ΕΦΗΜΕΡΙΔΑΚΙ ΜΑΣ_ 14ο _ΙΑΝ.2024_11ο ΝΗ
ΤΟ ΕΦΗΜΕΡΙΔΑΚΙ ΜΑΣ_ 14ο _ΙΑΝ.2024_11ο ΝΗΤΟ ΕΦΗΜΕΡΙΔΑΚΙ ΜΑΣ_ 14ο _ΙΑΝ.2024_11ο ΝΗ
ΤΟ ΕΦΗΜΕΡΙΔΑΚΙ ΜΑΣ_ 14ο _ΙΑΝ.2024_11ο ΝΗ
 
Μπουσμαλή Ξ.,Το καπλάνι της βιτρίνας.pptx
Μπουσμαλή Ξ.,Το καπλάνι της βιτρίνας.pptxΜπουσμαλή Ξ.,Το καπλάνι της βιτρίνας.pptx
Μπουσμαλή Ξ.,Το καπλάνι της βιτρίνας.pptx
 
Νιωθω ένα συναίσθημα/ΔΟΜΗ ΔΙΔΑΚΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ 2023.docxΤΣΕ.docx
Νιωθω  ένα συναίσθημα/ΔΟΜΗ ΔΙΔΑΚΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ 2023.docxΤΣΕ.docxΝιωθω  ένα συναίσθημα/ΔΟΜΗ ΔΙΔΑΚΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ 2023.docxΤΣΕ.docx
Νιωθω ένα συναίσθημα/ΔΟΜΗ ΔΙΔΑΚΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ 2023.docxΤΣΕ.docx
 
Σεβασμός .
Σεβασμός                                           .Σεβασμός                                           .
Σεβασμός .
 
Ζαχαρία Παπαντωνίου, ΤΑ ΨΗΛΑ ΒΟΥΝΑ _Βιβλιοπαρουσίαση της μαθήτριας Γερμανίδου...
Ζαχαρία Παπαντωνίου, ΤΑ ΨΗΛΑ ΒΟΥΝΑ _Βιβλιοπαρουσίαση της μαθήτριας Γερμανίδου...Ζαχαρία Παπαντωνίου, ΤΑ ΨΗΛΑ ΒΟΥΝΑ _Βιβλιοπαρουσίαση της μαθήτριας Γερμανίδου...
Ζαχαρία Παπαντωνίου, ΤΑ ΨΗΛΑ ΒΟΥΝΑ _Βιβλιοπαρουσίαση της μαθήτριας Γερμανίδου...
 
Εξυπερύ, Ο ΜΙΚΡΟΣ ΠΡΙΓΚΙΠΑΣ_ Σεραφειμίδου Αφροδίτη.pptx
Εξυπερύ, Ο ΜΙΚΡΟΣ ΠΡΙΓΚΙΠΑΣ_ Σεραφειμίδου Αφροδίτη.pptxΕξυπερύ, Ο ΜΙΚΡΟΣ ΠΡΙΓΚΙΠΑΣ_ Σεραφειμίδου Αφροδίτη.pptx
Εξυπερύ, Ο ΜΙΚΡΟΣ ΠΡΙΓΚΙΠΑΣ_ Σεραφειμίδου Αφροδίτη.pptx
 
Καρόλου Ντίκενς, ΟΛΙΒΕΡ ΤΟΥΙΣΤ_ Παρουσίαση της Γερμανίδου Δήμητρας.pptx
Καρόλου Ντίκενς, ΟΛΙΒΕΡ ΤΟΥΙΣΤ_ Παρουσίαση της Γερμανίδου Δήμητρας.pptxΚαρόλου Ντίκενς, ΟΛΙΒΕΡ ΤΟΥΙΣΤ_ Παρουσίαση της Γερμανίδου Δήμητρας.pptx
Καρόλου Ντίκενς, ΟΛΙΒΕΡ ΤΟΥΙΣΤ_ Παρουσίαση της Γερμανίδου Δήμητρας.pptx
 
ΣΤΕΡΓΙΟΥΔΗ ΧΡΙΣΤΙΝΑ-ΒΑΣΙΛΙΚΗ, Ο Άγιος Παΐσιος_Βιβλ-ση.pptx
ΣΤΕΡΓΙΟΥΔΗ ΧΡΙΣΤΙΝΑ-ΒΑΣΙΛΙΚΗ, Ο Άγιος Παΐσιος_Βιβλ-ση.pptxΣΤΕΡΓΙΟΥΔΗ ΧΡΙΣΤΙΝΑ-ΒΑΣΙΛΙΚΗ, Ο Άγιος Παΐσιος_Βιβλ-ση.pptx
ΣΤΕΡΓΙΟΥΔΗ ΧΡΙΣΤΙΝΑ-ΒΑΣΙΛΙΚΗ, Ο Άγιος Παΐσιος_Βιβλ-ση.pptx
 
Λογισμικά παρουσίασης - Διαδραστικά συστήματα διδασκαλίας
Λογισμικά παρουσίασης - Διαδραστικά συστήματα διδασκαλίαςΛογισμικά παρουσίασης - Διαδραστικά συστήματα διδασκαλίας
Λογισμικά παρουσίασης - Διαδραστικά συστήματα διδασκαλίας
 
ΠΑΣΧΑΛΙΝΕΣ ΑΝΑΜΝΗΣΕΙΣ.-ΠΑΣΧΑ-ΠΑΘΗ ΧΡΙΣΤΟΥ
ΠΑΣΧΑΛΙΝΕΣ ΑΝΑΜΝΗΣΕΙΣ.-ΠΑΣΧΑ-ΠΑΘΗ ΧΡΙΣΤΟΥΠΑΣΧΑΛΙΝΕΣ ΑΝΑΜΝΗΣΕΙΣ.-ΠΑΣΧΑ-ΠΑΘΗ ΧΡΙΣΤΟΥ
ΠΑΣΧΑΛΙΝΕΣ ΑΝΑΜΝΗΣΕΙΣ.-ΠΑΣΧΑ-ΠΑΘΗ ΧΡΙΣΤΟΥ
 
Άλκη Ζέη, ΤΟ ΨΕΜΑ_ ΠΟΤΟΛΙΔΗΣ ΓΡ._ΒΙΒΛΙΟΠΑΡΟΥΣΙΑΣΗ.pdf
Άλκη Ζέη, ΤΟ ΨΕΜΑ_ ΠΟΤΟΛΙΔΗΣ ΓΡ._ΒΙΒΛΙΟΠΑΡΟΥΣΙΑΣΗ.pdfΆλκη Ζέη, ΤΟ ΨΕΜΑ_ ΠΟΤΟΛΙΔΗΣ ΓΡ._ΒΙΒΛΙΟΠΑΡΟΥΣΙΑΣΗ.pdf
Άλκη Ζέη, ΤΟ ΨΕΜΑ_ ΠΟΤΟΛΙΔΗΣ ΓΡ._ΒΙΒΛΙΟΠΑΡΟΥΣΙΑΣΗ.pdf
 
Μαστοροτάσιος Γιώργος, Το Χοροστάσι της Γης,.pptx
Μαστοροτάσιος Γιώργος, Το Χοροστάσι της Γης,.pptxΜαστοροτάσιος Γιώργος, Το Χοροστάσι της Γης,.pptx
Μαστοροτάσιος Γιώργος, Το Χοροστάσι της Γης,.pptx
 
Μενέλαος Λουντέμης, Ένα παιδί μετράει τ' άστρα _Εργασία της μαθήτριας Κωνσταν...
Μενέλαος Λουντέμης, Ένα παιδί μετράει τ' άστρα _Εργασία της μαθήτριας Κωνσταν...Μενέλαος Λουντέμης, Ένα παιδί μετράει τ' άστρα _Εργασία της μαθήτριας Κωνσταν...
Μενέλαος Λουντέμης, Ένα παιδί μετράει τ' άστρα _Εργασία της μαθήτριας Κωνσταν...
 
Louisa May Alcott, ΟΙ ΜΙΚΡΕΣ ΚΥΡΙΕΣ_ Τσαρτσαρή Ελισάβετ.pptx
Louisa May Alcott, ΟΙ ΜΙΚΡΕΣ ΚΥΡΙΕΣ_ Τσαρτσαρή Ελισάβετ.pptxLouisa May Alcott, ΟΙ ΜΙΚΡΕΣ ΚΥΡΙΕΣ_ Τσαρτσαρή Ελισάβετ.pptx
Louisa May Alcott, ΟΙ ΜΙΚΡΕΣ ΚΥΡΙΕΣ_ Τσαρτσαρή Ελισάβετ.pptx
 
Μάνος Κοντολέων, ΤΑ ΦΑΝΤΑΣΜΑΤΑ ΤΗΣ ΣΟΦΙΤΑΣ_ Μπουσμαλή Ευπραξία.pptx
Μάνος Κοντολέων, ΤΑ ΦΑΝΤΑΣΜΑΤΑ ΤΗΣ ΣΟΦΙΤΑΣ_ Μπουσμαλή Ευπραξία.pptxΜάνος Κοντολέων, ΤΑ ΦΑΝΤΑΣΜΑΤΑ ΤΗΣ ΣΟΦΙΤΑΣ_ Μπουσμαλή Ευπραξία.pptx
Μάνος Κοντολέων, ΤΑ ΦΑΝΤΑΣΜΑΤΑ ΤΗΣ ΣΟΦΙΤΑΣ_ Μπουσμαλή Ευπραξία.pptx
 
YlhPhysicsA-2324.pdf. School year: 2023-2024
YlhPhysicsA-2324.pdf. School year: 2023-2024YlhPhysicsA-2324.pdf. School year: 2023-2024
YlhPhysicsA-2324.pdf. School year: 2023-2024
 

Exploiting structure and content of wikipedia for query

  • 1. Exploiting structure and content of Wikipedia for Query Expansion in the context of Question Answering Surya Ganesh, Vasudeva Varma, Language Technologies Research Centre,IIIT-Hyderabad, India Boursinos Christos-IR PRESENTATION
  • 2. 1. 2. 3. 4. 5. 6. INDRODUCTION RELATED WORK METHODOLOGY PROXIMITY SCORE OUTLINK SCORE EXPERIMENTS Boursinos Christos-IR PRESENTATION
  • 3. INTRODUCTION-Τι θα δούμε. • Νέα μέθοδο query expansion η οποία στοχεύει στο να κατατάξει την απάντηση που περιέχουν τα αποσπάσματα καλύτερα. • Χρησιμοποιούμε την WIKIPEDIA για να δημιουργούμε ένα set από όρους που σχετίζονται με το ερώτημα. • Επειδή έχουμε Boolean model οι όροι που είναι σημασιολογικά κοντά θα προστεθούν σε ένα Boolean query. • TREC 2006 QA . Αποτελέσματα: αύξηση κατά 24,6 % precision at 1, 11,1% MRR at 20, 12,4% TDRR Boursinos Christos-IR PRESENTATION
  • 4. • QA το passage retrieval μειώνει το search space σε μεγάλες συλλογές. • Έχει μειονέκτημα ότι μπορεί στις συλλογές που ψάχνει να μην υπάρχει απάντηση στο ερώτημά μας. (vocabulary mismatch) (25,7% question passages από ένα άλλο σύστημα δεν απαντήθηκαν.) • Λύση αυτού του προβλήματος είναι το QUERY EXPANSION. Είναι η διαδικασία που προσθέτουμε και άλλους ορούς στο ερώτημα μας. • Βάζοντας συνώνυμα των λέξεων του ερωτήματος έχει καλύτερα αποτελέσματα. • Χρησιμοποιούμε την WIKIPEDIA (αξιόπιστη, TREC 2006) • η κάλυψη των άρθρων του είναι ευθέως ανάλογη προς το μέγεθος του περιεχομένου του κειμένου σε αυτές • Άνθρωποι , οργανισμοί , events που ψάχνουμε στο σύστημά μας. Boursinos Christos-IR PRESENTATION
  • 5. 1. 2. 3. 4. 5. 6. INDRODUCTION RELATED WORK METHODOLOGY PROXIMITY SCORE OUTLINK SCORE EXPERIMENTS Boursinos Christos-IR PRESENTATION
  • 6. RELATED WORK(1/2) • MONZ : – επιλογή όρων με βάση των standard ROCCHIO και το βάρος από τα Ν πρώτα κείμενα. – Μείωση της επίδοσης με βάση το απλό ερώτημα. – Αλλά είχε καλύτερη εφαρμογή σε ad-hoc retrieval task. • PIZZATO: – χρησιμοποιεί το όνομα των οντοτήτων του αντίστοιχου τύπου απάντησης από τα κορυφαία έγγραφα για να σχηματίσει ένα διευρυμένο ερώτημα. – Δεν έδειξε κάποια αύξηση επίδοσης. • YANG: – χρησιμοποίησε το WorldNet και το Web για το expansion. – To Web επέκταση των όρων και το WorldNet χρησιμοποιήθηκε για το rank της. – Και εδώ είχαμε μείωση της επίδοσης. Boursinos Christos-IR PRESENTATION
  • 7. RELATED WORK(1/2) • BILLOTI : – μελετά τις επιπτώσεις του stemming και της χρησιμοποίησης κλιτών λέξεων στο expansion. – Μείωση και αύξηση RECALL αντίστοιχα. • SUN : – 2 query expansion τεχνικές οι οποίες κάνουν χρήση της σχέσης εξάρτησης για την ανάλυση και την εξαγωγή συμφραζομένων όρων και τις σχέσεις μεταξύ των όρων. – Οι μέθοδος μεταξύ των σχέσεων ήταν καλύτερη από αυτή της τοπικής ανάλυσης. • ARGUELLO : – περιγράφει μια τεχνική για την εξόρυξη των δεσμών και των anchor text στη Wikipedia για το QE. – Καλύτερο RECALL κ PRECISION. Boursinos Christos-IR PRESENTATION
  • 8. 1. 2. 3. 4. 5. 6. INDRODUCTION RELATED WORK METHODOLOGY PROXIMITY SCORE OUTLINK SCORE EXPERIMENTS Boursinos Christos-IR PRESENTATION
  • 9. • QETS – Query expansion term space ( επιλογή των όρων με βάση το πόσο κοντά είναι μεταξύ τους) – Μας βοηθήσει στο ότι έχουμε περισσότερες λέξεις για το expansion, και ενώνει το κενό ανάμεσα στα κείμενα που είναι κοντά στο ερώτημα μας και σ αυτά που δεν είναι. • CONSTRUCT QETS 1. 2. 3. 4. • • Βρίσκουμε το άρθρο (Α) από την Wikipedia για το ερώτημα (Q) Παίρνουμε τις προτάσεις(S) που αντιστοιχούν στα keywords Αφαιρούμε stop words και question keywords Κάθε λέξη παίρνει ένα βάρος ανάλογα με την συγγένεια στο ερώτημα. ο τύπος μας δίνει την δύναμη του όρου στο QETS. Ps proximity / ls out link Boursinos Christos-IR PRESENTATION
  • 10. 1. 2. 3. 4. 5. 6. INDRODUCTION RELATED WORK METHODOLOGY PROXIMITY SCORE OUTLINK SCORE EXPERIMENTS Boursinos Christos-IR PRESENTATION
  • 11. • Το proximity score μας δίνει την απόσταση των όρων μεταξύ τους και ουσιαστικά ορίζει την δύναμή τους. • Το Proximity score ενός όρου μας είναι: – Η συχνότητα εμφάνισής του και η minimum απόσταση από τα keywords του question. Επειδή είναι ένας ο κάθε όρος στο question τότε είναι το άθροισμα των minimum αποστάσεων από τα keywords. • Κάθε όρος στο QETS έχει βάρος: • Όπου |S| όροι της πρότασης μας. • dt απόσταση όρου term από το keyword του question(Q) Boursinos Christos-IR PRESENTATION
  • 12. 1. 2. 3. 4. 5. 6. INDRODUCTION RELATED WORK METHODOLOGY PROXIMITY SCORE OUTLINK SCORE EXPERIMENTS Boursinos Christos-IR PRESENTATION
  • 13. • Αυτή η μέθοδος εκμεταλλεύεται το σκορ δομημένων πληροφοριών της Wikipedia για την κατάταξη των QETS όρων. • Τα out links ίσως να μην είναι όλα σχετικά με το ερώτημα. Οπότε παίρνουμε μόνο αυτά που είναι σχετικά με το ερώτημά μας. • Μόνο όσα από τα out links είναι κατηγορίας ίδιας με αυτή του ερωτήματος θεωρούνται σημασιολογικά συναφείς. • ΠΑΡΑΔΕΙΓΜΑ • “which position did Warren Moon play in professional football” • Τα out links είναι “position ,play ,football ,professional ” που θεωρούνται σημασιολογικά συναφείς με το ερώτημα. • Όλα αυτά τα terms έχουν βάρος ανάλογα στις συχνότητές των όρων της προτάσεως, για όλα τα άλλα out links στο QETS είναι μηδέν. => => Boursinos Christos-IR PRESENTATION
  • 14. • Κάνουμε sort του πρώτους Ν όρους που έχουν βγει από το QETS. Οι πρώτοι 10 όροι είναι για το query expansion • ΠΑΡΑΔΕΙΓΜΑ • “which position did Warren Moon play in professional football” • Από το TREC 2006 έχουμε το dataset • Όλοι οι όροι σχετίζονται σημασιολογικά με τα keywords του question. • Χρησιμοποιούμε το term expansion length (el) το οποίο καθορίζει τον αριθμό των όρων που είναι για την επέκταση του ερωτήματος. • Κ = σταθερά * |Q| = ο αριθμός των όρων του ερωτήματος. Boursinos Christos-IR PRESENTATION
  • 15. • Οπότε για μικρά queries έχουμε μικρό μήκος. Για μεγάλα queries έχουμε μεγάλο μήκος για το QETS. • Με βάση το paper του TELLEX το Boolean model έχει καλύτερη συμπεριφορά από τα άλλα μοντέλα. • Χρησιμοποιούμε το Boolean model για το expansion μας. • Το Boolean query είναι ένας συνδυασμός – Question target – Keywords Boursinos Christos-IR PRESENTATION
  • 16. 1. 2. 3. 4. 5. 6. INDRODUCTION RELATED WORK METHODOLOGY PROXIMITY SCORE OUTLINK SCORE EXPERIMENTS Boursinos Christos-IR PRESENTATION
  • 17. 3 βασικά μέτρα χρησιμοποιούνται για τις μετρήσεις μας είναι: • Precision at 1 – είναι το ποσοστό των ερωτήσεων για τις οποίες η σωστή απάντηση εμφανίζεται στο πρώτο που έχει ανακτηθεί • Mean Reciprocal Rank (MRR) at N – Είναι ο μέσος όρος της αναστροφής από την ψιλά ιεραρχημένη σωστή απάντηση αν αυτή η απάντηση εμφανίζεται στα πρώτα Ν. • Total Document Reciprocal Rank (TDRR) – Επεκτείνει το MRR με το RECALL. – Είναι το άθροισμα όλων των αμοιβαίων τάξεων που έχουν να κάνουν με την ερώτηση και λαμβάνει την μέγιστη τιμή αν όλα τα ανακτηθέντα αποσπάσματα είναι σχετικά. • τα χρησιμοποιήσαμε για τα πρώτα top 20 κείμενα μας. • TREC 2006 QA / test set AQUAINT corpus / 1.033.461 documents. • Question set: έχει 75 στόχους και το κάθε ένα έχει 5 συγκεκριμένες ερωτήσεις. Το TREC δίνει τα πρώτα 1000 κείμενα από κάθε στόχο. Boursinos Christos-IR PRESENTATION
  • 18. • Χρησιμοποιούμε το Prise για search engine στη Wikipedia. • Χρησιμοποιούμε το Lusene που υποστηρίζει Boolean model για να κάνουμε ανάκτηση των πρώτων 1000 κειμένων. • 3 πειράματα με 2 αξιολογήσεις στο καθένα – Strict criteria • Η απάντηση θα πρέπει να είναι στο απόσπασμα , και το απόσπασμα να είναι στα άρθρα που είναι σχετικά. – Lenient criteria • Η απάντηση θα πρέπει να είναι στο απόσπασμα – Άνω και κάτω φράγμα τα κριτήρια μας • 1ο μας πείραμα έγινε για κ=8 expansion length. – – – – – αύξηση 24,6% precision@1 11,1% MRR@20 12,4% TDRR 18,4% precision@1 10,5% MRR 13,8% TDRR Boursinos Christos-IR PRESENTATION
  • 19. • 2ο μας πείραμα – Ελέγχουμε 2 μεθόδους scoring για το πόσο επηρεάζουν την ανάκτηση – Κ=8 , και οι όροι επιλέγονται απ το QETS. – (ps) proximity score – (os) out link score – καλυτέρα από πριν. • 3ο μας πείραμα – Κάνουμε πειράματα με διαφορετικά κ από (0-10) Boursinos Christos-IR PRESENTATION
  • 20. • Κ=8 έχουμε την Max τιμή μας. Boursinos Christos-IR PRESENTATION