SlideShare a Scribd company logo
1 of 20
Download to read offline
Exploiting structure and content of
Wikipedia for Query Expansion
in the context of Question Answering

Surya Ganesh, Vasudeva Varma,
Language Technologies Research Centre,IIIT-Hyderabad, India

Boursinos Christos-IR PRESENTATION
1.
2.
3.
4.
5.
6.

INDRODUCTION
RELATED WORK
METHODOLOGY
PROXIMITY SCORE
OUTLINK SCORE
EXPERIMENTS

Boursinos Christos-IR PRESENTATION
INTRODUCTION-Τι θα δούμε.
• Νέα μέθοδο query expansion η οποία στοχεύει στο να κατατάξει την
απάντηση που περιέχουν τα αποσπάσματα καλύτερα.
• Χρησιμοποιούμε την WIKIPEDIA για να δημιουργούμε ένα set από όρους
που σχετίζονται με το ερώτημα.
• Επειδή έχουμε Boolean model οι όροι που είναι σημασιολογικά κοντά θα
προστεθούν σε ένα Boolean query.

• TREC 2006 QA . Αποτελέσματα: αύξηση κατά 24,6 % precision at 1,
11,1% MRR at 20, 12,4% TDRR

Boursinos Christos-IR PRESENTATION
• QA το passage retrieval μειώνει το search space σε μεγάλες συλλογές.
• Έχει μειονέκτημα ότι μπορεί στις συλλογές που ψάχνει να μην υπάρχει
απάντηση στο ερώτημά μας. (vocabulary mismatch) (25,7% question
passages από ένα άλλο σύστημα δεν απαντήθηκαν.)
• Λύση αυτού του προβλήματος είναι το QUERY EXPANSION. Είναι η
διαδικασία που προσθέτουμε και άλλους ορούς στο ερώτημα μας.
• Βάζοντας συνώνυμα των λέξεων του ερωτήματος έχει καλύτερα
αποτελέσματα.
• Χρησιμοποιούμε την WIKIPEDIA (αξιόπιστη, TREC 2006)
• η κάλυψη των άρθρων του είναι ευθέως ανάλογη προς το μέγεθος του
περιεχομένου του κειμένου σε αυτές

• Άνθρωποι , οργανισμοί , events που ψάχνουμε στο σύστημά μας.
Boursinos Christos-IR PRESENTATION
1.
2.
3.
4.
5.
6.

INDRODUCTION
RELATED WORK
METHODOLOGY
PROXIMITY SCORE
OUTLINK SCORE
EXPERIMENTS

Boursinos Christos-IR PRESENTATION
RELATED WORK(1/2)
• MONZ :
– επιλογή όρων με βάση των standard ROCCHIO και το βάρος από τα Ν
πρώτα κείμενα.
– Μείωση της επίδοσης με βάση το απλό ερώτημα.
– Αλλά είχε καλύτερη εφαρμογή σε ad-hoc retrieval task.

• PIZZATO:
– χρησιμοποιεί το όνομα των οντοτήτων του αντίστοιχου τύπου
απάντησης από τα κορυφαία έγγραφα για να σχηματίσει ένα
διευρυμένο ερώτημα.
– Δεν έδειξε κάποια αύξηση επίδοσης.

• YANG:
– χρησιμοποίησε το WorldNet και το Web για το expansion.
– To Web επέκταση των όρων και το WorldNet χρησιμοποιήθηκε για το
rank της.
– Και εδώ είχαμε μείωση της επίδοσης.
Boursinos Christos-IR PRESENTATION
RELATED WORK(1/2)
• BILLOTI :
– μελετά τις επιπτώσεις του stemming και της χρησιμοποίησης
κλιτών λέξεων στο expansion.
– Μείωση και αύξηση RECALL αντίστοιχα.

• SUN :
– 2 query expansion τεχνικές οι οποίες κάνουν χρήση της σχέσης
εξάρτησης για την ανάλυση και την εξαγωγή συμφραζομένων
όρων και τις σχέσεις μεταξύ των όρων.
– Οι μέθοδος μεταξύ των σχέσεων ήταν καλύτερη από αυτή της
τοπικής ανάλυσης.

• ARGUELLO :
– περιγράφει μια τεχνική για την εξόρυξη των δεσμών και των
anchor text στη Wikipedia για το QE.
– Καλύτερο RECALL κ PRECISION.
Boursinos Christos-IR PRESENTATION
1.
2.
3.
4.
5.
6.

INDRODUCTION
RELATED WORK
METHODOLOGY
PROXIMITY SCORE
OUTLINK SCORE
EXPERIMENTS

Boursinos Christos-IR PRESENTATION
• QETS
– Query expansion term space ( επιλογή των όρων με βάση το πόσο
κοντά είναι μεταξύ τους)
– Μας βοηθήσει στο ότι έχουμε περισσότερες λέξεις για το expansion,
και ενώνει το κενό ανάμεσα στα κείμενα που είναι κοντά στο
ερώτημα μας και σ αυτά που δεν είναι.

• CONSTRUCT QETS
1.
2.
3.
4.

•
•

Βρίσκουμε το άρθρο (Α) από την Wikipedia για το ερώτημα (Q)
Παίρνουμε τις προτάσεις(S) που αντιστοιχούν στα keywords
Αφαιρούμε stop words και question keywords
Κάθε λέξη παίρνει ένα βάρος ανάλογα με την συγγένεια στο
ερώτημα.
ο τύπος μας δίνει την δύναμη του όρου στο QETS.
Ps proximity / ls out link

Boursinos Christos-IR PRESENTATION
1.
2.
3.
4.
5.
6.

INDRODUCTION
RELATED WORK
METHODOLOGY
PROXIMITY SCORE
OUTLINK SCORE
EXPERIMENTS

Boursinos Christos-IR PRESENTATION
• Το proximity score μας δίνει την απόσταση των όρων μεταξύ
τους και ουσιαστικά ορίζει την δύναμή τους.
• Το Proximity score ενός όρου μας είναι:
– Η συχνότητα εμφάνισής του και η minimum απόσταση από τα
keywords του question. Επειδή είναι ένας ο κάθε όρος στο question
τότε είναι το άθροισμα των minimum αποστάσεων από τα keywords.

• Κάθε όρος στο QETS έχει βάρος:

• Όπου |S| όροι της πρότασης μας.
• dt απόσταση όρου term από το keyword του question(Q)

Boursinos Christos-IR PRESENTATION
1.
2.
3.
4.
5.
6.

INDRODUCTION
RELATED WORK
METHODOLOGY
PROXIMITY SCORE
OUTLINK SCORE
EXPERIMENTS

Boursinos Christos-IR PRESENTATION
• Αυτή η μέθοδος εκμεταλλεύεται το σκορ δομημένων πληροφοριών της
Wikipedia για την κατάταξη των QETS όρων.
• Τα out links ίσως να μην είναι όλα σχετικά με το ερώτημα. Οπότε
παίρνουμε μόνο αυτά που είναι σχετικά με το ερώτημά μας.
• Μόνο όσα από τα out links είναι κατηγορίας ίδιας με αυτή του
ερωτήματος θεωρούνται σημασιολογικά συναφείς.
• ΠΑΡΑΔΕΙΓΜΑ
• “which position did Warren Moon play in professional football”
• Τα out links είναι “position ,play ,football ,professional ” που θεωρούνται
σημασιολογικά συναφείς με το ερώτημα.
• Όλα αυτά τα terms έχουν βάρος ανάλογα στις συχνότητές των όρων της
προτάσεως, για όλα τα άλλα out links στο QETS είναι μηδέν.
=>
=>

Boursinos Christos-IR PRESENTATION
• Κάνουμε sort του πρώτους Ν όρους που έχουν βγει από το QETS. Οι
πρώτοι 10 όροι είναι για το query expansion
• ΠΑΡΑΔΕΙΓΜΑ
• “which position did Warren Moon play in professional football”
• Από το TREC 2006 έχουμε το dataset

• Όλοι οι όροι σχετίζονται σημασιολογικά με τα keywords του question.
• Χρησιμοποιούμε το term expansion length (el) το οποίο καθορίζει τον
αριθμό των όρων που είναι για την επέκταση του ερωτήματος.

• Κ = σταθερά * |Q| = ο αριθμός των όρων του ερωτήματος.
Boursinos Christos-IR PRESENTATION
• Οπότε για μικρά queries έχουμε μικρό μήκος. Για μεγάλα queries έχουμε
μεγάλο μήκος για το QETS.
• Με βάση το paper του TELLEX το Boolean model έχει καλύτερη
συμπεριφορά από τα άλλα μοντέλα.
• Χρησιμοποιούμε το Boolean model για το expansion μας.
• Το Boolean query είναι ένας συνδυασμός
– Question target
– Keywords

Boursinos Christos-IR PRESENTATION
1.
2.
3.
4.
5.
6.

INDRODUCTION
RELATED WORK
METHODOLOGY
PROXIMITY SCORE
OUTLINK SCORE
EXPERIMENTS

Boursinos Christos-IR PRESENTATION
3 βασικά μέτρα χρησιμοποιούνται για τις μετρήσεις μας είναι:

•

Precision at 1
– είναι το ποσοστό των ερωτήσεων για τις οποίες η σωστή απάντηση
εμφανίζεται στο πρώτο που έχει ανακτηθεί

• Mean Reciprocal Rank (MRR) at N
– Είναι ο μέσος όρος της αναστροφής από την ψιλά ιεραρχημένη σωστή
απάντηση αν αυτή η απάντηση εμφανίζεται στα πρώτα Ν.

• Total Document Reciprocal Rank (TDRR)
– Επεκτείνει το MRR με το RECALL.
– Είναι το άθροισμα όλων των αμοιβαίων τάξεων που έχουν να κάνουν με την
ερώτηση και λαμβάνει την μέγιστη τιμή αν όλα τα ανακτηθέντα
αποσπάσματα είναι σχετικά.

• τα χρησιμοποιήσαμε για τα πρώτα top 20 κείμενα μας.
• TREC 2006 QA / test set AQUAINT corpus / 1.033.461 documents.
• Question set: έχει 75 στόχους και το κάθε ένα έχει 5 συγκεκριμένες
ερωτήσεις. Το TREC δίνει τα πρώτα 1000 κείμενα από κάθε στόχο.

Boursinos Christos-IR PRESENTATION
• Χρησιμοποιούμε το Prise για search engine στη Wikipedia.
• Χρησιμοποιούμε το Lusene που υποστηρίζει Boolean model για να
κάνουμε ανάκτηση των πρώτων 1000 κειμένων.
• 3 πειράματα με 2 αξιολογήσεις στο καθένα
– Strict criteria
• Η απάντηση θα πρέπει να είναι στο απόσπασμα , και το απόσπασμα να
είναι στα άρθρα που είναι σχετικά.

– Lenient criteria
• Η απάντηση θα πρέπει να είναι στο απόσπασμα

– Άνω και κάτω φράγμα τα κριτήρια μας

• 1ο μας πείραμα έγινε για κ=8 expansion length.
–
–
–
–
–

αύξηση 24,6% precision@1
11,1% MRR@20
12,4% TDRR
18,4% precision@1
10,5% MRR 13,8% TDRR

Boursinos Christos-IR PRESENTATION
• 2ο μας πείραμα
– Ελέγχουμε 2 μεθόδους scoring για το πόσο επηρεάζουν την ανάκτηση
– Κ=8 , και οι όροι επιλέγονται απ το QETS.
–
(ps) proximity score
–
(os) out link score
–
καλυτέρα από πριν.

• 3ο μας πείραμα
– Κάνουμε πειράματα με διαφορετικά κ από (0-10)

Boursinos Christos-IR PRESENTATION
• Κ=8 έχουμε την Max τιμή μας.

Boursinos Christos-IR PRESENTATION

More Related Content

Viewers also liked (7)

Rapid stream presentation
Rapid stream presentationRapid stream presentation
Rapid stream presentation
 
Signal guru
Signal guruSignal guru
Signal guru
 
Switchboard
SwitchboardSwitchboard
Switchboard
 
Icx
IcxIcx
Icx
 
magnetic refrigeration ppt
magnetic refrigeration  pptmagnetic refrigeration  ppt
magnetic refrigeration ppt
 
Generation of High Resolution DSM Using UAV Images.
Generation of High Resolution DSM Using UAV Images.Generation of High Resolution DSM Using UAV Images.
Generation of High Resolution DSM Using UAV Images.
 
a seminar report on multi-mode 2/4 stroke internal combustion engine
a seminar report on multi-mode 2/4 stroke internal combustion enginea seminar report on multi-mode 2/4 stroke internal combustion engine
a seminar report on multi-mode 2/4 stroke internal combustion engine
 

Recently uploaded

εργασία εφημερίδας για την διατροφή.pptx
εργασία εφημερίδας για την διατροφή.pptxεργασία εφημερίδας για την διατροφή.pptx
εργασία εφημερίδας για την διατροφή.pptx
Effie Lampropoulou
 

Recently uploaded (20)

Βενετία, μια πόλη πάνω στο νερό, Βασιλική Μπράβου - Αποστολία Μπάρδα
Βενετία, μια πόλη πάνω στο νερό, Βασιλική Μπράβου - Αποστολία ΜπάρδαΒενετία, μια πόλη πάνω στο νερό, Βασιλική Μπράβου - Αποστολία Μπάρδα
Βενετία, μια πόλη πάνω στο νερό, Βασιλική Μπράβου - Αποστολία Μπάρδα
 
ΘΕΣΣΑΛΟΝΙΚΗ Η ΔΕΥΤΕΡΗ ΠΟΛΗ ΤΗΣ ΒΥΖΑΝΤΙΝΗΣ ΑΥΤΟΚΡΑΤΟΡΙΑΣ, ΔΑΝΑΗ ΠΑΝΟΥ
ΘΕΣΣΑΛΟΝΙΚΗ Η ΔΕΥΤΕΡΗ ΠΟΛΗ ΤΗΣ ΒΥΖΑΝΤΙΝΗΣ ΑΥΤΟΚΡΑΤΟΡΙΑΣ, ΔΑΝΑΗ ΠΑΝΟΥΘΕΣΣΑΛΟΝΙΚΗ Η ΔΕΥΤΕΡΗ ΠΟΛΗ ΤΗΣ ΒΥΖΑΝΤΙΝΗΣ ΑΥΤΟΚΡΑΤΟΡΙΑΣ, ΔΑΝΑΗ ΠΑΝΟΥ
ΘΕΣΣΑΛΟΝΙΚΗ Η ΔΕΥΤΕΡΗ ΠΟΛΗ ΤΗΣ ΒΥΖΑΝΤΙΝΗΣ ΑΥΤΟΚΡΑΤΟΡΙΑΣ, ΔΑΝΑΗ ΠΑΝΟΥ
 
Ρατσισμός, ορισμός, είδη, αίτια , συνέπειες
Ρατσισμός, ορισμός, είδη, αίτια , συνέπειεςΡατσισμός, ορισμός, είδη, αίτια , συνέπειες
Ρατσισμός, ορισμός, είδη, αίτια , συνέπειες
 
ΒΥΖΑΝΤΙΝΗ ΚΟΥΖΙΝΑ ΚΑΙ ΜΟΔΑ, ΕΛΕΑΝΑ ΣΤΑΥΡΟΠΟΥΛΟΥ.pptx
ΒΥΖΑΝΤΙΝΗ ΚΟΥΖΙΝΑ ΚΑΙ ΜΟΔΑ, ΕΛΕΑΝΑ ΣΤΑΥΡΟΠΟΥΛΟΥ.pptxΒΥΖΑΝΤΙΝΗ ΚΟΥΖΙΝΑ ΚΑΙ ΜΟΔΑ, ΕΛΕΑΝΑ ΣΤΑΥΡΟΠΟΥΛΟΥ.pptx
ΒΥΖΑΝΤΙΝΗ ΚΟΥΖΙΝΑ ΚΑΙ ΜΟΔΑ, ΕΛΕΑΝΑ ΣΤΑΥΡΟΠΟΥΛΟΥ.pptx
 
εργασία εφημερίδας για την διατροφή.pptx
εργασία εφημερίδας για την διατροφή.pptxεργασία εφημερίδας για την διατροφή.pptx
εργασία εφημερίδας για την διατροφή.pptx
 
Η ΑΔΙΚΕΙΑ ΤΟΥ ΔΙΑΓΩΝΙΣΜΟΥ ΑΣΕΠ 2008 ΓΙΑ ΕΚΠΑΙΔΕΥΤΙΚΟΥΣ
Η ΑΔΙΚΕΙΑ ΤΟΥ ΔΙΑΓΩΝΙΣΜΟΥ ΑΣΕΠ 2008 ΓΙΑ ΕΚΠΑΙΔΕΥΤΙΚΟΥΣΗ ΑΔΙΚΕΙΑ ΤΟΥ ΔΙΑΓΩΝΙΣΜΟΥ ΑΣΕΠ 2008 ΓΙΑ ΕΚΠΑΙΔΕΥΤΙΚΟΥΣ
Η ΑΔΙΚΕΙΑ ΤΟΥ ΔΙΑΓΩΝΙΣΜΟΥ ΑΣΕΠ 2008 ΓΙΑ ΕΚΠΑΙΔΕΥΤΙΚΟΥΣ
 
Σχέσεις στην εφηβεία_έρωτας
Σχέσεις                     στην εφηβεία_έρωταςΣχέσεις                     στην εφηβεία_έρωτας
Σχέσεις στην εφηβεία_έρωτας
 
Ο ΧΡΙΣΤΟΦΟΡΟΣ ΚΟΛΟΜΒΟΣ ΚΑΙ Η ΑΝΑΚΑΛΥΨΗ ΤΗΣ ΑΜΕΡΙΚΗΣ,ΕΙΡΗΝΗ ΝΤΟΥΣΚΑ-ΠΕΝΥ ΖΑΓΓΟ...
Ο ΧΡΙΣΤΟΦΟΡΟΣ ΚΟΛΟΜΒΟΣ ΚΑΙ Η ΑΝΑΚΑΛΥΨΗ ΤΗΣ ΑΜΕΡΙΚΗΣ,ΕΙΡΗΝΗ ΝΤΟΥΣΚΑ-ΠΕΝΥ ΖΑΓΓΟ...Ο ΧΡΙΣΤΟΦΟΡΟΣ ΚΟΛΟΜΒΟΣ ΚΑΙ Η ΑΝΑΚΑΛΥΨΗ ΤΗΣ ΑΜΕΡΙΚΗΣ,ΕΙΡΗΝΗ ΝΤΟΥΣΚΑ-ΠΕΝΥ ΖΑΓΓΟ...
Ο ΧΡΙΣΤΟΦΟΡΟΣ ΚΟΛΟΜΒΟΣ ΚΑΙ Η ΑΝΑΚΑΛΥΨΗ ΤΗΣ ΑΜΕΡΙΚΗΣ,ΕΙΡΗΝΗ ΝΤΟΥΣΚΑ-ΠΕΝΥ ΖΑΓΓΟ...
 
-Διψήφιοι αριθμοί-δεκαδες μονάδες-θέση ψηφίου Α- Β τάξη
-Διψήφιοι  αριθμοί-δεκαδες μονάδες-θέση ψηφίου Α- Β τάξη-Διψήφιοι  αριθμοί-δεκαδες μονάδες-θέση ψηφίου Α- Β τάξη
-Διψήφιοι αριθμοί-δεκαδες μονάδες-θέση ψηφίου Α- Β τάξη
 
ΠΟΤΕ ΑΝΑΚΑΛΥΦΘΗΚΕ Η ΑΜΕΡΙΚΗ,ΦΙΛΩΝ-ΦΡΑΓΚΟΥ
ΠΟΤΕ ΑΝΑΚΑΛΥΦΘΗΚΕ Η ΑΜΕΡΙΚΗ,ΦΙΛΩΝ-ΦΡΑΓΚΟΥΠΟΤΕ ΑΝΑΚΑΛΥΦΘΗΚΕ Η ΑΜΕΡΙΚΗ,ΦΙΛΩΝ-ΦΡΑΓΚΟΥ
ΠΟΤΕ ΑΝΑΚΑΛΥΦΘΗΚΕ Η ΑΜΕΡΙΚΗ,ΦΙΛΩΝ-ΦΡΑΓΚΟΥ
 
Η απελευθέρωση της Θεσσαλονίκης από την Οθωμανική Αυτοκρατορία
Η απελευθέρωση της Θεσσαλονίκης από την Οθωμανική ΑυτοκρατορίαΗ απελευθέρωση της Θεσσαλονίκης από την Οθωμανική Αυτοκρατορία
Η απελευθέρωση της Θεσσαλονίκης από την Οθωμανική Αυτοκρατορία
 
Η ΒΙΟΜΗΧΑΝΙΚΗ ΕΠΑΝΑΣΤΑΣΗ,ΜΠΟΗΣ ΧΡΗΣΤΟΣ - ΜΑΓΟΥΛΑΣ ΘΩΜΑΣ
Η ΒΙΟΜΗΧΑΝΙΚΗ ΕΠΑΝΑΣΤΑΣΗ,ΜΠΟΗΣ ΧΡΗΣΤΟΣ - ΜΑΓΟΥΛΑΣ ΘΩΜΑΣΗ ΒΙΟΜΗΧΑΝΙΚΗ ΕΠΑΝΑΣΤΑΣΗ,ΜΠΟΗΣ ΧΡΗΣΤΟΣ - ΜΑΓΟΥΛΑΣ ΘΩΜΑΣ
Η ΒΙΟΜΗΧΑΝΙΚΗ ΕΠΑΝΑΣΤΑΣΗ,ΜΠΟΗΣ ΧΡΗΣΤΟΣ - ΜΑΓΟΥΛΑΣ ΘΩΜΑΣ
 
Ο εκχριστιανισμός των Σλάβων, Άγγελος Δόσης
Ο εκχριστιανισμός των Σλάβων, Άγγελος ΔόσηςΟ εκχριστιανισμός των Σλάβων, Άγγελος Δόσης
Ο εκχριστιανισμός των Σλάβων, Άγγελος Δόσης
 
ΑΝΑΓΕΝΝΗΣΗ, ΕΙΡΗΝΗ ΓΚΑΒΛΟΥ- ΜΑΙΡΗ ΔΗΜΑΚΟΠΟΥΛΟΥ
ΑΝΑΓΕΝΝΗΣΗ, ΕΙΡΗΝΗ ΓΚΑΒΛΟΥ- ΜΑΙΡΗ ΔΗΜΑΚΟΠΟΥΛΟΥ ΑΝΑΓΕΝΝΗΣΗ, ΕΙΡΗΝΗ ΓΚΑΒΛΟΥ- ΜΑΙΡΗ ΔΗΜΑΚΟΠΟΥΛΟΥ
ΑΝΑΓΕΝΝΗΣΗ, ΕΙΡΗΝΗ ΓΚΑΒΛΟΥ- ΜΑΙΡΗ ΔΗΜΑΚΟΠΟΥΛΟΥ
 
Η ΚΩΝΣΤΑΝΤΙΝΟΥΠΟΛΗ, ΣΤΑΥΡΟΥΛΑ ΜΠΕΚΙΑΡΗ
Η ΚΩΝΣΤΑΝΤΙΝΟΥΠΟΛΗ,  ΣΤΑΥΡΟΥΛΑ  ΜΠΕΚΙΑΡΗΗ ΚΩΝΣΤΑΝΤΙΝΟΥΠΟΛΗ,  ΣΤΑΥΡΟΥΛΑ  ΜΠΕΚΙΑΡΗ
Η ΚΩΝΣΤΑΝΤΙΝΟΥΠΟΛΗ, ΣΤΑΥΡΟΥΛΑ ΜΠΕΚΙΑΡΗ
 
Μάχη του Πουατιέ,ΧΡΥΣΑΝΘΟΣ ΚΑΙ ΧΡΥΣΑ ΟΠΡΙΝΕΣΚΟΥ
Μάχη του Πουατιέ,ΧΡΥΣΑΝΘΟΣ ΚΑΙ ΧΡΥΣΑ ΟΠΡΙΝΕΣΚΟΥΜάχη του Πουατιέ,ΧΡΥΣΑΝΘΟΣ ΚΑΙ ΧΡΥΣΑ ΟΠΡΙΝΕΣΚΟΥ
Μάχη του Πουατιέ,ΧΡΥΣΑΝΘΟΣ ΚΑΙ ΧΡΥΣΑ ΟΠΡΙΝΕΣΚΟΥ
 
ΗΡΑΚΛΕΙΟΣ, ΧΑΡΗΣ ΤΑΣΙΟΥΔΗΣ-ΓΙΩΡΓΟΣ ΤΖΑΝΗΣ
ΗΡΑΚΛΕΙΟΣ, ΧΑΡΗΣ ΤΑΣΙΟΥΔΗΣ-ΓΙΩΡΓΟΣ ΤΖΑΝΗΣΗΡΑΚΛΕΙΟΣ, ΧΑΡΗΣ ΤΑΣΙΟΥΔΗΣ-ΓΙΩΡΓΟΣ ΤΖΑΝΗΣ
ΗΡΑΚΛΕΙΟΣ, ΧΑΡΗΣ ΤΑΣΙΟΥΔΗΣ-ΓΙΩΡΓΟΣ ΤΖΑΝΗΣ
 
Safe Cycling - Εργασία για την ασφαλή ποδηλασία 2ο Γυμνάσιο Αλεξανδρούπολης
Safe Cycling - Εργασία για την ασφαλή ποδηλασία 2ο Γυμνάσιο ΑλεξανδρούποληςSafe Cycling - Εργασία για την ασφαλή ποδηλασία 2ο Γυμνάσιο Αλεξανδρούπολης
Safe Cycling - Εργασία για την ασφαλή ποδηλασία 2ο Γυμνάσιο Αλεξανδρούπολης
 
Φλωρεντία, ΔΑΝΑΗ ΠΥΡΠΥΡΗ- ΜΑΡΙΑΝΕΛΑ ΣΤΡΟΓΓΥΛΟΥ
Φλωρεντία, ΔΑΝΑΗ ΠΥΡΠΥΡΗ- ΜΑΡΙΑΝΕΛΑ ΣΤΡΟΓΓΥΛΟΥΦλωρεντία, ΔΑΝΑΗ ΠΥΡΠΥΡΗ- ΜΑΡΙΑΝΕΛΑ ΣΤΡΟΓΓΥΛΟΥ
Φλωρεντία, ΔΑΝΑΗ ΠΥΡΠΥΡΗ- ΜΑΡΙΑΝΕΛΑ ΣΤΡΟΓΓΥΛΟΥ
 
ΕΜΕΙΣ ΕΔΩ ΠΑΙΖΟΥΜΕ ΜΠΑΛΑ, εργασία για την οπαδική βία
ΕΜΕΙΣ ΕΔΩ ΠΑΙΖΟΥΜΕ ΜΠΑΛΑ, εργασία για την οπαδική βίαΕΜΕΙΣ ΕΔΩ ΠΑΙΖΟΥΜΕ ΜΠΑΛΑ, εργασία για την οπαδική βία
ΕΜΕΙΣ ΕΔΩ ΠΑΙΖΟΥΜΕ ΜΠΑΛΑ, εργασία για την οπαδική βία
 

Exploiting structure and content of wikipedia for query

  • 1. Exploiting structure and content of Wikipedia for Query Expansion in the context of Question Answering Surya Ganesh, Vasudeva Varma, Language Technologies Research Centre,IIIT-Hyderabad, India Boursinos Christos-IR PRESENTATION
  • 2. 1. 2. 3. 4. 5. 6. INDRODUCTION RELATED WORK METHODOLOGY PROXIMITY SCORE OUTLINK SCORE EXPERIMENTS Boursinos Christos-IR PRESENTATION
  • 3. INTRODUCTION-Τι θα δούμε. • Νέα μέθοδο query expansion η οποία στοχεύει στο να κατατάξει την απάντηση που περιέχουν τα αποσπάσματα καλύτερα. • Χρησιμοποιούμε την WIKIPEDIA για να δημιουργούμε ένα set από όρους που σχετίζονται με το ερώτημα. • Επειδή έχουμε Boolean model οι όροι που είναι σημασιολογικά κοντά θα προστεθούν σε ένα Boolean query. • TREC 2006 QA . Αποτελέσματα: αύξηση κατά 24,6 % precision at 1, 11,1% MRR at 20, 12,4% TDRR Boursinos Christos-IR PRESENTATION
  • 4. • QA το passage retrieval μειώνει το search space σε μεγάλες συλλογές. • Έχει μειονέκτημα ότι μπορεί στις συλλογές που ψάχνει να μην υπάρχει απάντηση στο ερώτημά μας. (vocabulary mismatch) (25,7% question passages από ένα άλλο σύστημα δεν απαντήθηκαν.) • Λύση αυτού του προβλήματος είναι το QUERY EXPANSION. Είναι η διαδικασία που προσθέτουμε και άλλους ορούς στο ερώτημα μας. • Βάζοντας συνώνυμα των λέξεων του ερωτήματος έχει καλύτερα αποτελέσματα. • Χρησιμοποιούμε την WIKIPEDIA (αξιόπιστη, TREC 2006) • η κάλυψη των άρθρων του είναι ευθέως ανάλογη προς το μέγεθος του περιεχομένου του κειμένου σε αυτές • Άνθρωποι , οργανισμοί , events που ψάχνουμε στο σύστημά μας. Boursinos Christos-IR PRESENTATION
  • 5. 1. 2. 3. 4. 5. 6. INDRODUCTION RELATED WORK METHODOLOGY PROXIMITY SCORE OUTLINK SCORE EXPERIMENTS Boursinos Christos-IR PRESENTATION
  • 6. RELATED WORK(1/2) • MONZ : – επιλογή όρων με βάση των standard ROCCHIO και το βάρος από τα Ν πρώτα κείμενα. – Μείωση της επίδοσης με βάση το απλό ερώτημα. – Αλλά είχε καλύτερη εφαρμογή σε ad-hoc retrieval task. • PIZZATO: – χρησιμοποιεί το όνομα των οντοτήτων του αντίστοιχου τύπου απάντησης από τα κορυφαία έγγραφα για να σχηματίσει ένα διευρυμένο ερώτημα. – Δεν έδειξε κάποια αύξηση επίδοσης. • YANG: – χρησιμοποίησε το WorldNet και το Web για το expansion. – To Web επέκταση των όρων και το WorldNet χρησιμοποιήθηκε για το rank της. – Και εδώ είχαμε μείωση της επίδοσης. Boursinos Christos-IR PRESENTATION
  • 7. RELATED WORK(1/2) • BILLOTI : – μελετά τις επιπτώσεις του stemming και της χρησιμοποίησης κλιτών λέξεων στο expansion. – Μείωση και αύξηση RECALL αντίστοιχα. • SUN : – 2 query expansion τεχνικές οι οποίες κάνουν χρήση της σχέσης εξάρτησης για την ανάλυση και την εξαγωγή συμφραζομένων όρων και τις σχέσεις μεταξύ των όρων. – Οι μέθοδος μεταξύ των σχέσεων ήταν καλύτερη από αυτή της τοπικής ανάλυσης. • ARGUELLO : – περιγράφει μια τεχνική για την εξόρυξη των δεσμών και των anchor text στη Wikipedia για το QE. – Καλύτερο RECALL κ PRECISION. Boursinos Christos-IR PRESENTATION
  • 8. 1. 2. 3. 4. 5. 6. INDRODUCTION RELATED WORK METHODOLOGY PROXIMITY SCORE OUTLINK SCORE EXPERIMENTS Boursinos Christos-IR PRESENTATION
  • 9. • QETS – Query expansion term space ( επιλογή των όρων με βάση το πόσο κοντά είναι μεταξύ τους) – Μας βοηθήσει στο ότι έχουμε περισσότερες λέξεις για το expansion, και ενώνει το κενό ανάμεσα στα κείμενα που είναι κοντά στο ερώτημα μας και σ αυτά που δεν είναι. • CONSTRUCT QETS 1. 2. 3. 4. • • Βρίσκουμε το άρθρο (Α) από την Wikipedia για το ερώτημα (Q) Παίρνουμε τις προτάσεις(S) που αντιστοιχούν στα keywords Αφαιρούμε stop words και question keywords Κάθε λέξη παίρνει ένα βάρος ανάλογα με την συγγένεια στο ερώτημα. ο τύπος μας δίνει την δύναμη του όρου στο QETS. Ps proximity / ls out link Boursinos Christos-IR PRESENTATION
  • 10. 1. 2. 3. 4. 5. 6. INDRODUCTION RELATED WORK METHODOLOGY PROXIMITY SCORE OUTLINK SCORE EXPERIMENTS Boursinos Christos-IR PRESENTATION
  • 11. • Το proximity score μας δίνει την απόσταση των όρων μεταξύ τους και ουσιαστικά ορίζει την δύναμή τους. • Το Proximity score ενός όρου μας είναι: – Η συχνότητα εμφάνισής του και η minimum απόσταση από τα keywords του question. Επειδή είναι ένας ο κάθε όρος στο question τότε είναι το άθροισμα των minimum αποστάσεων από τα keywords. • Κάθε όρος στο QETS έχει βάρος: • Όπου |S| όροι της πρότασης μας. • dt απόσταση όρου term από το keyword του question(Q) Boursinos Christos-IR PRESENTATION
  • 12. 1. 2. 3. 4. 5. 6. INDRODUCTION RELATED WORK METHODOLOGY PROXIMITY SCORE OUTLINK SCORE EXPERIMENTS Boursinos Christos-IR PRESENTATION
  • 13. • Αυτή η μέθοδος εκμεταλλεύεται το σκορ δομημένων πληροφοριών της Wikipedia για την κατάταξη των QETS όρων. • Τα out links ίσως να μην είναι όλα σχετικά με το ερώτημα. Οπότε παίρνουμε μόνο αυτά που είναι σχετικά με το ερώτημά μας. • Μόνο όσα από τα out links είναι κατηγορίας ίδιας με αυτή του ερωτήματος θεωρούνται σημασιολογικά συναφείς. • ΠΑΡΑΔΕΙΓΜΑ • “which position did Warren Moon play in professional football” • Τα out links είναι “position ,play ,football ,professional ” που θεωρούνται σημασιολογικά συναφείς με το ερώτημα. • Όλα αυτά τα terms έχουν βάρος ανάλογα στις συχνότητές των όρων της προτάσεως, για όλα τα άλλα out links στο QETS είναι μηδέν. => => Boursinos Christos-IR PRESENTATION
  • 14. • Κάνουμε sort του πρώτους Ν όρους που έχουν βγει από το QETS. Οι πρώτοι 10 όροι είναι για το query expansion • ΠΑΡΑΔΕΙΓΜΑ • “which position did Warren Moon play in professional football” • Από το TREC 2006 έχουμε το dataset • Όλοι οι όροι σχετίζονται σημασιολογικά με τα keywords του question. • Χρησιμοποιούμε το term expansion length (el) το οποίο καθορίζει τον αριθμό των όρων που είναι για την επέκταση του ερωτήματος. • Κ = σταθερά * |Q| = ο αριθμός των όρων του ερωτήματος. Boursinos Christos-IR PRESENTATION
  • 15. • Οπότε για μικρά queries έχουμε μικρό μήκος. Για μεγάλα queries έχουμε μεγάλο μήκος για το QETS. • Με βάση το paper του TELLEX το Boolean model έχει καλύτερη συμπεριφορά από τα άλλα μοντέλα. • Χρησιμοποιούμε το Boolean model για το expansion μας. • Το Boolean query είναι ένας συνδυασμός – Question target – Keywords Boursinos Christos-IR PRESENTATION
  • 16. 1. 2. 3. 4. 5. 6. INDRODUCTION RELATED WORK METHODOLOGY PROXIMITY SCORE OUTLINK SCORE EXPERIMENTS Boursinos Christos-IR PRESENTATION
  • 17. 3 βασικά μέτρα χρησιμοποιούνται για τις μετρήσεις μας είναι: • Precision at 1 – είναι το ποσοστό των ερωτήσεων για τις οποίες η σωστή απάντηση εμφανίζεται στο πρώτο που έχει ανακτηθεί • Mean Reciprocal Rank (MRR) at N – Είναι ο μέσος όρος της αναστροφής από την ψιλά ιεραρχημένη σωστή απάντηση αν αυτή η απάντηση εμφανίζεται στα πρώτα Ν. • Total Document Reciprocal Rank (TDRR) – Επεκτείνει το MRR με το RECALL. – Είναι το άθροισμα όλων των αμοιβαίων τάξεων που έχουν να κάνουν με την ερώτηση και λαμβάνει την μέγιστη τιμή αν όλα τα ανακτηθέντα αποσπάσματα είναι σχετικά. • τα χρησιμοποιήσαμε για τα πρώτα top 20 κείμενα μας. • TREC 2006 QA / test set AQUAINT corpus / 1.033.461 documents. • Question set: έχει 75 στόχους και το κάθε ένα έχει 5 συγκεκριμένες ερωτήσεις. Το TREC δίνει τα πρώτα 1000 κείμενα από κάθε στόχο. Boursinos Christos-IR PRESENTATION
  • 18. • Χρησιμοποιούμε το Prise για search engine στη Wikipedia. • Χρησιμοποιούμε το Lusene που υποστηρίζει Boolean model για να κάνουμε ανάκτηση των πρώτων 1000 κειμένων. • 3 πειράματα με 2 αξιολογήσεις στο καθένα – Strict criteria • Η απάντηση θα πρέπει να είναι στο απόσπασμα , και το απόσπασμα να είναι στα άρθρα που είναι σχετικά. – Lenient criteria • Η απάντηση θα πρέπει να είναι στο απόσπασμα – Άνω και κάτω φράγμα τα κριτήρια μας • 1ο μας πείραμα έγινε για κ=8 expansion length. – – – – – αύξηση 24,6% precision@1 11,1% MRR@20 12,4% TDRR 18,4% precision@1 10,5% MRR 13,8% TDRR Boursinos Christos-IR PRESENTATION
  • 19. • 2ο μας πείραμα – Ελέγχουμε 2 μεθόδους scoring για το πόσο επηρεάζουν την ανάκτηση – Κ=8 , και οι όροι επιλέγονται απ το QETS. – (ps) proximity score – (os) out link score – καλυτέρα από πριν. • 3ο μας πείραμα – Κάνουμε πειράματα με διαφορετικά κ από (0-10) Boursinos Christos-IR PRESENTATION
  • 20. • Κ=8 έχουμε την Max τιμή μας. Boursinos Christos-IR PRESENTATION