Word sense disambiguation
Upcoming SlideShare
Loading in...5
×
 

Word sense disambiguation

on

  • 877 views

 

Statistics

Views

Total Views
877
Views on SlideShare
877
Embed Views
0

Actions

Likes
0
Downloads
6
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Word sense disambiguation Word sense disambiguation Presentation Transcript

  • Word Sense Disambiguation Αποσαφήνιση της έννοιας της λέξης Ιόνιο Πανεπιστήµιο. Μεταπτυχιακό Πληροφορικής Προχωρηµένα Θέµατα Γλωσσικής Τεχνολογίας Μουστάκα Ελένη Γενάρης 2012
  • Στόχος της σηµερινής διάλεξης είναι: να ασχοληθούµε µε την εξήγηση της αµφισηµίας των λέξεων Να δούµε κάποιες προσεγγίσεις που θα βοηθήσουν στην άρση της
  • Τι είναι η αµφισηµία;Υπάρχουν λέξεις που έχουν διαφορετικές έννοιεςπαρόλο που γράφονται και προφέρονται µε τον ίδιοακριβώς τρόπο παραδείγµατος χάρη : Καλόγερος: είδος φορητής κρεµάστρας, αυτός που απαρνείται τα εγκόσµια, είδος πυώδους φλεγµονής, είδος εντόµου (πασχαλίτσα) Μήτρα: στο γυναικείο σώµα, το πρότυπο/καλούπι Κόλλα: µια κόλλα χαρτί, η κόλλα που κολλάµε Γραφείο: το έπιπλο, ο χώρος Κερκίδα: το κάθισµα σε γήπεδο, το οστό, η σαΐτα του αργαλειού View slide
  • Προφανώς η σηµασία, για πολλές από αυτές τιςλέξεις, γίνεται ξεκάθαρη αν τις συναντήσουµεµέσα σε ένα σώµα κειµένου: Κρέµασα το παλτό µου στον καλόγερο Ξεκίνησαν οι συσπάσεις της µήτρας Θα ζωγραφίσω σε µία λευκή κόλλα Το γραφείο του βρίσκεται στο δεύτερο όροφο Έσπασε την κερκίδα του, στο µάθηµα View slide
  • ΠροσεγγίσειςΣτοχαστική προσέγγιση Το µοντέλο µονόγραµµου και n-gram Επιβλεπόµενη µάθηση Αλγόριθµος Naïve Bayes Λίστες αποφάσεων
  • Στοχαστική προσέγγιση-µοντέλο µονόγραµµουΜετράµε το πόσες φορές εµφανίζεται µία λέξη (µετην κάθε δυνατή έννοια) µέσα σε ένα κείµενο: Ρόκα (χορταρικό) 80 φορές. πχ: Ρόκα (εργαλείο πλεξίµατος) 25 φορέςΉ Φακός (που φωτίζει) 63 φορές Φακός (επαφής) 42 φορές
  • Στοχαστική προσέγγιση – µοντέλο µονόγραµµουΧρησιµοποιώντας τα Unigrams θα επιλέγαµε πάντα i sτη λέξη που εµφανίζεται τις περισσότερες φορές(ρόκα-χορταρικό, φακός-που φωτίζει).Για να βρούµε όµως τη σωστή σηµασία της λέξης θαπρέπει να λάβουµε υπόψη και τα συµφραζόµεναΑν si είναι η έννοια (sense) της λέξης i Bigrams: P(sn| sn-1) πχ: η Μαρία έφαγε ρόκα Trigrams: P(sn| sn-1, sn-2) πχ: φόρεσε το φακό
  • Στοχαστική προσέγγισηΥπάρχουν όµως πολλές διαφορετικές σηµασιολογικέςέννοιες καιΟ αριθµός των φορών που εµφανίζεται κάποια λέξηµπορεί να είναι πολύ µικρός άρα: Θα πρέπει να επιλέξουµε µεγαλύτερο εύρος παραθύρου συµφραζοµένων για να εντοπίσουµε την σωστή εξήγηση της λέξης που µας ενδιαφέρει. Γιατί θα µπορούσε να είναι: Αναγκάστηκε να βγάλει το φακό γιατί την πονούσε πολύ το µάτι της. - Βλέπουµε πως η λέξη που µας ενδιαφέρει (µάτι) βρίσκεται 6 λέξεις µακριά από τη λέξη (φακός) που θέλουµε να αποσαφηνίσουµε
  • Στοχαστική προσέγγισηΑν ονοµάσουµε: s = sense (η έννοια της λέξης) w = word (η λέξη) c = context (το παράθυρο των λέξεων)Θεωρούµε ένα παράθυρο λέξεων, όπου η λέξη πουµας ενδιαφέρει να αποσαφηνίσουµε βρίσκεται στηµέση: c = w1,…,w5,…,w9 Θέλουµε να βρούµε την έννοια (s) της λέξης (w5) δηλαδή: (w5/s) που µεγιστοποιεί την πιθανότητα P((w5/s)|w1…w9)
  • Αλγόριθµος Naïve BayesΟ αλγόριθµος του Bayes ανήκει στην κατηγορία των αλγορίθµωνεπιβλεπόµενης µάθησης (supervised learning).Μία πρακτική δυσκολία που αντιµετωπίζεται στη µάθηση κατά Bayesείναι το γεγονός ότι απαιτείται η γνώση πολλών τιµών πιθανοτήτων.Όταν αυτές οι τιµές δεν είναι δυνατό να υπολογιστούν επακριβώς,υπολογίζονται κατ‘ εκτίµηση από παλαιότερες υποθέσεις, εµπειρικήγνώση, κτλ.Η παραπάνω δυσκολία εφαρµογής έχει δώσει µεγάλη πρακτική αξίασε µια απλουστευµένη εκδοχή της µάθησης κατά Bayes, τον απλόταξινοµητή Bayes, στον οποίο γίνεται η παραδοχή ότι ταχαρακτηριστικά είναι ανεξάρτητα µεταξύ τους.
  • Αλγόριθµος Naïve Bayes Bayes Rule: P(s/w5 | c) = P(s/w5)* P(c | s/w5) / P(c) [1]P(s/w5|c) :πιθανότητα έννοιας της λέξης δεδοµένων των συµφραζοµένων (posterior),P(s/w5) : πιθανότητα έννοιας της λέξης ανεξάρτητων των συµφραζοµένων (prior), δηλαδή η εκ των προτέρων πιθανότητα πχ η λέξη καλόγερος να έχει την έννοια έπιπλο.P(c | s/w5) / P(c) : παράγοντας ενσωµάτωσης πληροφορίας συµφραζοµένων P(c) :Τον όρο P(c) [2] (το κείµενο που εξετάζουµε) επειδή είναι σταθερός για όλες τις µεταφράσεις και δεν επηρεάζει το αποτέλεσµα, µπορούµε και να τον παραλείψουµε (για να απλοποιήσουµε τις διαδικασίες αποσαφήνισης) P(c | s/w5 ) :∆εδοµένου ότι πχ η λέξη καλόγερος είναι έπιπλο όταν βρίσκεται µέσα στο συγκεκριµένο κείµενο Έχουµε την παραδοχή της ανεξαρτησίας που µας λέει ότι : η παρουσία µίας λέξης στα συµφραζόµενα είναι ανεξάρτητη των άλλων λέξεων: P(c | s/w5 ) Πi=1..9 * P(c | s/w5) [3]
  • Αλγόριθµος Naïve BayesΑντικαθιστώντας στον [1] τους [2] και [3]θα πάρουµε τον τελικό τύπο του Bayes: P(s/w5 | c) = P(s/w5)* Πi=1..9 * P(c | s/w5) Όπου : c = w1,…,w5,…,w9
  • Αλγόριθµος Naïve Bayes Ένα παράδειγµα για να κατανοήσουµε τον αλγόριθµο: Το παράθυρο συµφραζοµένων που θα εξετάσουµε:«Καθόταν στην κουνιστή πολυθρόνα µε τη ρόκα της και έγνεφε όλη τη µέρα » Η αµφίσηµη λέξη είναι προφανώς η λέξη «ρόκα» και βρίσκεται στο κέντρο του παραθύρου Οι λέξεις που συµµετέχουν στον αλγόριθµο είναι αυτές µε τα έντονα γράµµατα, οι υπόλοιπες (εκτός της λέξης ρόκα που εξετάζουµε) λέγονται λειτουργικές λέξεις (στην, µε, τη, της, και, τη) και δεν έχουν σηµασιολογικό ενδιαφέρον. Γενικά οι λέξεις που έχουν σηµασιολογικό ενδιαφέρον είναι τα ρήµατα, επίθετα, ουσιαστικά και επιρρήµατα
  • Αλγόριθµος Naïve BayesΠιθανότητα ανεξάρτητη των συµφραζοµένων: P(ρόκα/χορταρικό) = 0.6 P(ρόκα/εργαλείο) = 0.3Έχουµε βρει την λέξη ρόκα σε ένα σώµα κειµένου 100 φορές, από αυτές, 60 φορές είχε την έννοιαχορταρικό και 30 την έννοια εργαλείο [τις 10 φορές που αποµένουν (για να έχουµε άθροισµαπιθανοτήτων 1) θεωρούµε ότι πιθανόν να υπάρχει και κάποια άλλη σηµασία της λέξης που µαςδιαφεύγει, δηλαδή στο κείµενό µας δεν είχαν ούτε την έννοια χορταρικό ούτε την έννοια εργαλείο]Πιθανότητα εξαρτηµένη των συµφραζοµένων: P7 (έγνεφε|ρόκα/χορταρικό) = 0.001 ∆εδοµένου ότι η ρόκα είναι χορταρικό, ποια η πιθανότητα να εµφανίζεται στο σώµα κειµένου η λέξη έγνεφε. P7 (έγνεφε| ρόκα/εργαλείο) = 0.05Για να υπολογιστεί κάθε µία από αυτές τις πιθανότητες, για κάθε λέξη του παραθύρουσυµφραζοµένων: ψάχνω µέσα στο παράθυρο συµφραζοµένων της λέξης ρόκα µε την έννοιαχορταρικό, και βρίσκω πόσες φορές εµφανίζεται η λέξη «έγνεφε», διά πόσες φορές εµφανίζεται ηέννοια της λέξης ρόκα σαν χορταρικό σε όλο το κείµενο.
  • Αλγόριθµος Naïve Bayes «Καθόταν στην κουνιστή πολυθρόνα µε τη ρόκα της και έγνεφε όλη τη µέρα » P(s/w4 | c) = P(s/w4)* Πi=1..7 * P(c | s/w4)Θα βρούµε την πιθανότητα για κάθε µία από τις έννοιες τηςλέξης: Ρ1=χορταρικό και Ρ2= εργαλείοΡ1 = Ρ(ρόκα/χορταρικό)*Ρ(καθόταν|ρόκα/χορταρικό) *…**Ρ(έγνεφε|ρόκα/χορταρικό)*…* Ρ(µέρα|ρόκα/χορταρικό)Γνωρίζουµε ήδη τις πιθανότητες Ρ(ρόκα/χορταρικό) καιΡ(έγνεφε|ρόκα/χορταρικό) µας µένει να υπολογίσουµε τιςυπόλοιπες, οι οποίες είναι ανεξάρτητες συµφραζοµένων. Στοσυγκεκριµένο παράδειγµα θα είναι τυχαίες αυτές οιπιθανότητες
  • Αλγόριθµος Naïve BayesΑντικαθιστούµε τις πιθανότητες στη σχέση µας καιθα έχουµε:Ρ1 = 0,6 * 0,004 * 0,008 * 0,003 * 0,001* 0,006 *0,009 * 0,002 = 6,2208-18Κάνοντας ακριβώς τα ίδια βήµατα και για τη δεύτερηπιθανότητα θα έχουµεΡ2 = 0,3 * 0,004 * 0,008 * 0,003 * 0,05* 0,006 *0,009 * 0,002 = 1,5552-16Βλέπουµε ότι Ρ1<Ρ2 άρα η ρόκα στην πρότασή µας,σύµφωνα µε τον Bayes, είναι εργαλείο
  • Επιβλεπόµενη µάθησηΣτην επιβλεπόµενη µάθηση η γενική ιδέα είναι ότι σεένα σώµα κειµένου η σωστή έννοια της λέξης έχειεπισηµειωθεί χειρωνακτικά.Στη συνέχεια εξάγουµε χαρακτηριστικά από τοκείµενο που θα µας βοηθήσουν στο να επιλέξουµετη σωστή έννοια της λέξηςΤέλος εκπαιδεύουµε έναν αλγόριθµο µηχανικήςµάθησης στο να δώσει την σωστή απόδοση τηςλέξης σε νέα όµως παραδείγµατα, βασιζόµενος σταδοθέντα χαρακτηριστικά.
  • Λίστες απόφασηςΜια δεύτερη µορφή επιβλεπόµενης µάθησης είναι οιλίστες απόφασης.Είναι ένας άλλος τρόπος αποσαφήνισης της έννοιαςτων λέξεωνΠάλι δουλεύουµε µε ένα παράθυρο συµφραζοµένωνΟ πρώτος έλεγχος που θα επιτευχθεί, µαςκαθορίζει και την έννοια της λέξης που ψάχνουµεΑν δεν επιτευχθεί έλεγχος, τότε επιλέγεται η πιοσυχνή έννοια της λέξης.
  • Λίστες απόφασης∆ηµιουργείται µία λίστα, ένα σετ κανόνων, όπουκάθε στοιχείο είναι ενδεικτικό µιας συγκεκριµένηςέννοιας της λέξης που θέλουµε να αποσαφηνίσουµεΑυτό σηµαίνει ότι η λίστα µας θα έχει στοιχεία γιαόλες τις έννοιες της λέξης.Κάποιος ειδήµων θα έχει δηµιουργήσει αυτούς τουςκανόνες (ο ειδικός πενολόγος που είχαµε πει)Στη συνέχεια υπολογίζουµε τις πιθανότητες για κάθεέναν από τους κανόνες αυτούς
  • Λίστες απόφασης Παράδειγµα: Αποσαφήνιση της λέξης : πένα (γραφής, χορδών) κανόνες1. «πένα κιθάρας» χορδών2. «χαρτί» µέσα στο παράθυρο γραφής3. «παρτιτούρες» µέσα στο παράθυρο χορδών4. «συγκρότηµα» µέσα στο παράθυρο χορδών5. «γραφείο» µέσα στο παράθυρο γραφής
  • Λίστες απόφασηςΚαθόρισε τις πιθανότητες για όλες τις έννοιεςλέξεων δεδοµένων όλων των ελέγχων.P(w/s | test) Πχ «πένα κιθάρας» χορδών : πόσες φορές η λέξη πένα µε την έννοια της χορδής, ακολουθείται από την λέξη κιθάρα διά τις φορές που εµφανίζεται η λέξη πένα µε την έννοια χορδή γενικάΤα αποτελέσµατα ταξινοµούνται σε φθίνουσα σειρά ανάλογα µε τηνπιθανότητά τους.
  • Αξιολόγηση συστηµάτων WSDΤα αποτελέσµατα της αξιολόγησης εξαρτώνται απότη λίστα των διαφορετικών εννοιώνΓενικά είναι δύσκολο να συγκρίνουµε δύοσυστήµατα που βασίζονται σε λίστες µε διαφορετικόβαθµό πολυπλοκότητας Αν µία λέξη έχει δύο ισοπίθανες έννοιες, και αποσαφηνιστεί σωστά µε πιθανότητα 90%, τότε είναι απόλυτα επιτυχής Αν όµως, µία λεξη έχει δύο έννοιες µε πιθανότητες 90% για τη µία και 10% για την άλλη , τότε αν αποσαφηνιστεί σωστά µε πιθανότητα 90% είναι ασήµαντο επίτευγµα.