Προχωρηµένα Θέµατα ΓλωσσικήςΤεχνολογίαςPart Of Speech Tagging   Hidden Markov ModelΙόνιο Πανεπιστήµιο, Μεταπτυχιακό Πληροφ...
Κατηγορίες αλγόριθµων POStagging Βασισµένοι σε κανόνες Στοχαστικοί (HMM) Συνδυασµοί των δύο παραπάνω (Brill)
Αλγόριθµοι βασισµένοι σεκανόνεςΕργάζονται σε δυο φάσεις:1. Αποδίδονται στην λέξη πιθανά POS tags µε   χρήση λεξικού.2. Αν ...
Στοχαστικά µοντέλαΤα στοχαστικά µοντέλα µαθαίνουν µέσωπαραδειγµάτων εκµάθησης. Πρόκειται γιασώµατα κειµένου, corpus, στα ο...
Hidden Markov ModelΟ αλγόριθµος αυτός αναζητά ποιά σειρά από POS tagsταιριάζει καλύτερα µε την σειρά των λέξεων που τουδόθ...
Hidden Markov Model Το εύρος εξάρτησης (limited horizon): καθορίζει τον αριθµό των προηγούµενων λέξεων που λαµβάνονται υπό...
Λειτουργία ΗΜΜ καιλεξικολογικές πιθανότητεςΕξετάζονται τα παραδείγµατα εκµάθησης καιυπολογίζονται οι πιθανότητες εµφάνισης...
Λειτουργία ΗΜΜ και πιθανότητεςbi-gramsΩς bi-gram ορίζεται η ακολουθία δύο λέξεων, δενµας ενδιαφέρουν οι λέξεις αλλά το µέρ...
Λειτουργία HMM, εξέταση τωνπιθανών συνδυασµών του προςεπισήµανση κειµένουΓια το τµήµα κειµένου που εξετάζουµε και σε ότιαφ...
Σχεδίαση Μοντέλων MarkovΤα µοντέλα Markov βρίσκουν εφαρµογή στην απεικόνισητων bi-grams. Κάθε κατάσταση (POS) αναπαρίστατα...
Άσκηση 1 – Λεξικολογικέςπιθανότητες  Με βάση τον ακόλουθο πίνακα   να εξαχθούν οι πιθανότητες                Ν      V     ...
Άσκηση 1 – ΛεξικολογικέςπιθανότητεςP(ART) = 558/1998 = 0.28, P(the) = 303/1998 = 0.15,P(ART|the) = 300/303 = 0.99, P(the|A...
Άσκηση 2 – πιθανότητες bi-gramsΜε βάση τον ακόλουθο πίνακα    να υπολογιστούν οι πιθανότητες bi-grams P(Ci|Ci-1):Category ...
Άσκηση 2- Πιθανότητες bigramsPair    ΠιθανότηταØ,ART   P(ART|Ø) = 213/300 = 0.71Ø,N     P(N|Ø) = 87/300 = 0.29ART,N   P(N|...
Άσκηση 3 – εξέταση των πιθανώνσυνδυασµών Θεωρούµε τις µετρήσεις των ασκήσεων 1 και 2  Να υπολογιστεί η πιο πιθανή λύση POS...
Άσκηση 3 – εξέταση των πιθανώνσυνδυασµώνΑν υπάρχουν wn λέξεις και κάθε λέξη έχει C κατηγορίες, οιπιθανοί συνδυασµοί είναιw...
Άσκηση 3 – εξέταση των πιθανώνσυνδυασµών bi-gramsFlies      like         a          flowerΝ          V            ART     ...
Άσκηση 3 – εξέταση τωνλεξικολογικών πιθανοτήτωνFlies        like          a            flowerΝ            V             AR...
Άσκηση 3 – πιθανότητες τωνσυνδυασµών των bi-grams και τωνλεξικολογικών πιθανοτήτωνFlies   like   a     flowerN       V    ...
Άσκηση 4 – αλυσίδα Markov καικρυµµένο µοντέλο MarkovΜε τα δεδοµένα των προηγούµενων ασκήσεων:  να κατασκευαστεί µια αλυσίδ...
Αλυσίδα Markov
Κρυµµένο Μοντέλο Markov –Hidden Markov Model
Τέλος µαθήµατοςΤι πρέπει να θυµάστε:  Λεξικολογικές πιθανότητες  Πιθανότητες δίγραµµων (bi-grams)  Μοντέλο Markov
Upcoming SlideShare
Loading in …5
×

HMM Part-Of-Speech Tagging - Natural Language Processing

400 views
370 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
400
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

HMM Part-Of-Speech Tagging - Natural Language Processing

  1. 1. Προχωρηµένα Θέµατα ΓλωσσικήςΤεχνολογίαςPart Of Speech Tagging Hidden Markov ModelΙόνιο Πανεπιστήµιο, Μεταπτυχιακό ΠληροφορικήςΒασίλειος Κοµιανός – Σοφία ΦαναριώτηΝοέµβριος 2011
  2. 2. Κατηγορίες αλγόριθµων POStagging Βασισµένοι σε κανόνες Στοχαστικοί (HMM) Συνδυασµοί των δύο παραπάνω (Brill)
  3. 3. Αλγόριθµοι βασισµένοι σεκανόνεςΕργάζονται σε δυο φάσεις:1. Αποδίδονται στην λέξη πιθανά POS tags µε χρήση λεξικού.2. Αν υπάρχουν περισσότερα του ενός tags ακολουθούνται κανόνες.
  4. 4. Στοχαστικά µοντέλαΤα στοχαστικά µοντέλα µαθαίνουν µέσωπαραδειγµάτων εκµάθησης. Πρόκειται γιασώµατα κειµένου, corpus, στα οποία οι λέξειςέχουν επισηµανθεί χειρωνακτικά. Όταν εισάγεταικείµενο για POS tagging συγκρίνεται µε τα όσατο µοντέλο έχει µάθει και γίνεται η απόδοση.
  5. 5. Hidden Markov ModelΟ αλγόριθµος αυτός αναζητά ποιά σειρά από POS tagsταιριάζει καλύτερα µε την σειρά των λέξεων που τουδόθηκαν. Η λειτουργία του βασίζεται σε δύο χαρακτηριστικά: Το περιορισµένο εύρος εξάρτησης (limited horizon) και Την στατικότητα των αποδοθέντων POS tags (time invariant)
  6. 6. Hidden Markov Model Το εύρος εξάρτησης (limited horizon): καθορίζει τον αριθµό των προηγούµενων λέξεων που λαµβάνονται υπόψη για την εύρεση του POS. Bi-gram: λαµβάνει υπόψη µόνο την προηγούµενη λέξη (wordn-1) Tri-gram: λαµβάνει υπόψη τις δύο προηγούµενες λέξεις. Στατικότητα αποδοθέντων POS tags σηµαίνει ότι τα αποδοθέντα tags δεν γίνεται να αλλάξουν καθώς η διαδικασία προχωράει.
  7. 7. Λειτουργία ΗΜΜ καιλεξικολογικές πιθανότητεςΕξετάζονται τα παραδείγµατα εκµάθησης καιυπολογίζονται οι πιθανότητες εµφάνισης: για κάθε µέρος του λόγου π.χ. P(article), για κάθε ξεχωριστή λέξη που βρέθηκε, P(the), των µερών του λόγου για κάθε λέξηP(the|article).
  8. 8. Λειτουργία ΗΜΜ και πιθανότητεςbi-gramsΩς bi-gram ορίζεται η ακολουθία δύο λέξεων, δενµας ενδιαφέρουν οι λέξεις αλλά το µέρος τουλόγου µε το οποίο παρουσιάζονται καιυπολογίζονται οι πιθανότητες εµφάνισης τους σταπαραδείγµατα εκµάθησης.∆ηλαδή για το bi-gram Article – Noun έχουµεP(N|ART).
  9. 9. Λειτουργία HMM, εξέταση τωνπιθανών συνδυασµών του προςεπισήµανση κειµένουΓια το τµήµα κειµένου που εξετάζουµε και σε ότιαφορά τα µέρη του λόγου, µελετούµε όλους τουςπιθανούς συνδυασµούς τόσο για τις λεξικολογικέςπιθανότητες όσο και για τις bi-grams. Οσυνδυασµός µε τη µεγαλύτερη πιθανότηταθεωρείται σωστός.
  10. 10. Σχεδίαση Μοντέλων MarkovΤα µοντέλα Markov βρίσκουν εφαρµογή στην απεικόνισητων bi-grams. Κάθε κατάσταση (POS) αναπαρίσταται µε ένα κόµβοκαι συνδέεται µε κατευθυντική σχέση µε τις καταστάσειςόπου βρέθηκε να γειτνιάζει (αυτές που έπονται), κάθε σχέση έχει ως ιδιότητα την πιθανότητα µετάβασηςαπό την µια κατάσταση στην άλλη. Το άθροισµα των εξερχόµενων πιθανοτήτων από µιακατάσταση είναι ίσο µε 1.
  11. 11. Άσκηση 1 – Λεξικολογικέςπιθανότητες Με βάση τον ακόλουθο πίνακα να εξαχθούν οι πιθανότητες Ν V ART P TOTALflies 21 23 0 0 44fruit 49 5 1 0 55like 10 30 0 21 61a 1 0 201 0 202the 1 0 300 2 303flower 53 15 0 0 68flowers 42 16 0 0 58birds 64 1 0 0 65Other words 592 210 56 284 1142TOTAL 833 300 558 307 1998
  12. 12. Άσκηση 1 – ΛεξικολογικέςπιθανότητεςP(ART) = 558/1998 = 0.28, P(the) = 303/1998 = 0.15,P(ART|the) = 300/303 = 0.99, P(the|ART) = 300/558 = 0.54, …,…,P(flies|N) = 21/833 = 0.025,P(like|V) = 30/300 = 0.1,P(like|P) = 21/307 = 0.06,P(a|ART) = 201/558 = 0.36,P(flower|N) = 53/833 = 0.06,…
  13. 13. Άσκηση 2 – πιθανότητες bi-gramsΜε βάση τον ακόλουθο πίνακα να υπολογιστούν οι πιθανότητες bi-grams P(Ci|Ci-1):Category Count at i Pair Count at i,i+1Ø 300 Ø, ART 213Ø 300 Ø, N 87ART 558 ART, N 558N 833 N, V 358N 833 N, N 108N 833 N, P 366V 300 V, N 75V 300 V, ART 194P 307 P, ART 226P 307 P, N 81
  14. 14. Άσκηση 2- Πιθανότητες bigramsPair ΠιθανότηταØ,ART P(ART|Ø) = 213/300 = 0.71Ø,N P(N|Ø) = 87/300 = 0.29ART,N P(N|ART) = 558/558 = 1Ν,V P(V|N) = 358/833 = 0.43N,P P(P|N) = 366/833 = 0.44V,ART P(ART|V) = 194/300 = 0.65P,ART P(ART|P) = 226/307 = 0.74...
  15. 15. Άσκηση 3 – εξέταση των πιθανώνσυνδυασµών Θεωρούµε τις µετρήσεις των ασκήσεων 1 και 2 Να υπολογιστεί η πιο πιθανή λύση POS Tagging για την πρόταση “Flies like a flower”. Να γίνει χρήση του µοντέλου bi-grams µε λεξικολογικές πιθανότητες, στα bi-grams που δεν υπάρχουν µετρήσεις να αποδοθεί τιµή 0.0001.
  16. 16. Άσκηση 3 – εξέταση των πιθανώνσυνδυασµώνΑν υπάρχουν wn λέξεις και κάθε λέξη έχει C κατηγορίες, οιπιθανοί συνδυασµοί είναιw1C * w2C *… * wnCFlies like a flowerN N ART NV V V PΑριθµός συνδυασµών 12
  17. 17. Άσκηση 3 – εξέταση των πιθανώνσυνδυασµών bi-gramsFlies like a flowerΝ V ART NP(N|Ø) * P(V|N) * P(ART|V) * P(N|ART)0.29 0.43 0.65 1 = 0.081..N P ART NP(N|Ø) * P(P|N) * P(ART|P) * P(N|ART)0.29 0.44 0.74 1 = 0.094..
  18. 18. Άσκηση 3 – εξέταση τωνλεξικολογικών πιθανοτήτωνFlies like a flowerΝ V ART NP(flies|N) * P(like|V) * P(a|ART) * P(flower|N)0.025 0.1 0.36 0.063=0.0000567..N P ART NP(flies|N) * P(like|P) * P(a|ART) * P(flower|N)0.025 0.068 0.36 0.063=0.0000385..
  19. 19. Άσκηση 3 – πιθανότητες τωνσυνδυασµών των bi-grams και τωνλεξικολογικών πιθανοτήτωνFlies like a flowerN V ART N -> 0.081 * 0.0000567 =N P ART N -> 0.094 * 0.0000385 =N V ART N = 0.000004592N P ART N = 0.000003619N V ART N > N P ART NΕπιλέγεται ο συνδυασµός µε την µεγαλύτερη πιθανότητα.
  20. 20. Άσκηση 4 – αλυσίδα Markov καικρυµµένο µοντέλο MarkovΜε τα δεδοµένα των προηγούµενων ασκήσεων: να κατασκευαστεί µια αλυσίδα Markov, ένα κρυµµένο µοντέλο Markov και να υπολογιστεί η πιθανότητα του συνδυασµού N V ART N για την πρόταση “Flies like a flower”.
  21. 21. Αλυσίδα Markov
  22. 22. Κρυµµένο Μοντέλο Markov –Hidden Markov Model
  23. 23. Τέλος µαθήµατοςΤι πρέπει να θυµάστε: Λεξικολογικές πιθανότητες Πιθανότητες δίγραµµων (bi-grams) Μοντέλο Markov

×