Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Ουζούνης Γεώργιος

129 views

Published on

Εξατομικευμένη Αυτόματη Αναγνώριση Φωνής

Published in: Software
  • Be the first to comment

  • Be the first to like this

Ουζούνης Γεώργιος

  1. 1. Εξατομικευμένη Αυτόματη Αναγνώριση Φωνής Ουζούνης Γεώργιος Επιβλέποντες: Συμεωνίδης Ανδρέας Τσαρδούλιας Εμμανουήλ Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εργαστήριο Επεξεργασίας της Πληροφορίας και Υπολογισμών 4 Νοεμβρίου 2016 Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 1 / 29
  2. 2. Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 2 / 29
  3. 3. Αυτόματη αναγνώριση φωνής Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 3 / 29
  4. 4. Αυτόματη αναγνώριση φωνής Τι είναι Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 4 / 29
  5. 5. Αυτόματη αναγνώριση φωνής Τι είναι Είναι η διαδικασία κατανόησης της ανθρώπινης φωνής από ηλεκτρονικά συστήματα. Βήματα διαδικασίας Εξαγωγή χαρακτηριστικών από το ηχητικό σήμα. Εύρεση παύσεων της ομιλίας. Αντιστοίχιση των επιμέρους τμημάτων σε ακολουθίες λέξεων. Επιλογή του πιθανότερου συνδυασμού βάσει στατιστικών ή/και άλλων μοντέλων. Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 5 / 29
  6. 6. Αυτόματη αναγνώριση φωνής Εφαρμογές Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 6 / 29
  7. 7. Αυτόματη αναγνώριση φωνής Εφαρμογές Ιατρική Εκτενής καταγραφή συμβάντων. Συμπλήρωση φόρμας ασθενούς. Καθοδήγηση ρομποτικών συστημάτων. Συστήματα αυτοκινήτων Σχεδιασμός πορείας (δήλωση τελικού προορισμού, στάσεων, κτλ...). Διαχείριση εισερχόμενων/εξερχόμενων κλήσεων κατά την οδήγηση. Αναζήτηση σε χάρτες για σταθμούς ανεφοδιασμού, ξενοδοχεία, κτλ... Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 7 / 29
  8. 8. Αυτόματη αναγνώριση φωνής Εφαρμογές ΄Αλλα Αυτόματη μετάφραση σε διεθνή συνέδρεια, πανεπιστήμια, κτλ... Χρήση από ανθρώπους με προβλήματα ακοής σε διαλέξεις, εκδηλώσεις, κτλ... Internet of Things: Διαχείριση οικειακών συσκευών. Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 8 / 29
  9. 9. Αυτόματη αναγνώριση φωνής Διαθέσιμα εργαλεία Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 9 / 29
  10. 10. Αυτόματη αναγνώριση φωνής Διαθέσιμα εργαλεία Για τους χρήστες Intelligent personal assistants: Siri, Cortana, Google Voice, MLS IQTalk. Desktop εφαρμογές για δημιουργία εγγράφων, e-mail, καταγραφή σημειώσεων κ.α. μέσω της φωνής. Για τους προγραμματιστές Ελεύθερο ή εμπορικό λογισμικό για αυτόματη αναγνώριση φωνής: CMU Sphinx, HTK, Kaldi. APIs: Google Cloud Speech, Cortana, Siri. Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 10 / 29
  11. 11. Η εφαρμογή Ε.Α.Α.Φ. Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 11 / 29
  12. 12. Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 12 / 29
  13. 13. Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Εφαρμογή για τη συγγραφή e-mail στην αγγλική γλώσσα με υπαγόρευση. CMU Sphinx για την υλοποίηση της αυτόματης αναγνώρισης φωνής. Επεξεργασία του αποτελέσματος και διόρθωση βάσει των e-mail του χρήστη. Επιπλέον... Δυνατότητα προσαρμογής στη φωνή και το ηχητικό περιβάλλον του χρήστη βάσει ηχογραφήσεων. Ομαδοποίηση e-mail ανά θεματικές ενότητες. Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 13 / 29
  14. 14. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 14 / 29
  15. 15. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 15 / 29
  16. 16. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 16 / 29
  17. 17. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Controller Αναλαμβάνει την ενορχήστρωση και τη συνεργασία των επιμέρους τμημάτων. Επικοινωνεί με τον πάροχο των μηνυμάτων ηλεκτρονικού ταχυδρομείου. Επικοινωνεί με τη βάση δεδομένων για την αποθήκευση και την ανάκτηση δεδομένων. Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 17 / 29
  18. 18. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 18 / 29
  19. 19. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Database Αποθηκεύει και ανακτά τα μοντέλα της εφαρμογής. Διατηρεί τα δείγματα φωνής του χρήστη. Προσαρμόζει τα μοντέλα του CMU Sphinx στη φωνή του χρήστη. Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 19 / 29
  20. 20. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 20 / 29
  21. 21. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα CMU Sphinx Υλοποιεί την αναγνώριση φωνής. Παραμετροποίηση Ακουστικό μοντέλο (acoustic model) Γλωσσικό μοντέλο (language model) Λεξικό (dictionary) Δυνατότητα προσαρμογής του ακουστικού μοντέλου χρησιμοποιώντας ηχογραφήσεις. Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 21 / 29
  22. 22. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Pre-processing Στάδιο δημιουργίας των μοντέλων του CMU Sphinx. Δημιουργία γλωσσικού μοντέλου με βάση τα e-mails του χρήστη. Δημιουργία λεξικού με βάση το γλωσσικό μοντέλο. Προσαρμογή του υπάρχοντος ακουστικού μοντέλου. Αποθήκευση των παραπάνω για μελλοντική χρήση. Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 22 / 29
  23. 23. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Post-processing Στάδιο επεξεργασίας της εξόδου του CMU Sphinx. Διαδικασία διόρθωσης πρότασης Εύρεση πιθανώς εσφαλμένων λέξεων. Εύρεση πιθανών αντικαστατών για κάθε εσφαλμένη λέξη. Βαθμολόγιση και επιλογή αντικαταστάτη. Μετρικές ομοιότητας Απόσταση Levenshtein Fuzzy matching Part of speech tagging Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 23 / 29
  24. 24. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 24 / 29
  25. 25. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29
  26. 26. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29
  27. 27. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29
  28. 28. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29
  29. 29. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29
  30. 30. Πειράματα Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 26 / 29
  31. 31. Πειράματα Ακρίβεια Σετ δεδομένων 1000 προτάσεων Προσαρμογή Word Accuracy ASR Post-processing 0% 0.22% 27.91% 0% 1 26.49% 59.14% 10% 60.67% 83.13% 20% 62.81% 84.77% 50% 66.36% 87.34% 75% 67.84% 88.15% 100% 68.85% 88.83% 1 custom language model Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 27 / 29
  32. 32. Σύνοψη Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 28 / 29
  33. 33. Σύνοψη Personalized Automatic Speech Recognition Υλοποίηση Δημιουργία εφαρμογής για συγγραφή e-mails στην Αγγλική με υπαγόρευση. Εργαλεία - Τεχνικές CMU Sphinx για αυτόματη αναγνώριση φωνής. Post-processing για βελτίωση των αποτελεσμάτων. Αποτελέσματα Αποτελέσματα της τάξης του 80% με προσαρμογή του ακουστικού μοντέλου. Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 29 / 29

×