Ουζούνης Γεώργιος

ISSEL
ISSELISSEL
Εξατομικευμένη Αυτόματη Αναγνώριση Φωνής
Ουζούνης Γεώργιος
Επιβλέποντες:
Συμεωνίδης Ανδρέας
Τσαρδούλιας Εμμανουήλ
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Πολυτεχνική Σχολή
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Εργαστήριο Επεξεργασίας της Πληροφορίας και Υπολογισμών
4 Νοεμβρίου 2016
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 1 / 29
Περιεχόμενα
1 Αυτόματη αναγνώριση φωνής
Τι είναι
Εφαρμογές
Διαθέσιμα εργαλεία
2 Η εφαρμογή Ε.Α.Α.Φ.
Γενική περιγραφή
Επιμέρους τμήματα
Controller
Database
Model
GUI
3 Πειράματα
4 Σύνοψη
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 2 / 29
Αυτόματη αναγνώριση φωνής
Περιεχόμενα
1 Αυτόματη αναγνώριση φωνής
Τι είναι
Εφαρμογές
Διαθέσιμα εργαλεία
2 Η εφαρμογή Ε.Α.Α.Φ.
Γενική περιγραφή
Επιμέρους τμήματα
Controller
Database
Model
GUI
3 Πειράματα
4 Σύνοψη
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 3 / 29
Αυτόματη αναγνώριση φωνής Τι είναι
Περιεχόμενα
1 Αυτόματη αναγνώριση φωνής
Τι είναι
Εφαρμογές
Διαθέσιμα εργαλεία
2 Η εφαρμογή Ε.Α.Α.Φ.
Γενική περιγραφή
Επιμέρους τμήματα
Controller
Database
Model
GUI
3 Πειράματα
4 Σύνοψη
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 4 / 29
Αυτόματη αναγνώριση φωνής Τι είναι
Είναι η διαδικασία κατανόησης της ανθρώπινης φωνής
από ηλεκτρονικά συστήματα.
Βήματα διαδικασίας
Εξαγωγή χαρακτηριστικών από το ηχητικό σήμα.
Εύρεση παύσεων της ομιλίας.
Αντιστοίχιση των επιμέρους τμημάτων σε
ακολουθίες λέξεων.
Επιλογή του πιθανότερου συνδυασμού βάσει
στατιστικών ή/και άλλων μοντέλων.
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 5 / 29
Αυτόματη αναγνώριση φωνής Εφαρμογές
Περιεχόμενα
1 Αυτόματη αναγνώριση φωνής
Τι είναι
Εφαρμογές
Διαθέσιμα εργαλεία
2 Η εφαρμογή Ε.Α.Α.Φ.
Γενική περιγραφή
Επιμέρους τμήματα
Controller
Database
Model
GUI
3 Πειράματα
4 Σύνοψη
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 6 / 29
Αυτόματη αναγνώριση φωνής Εφαρμογές
Ιατρική
Εκτενής καταγραφή συμβάντων.
Συμπλήρωση φόρμας ασθενούς.
Καθοδήγηση ρομποτικών συστημάτων.
Συστήματα αυτοκινήτων
Σχεδιασμός πορείας (δήλωση τελικού προορισμού,
στάσεων, κτλ...).
Διαχείριση εισερχόμενων/εξερχόμενων κλήσεων
κατά την οδήγηση.
Αναζήτηση σε χάρτες για σταθμούς
ανεφοδιασμού, ξενοδοχεία, κτλ...
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 7 / 29
Αυτόματη αναγνώριση φωνής Εφαρμογές
΄Αλλα
Αυτόματη μετάφραση σε διεθνή συνέδρεια,
πανεπιστήμια, κτλ...
Χρήση από ανθρώπους με προβλήματα ακοής σε
διαλέξεις, εκδηλώσεις, κτλ...
Internet of Things: Διαχείριση οικειακών
συσκευών.
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 8 / 29
Αυτόματη αναγνώριση φωνής Διαθέσιμα εργαλεία
Περιεχόμενα
1 Αυτόματη αναγνώριση φωνής
Τι είναι
Εφαρμογές
Διαθέσιμα εργαλεία
2 Η εφαρμογή Ε.Α.Α.Φ.
Γενική περιγραφή
Επιμέρους τμήματα
Controller
Database
Model
GUI
3 Πειράματα
4 Σύνοψη
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 9 / 29
Αυτόματη αναγνώριση φωνής Διαθέσιμα εργαλεία
Για τους χρήστες
Intelligent personal assistants: Siri, Cortana, Google
Voice, MLS IQTalk.
Desktop εφαρμογές για δημιουργία εγγράφων,
e-mail, καταγραφή σημειώσεων κ.α. μέσω της
φωνής.
Για τους προγραμματιστές
Ελεύθερο ή εμπορικό λογισμικό για αυτόματη
αναγνώριση φωνής: CMU Sphinx, HTK, Kaldi.
APIs: Google Cloud Speech, Cortana, Siri.
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 10 / 29
Η εφαρμογή Ε.Α.Α.Φ.
Περιεχόμενα
1 Αυτόματη αναγνώριση φωνής
Τι είναι
Εφαρμογές
Διαθέσιμα εργαλεία
2 Η εφαρμογή Ε.Α.Α.Φ.
Γενική περιγραφή
Επιμέρους τμήματα
Controller
Database
Model
GUI
3 Πειράματα
4 Σύνοψη
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 11 / 29
Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή
Περιεχόμενα
1 Αυτόματη αναγνώριση φωνής
Τι είναι
Εφαρμογές
Διαθέσιμα εργαλεία
2 Η εφαρμογή Ε.Α.Α.Φ.
Γενική περιγραφή
Επιμέρους τμήματα
Controller
Database
Model
GUI
3 Πειράματα
4 Σύνοψη
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 12 / 29
Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή
Εφαρμογή για τη συγγραφή e-mail στην αγγλική
γλώσσα με υπαγόρευση.
CMU Sphinx για την υλοποίηση της αυτόματης
αναγνώρισης φωνής.
Επεξεργασία του αποτελέσματος και διόρθωση
βάσει των e-mail του χρήστη.
Επιπλέον...
Δυνατότητα προσαρμογής στη φωνή και το ηχητικό
περιβάλλον του χρήστη βάσει ηχογραφήσεων.
Ομαδοποίηση e-mail ανά θεματικές ενότητες.
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 13 / 29
Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα
Περιεχόμενα
1 Αυτόματη αναγνώριση φωνής
Τι είναι
Εφαρμογές
Διαθέσιμα εργαλεία
2 Η εφαρμογή Ε.Α.Α.Φ.
Γενική περιγραφή
Επιμέρους τμήματα
Controller
Database
Model
GUI
3 Πειράματα
4 Σύνοψη
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 14 / 29
Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 15 / 29
Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα
Περιεχόμενα
1 Αυτόματη αναγνώριση φωνής
Τι είναι
Εφαρμογές
Διαθέσιμα εργαλεία
2 Η εφαρμογή Ε.Α.Α.Φ.
Γενική περιγραφή
Επιμέρους τμήματα
Controller
Database
Model
GUI
3 Πειράματα
4 Σύνοψη
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 16 / 29
Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα
Controller
Αναλαμβάνει την ενορχήστρωση και τη συνεργασία
των επιμέρους τμημάτων.
Επικοινωνεί με τον πάροχο των μηνυμάτων
ηλεκτρονικού ταχυδρομείου.
Επικοινωνεί με τη βάση δεδομένων για την
αποθήκευση και την ανάκτηση δεδομένων.
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 17 / 29
Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα
Περιεχόμενα
1 Αυτόματη αναγνώριση φωνής
Τι είναι
Εφαρμογές
Διαθέσιμα εργαλεία
2 Η εφαρμογή Ε.Α.Α.Φ.
Γενική περιγραφή
Επιμέρους τμήματα
Controller
Database
Model
GUI
3 Πειράματα
4 Σύνοψη
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 18 / 29
Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα
Database
Αποθηκεύει και ανακτά τα μοντέλα της εφαρμογής.
Διατηρεί τα δείγματα φωνής του χρήστη.
Προσαρμόζει τα μοντέλα του CMU Sphinx στη
φωνή του χρήστη.
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 19 / 29
Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα
Περιεχόμενα
1 Αυτόματη αναγνώριση φωνής
Τι είναι
Εφαρμογές
Διαθέσιμα εργαλεία
2 Η εφαρμογή Ε.Α.Α.Φ.
Γενική περιγραφή
Επιμέρους τμήματα
Controller
Database
Model
GUI
3 Πειράματα
4 Σύνοψη
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 20 / 29
Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα
CMU Sphinx
Υλοποιεί την αναγνώριση φωνής.
Παραμετροποίηση
Ακουστικό μοντέλο (acoustic model)
Γλωσσικό μοντέλο (language model)
Λεξικό (dictionary)
Δυνατότητα προσαρμογής του ακουστικού μοντέλου
χρησιμοποιώντας ηχογραφήσεις.
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 21 / 29
Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα
Pre-processing
Στάδιο δημιουργίας των μοντέλων του CMU Sphinx.
Δημιουργία γλωσσικού μοντέλου με βάση τα
e-mails του χρήστη.
Δημιουργία λεξικού με βάση το γλωσσικό μοντέλο.
Προσαρμογή του υπάρχοντος ακουστικού
μοντέλου.
Αποθήκευση των παραπάνω για μελλοντική χρήση.
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 22 / 29
Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα
Post-processing
Στάδιο επεξεργασίας της εξόδου του CMU Sphinx.
Διαδικασία διόρθωσης πρότασης
Εύρεση πιθανώς εσφαλμένων λέξεων.
Εύρεση πιθανών αντικαστατών για κάθε
εσφαλμένη λέξη.
Βαθμολόγιση και επιλογή αντικαταστάτη.
Μετρικές ομοιότητας
Απόσταση Levenshtein
Fuzzy matching
Part of speech tagging
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 23 / 29
Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα
Περιεχόμενα
1 Αυτόματη αναγνώριση φωνής
Τι είναι
Εφαρμογές
Διαθέσιμα εργαλεία
2 Η εφαρμογή Ε.Α.Α.Φ.
Γενική περιγραφή
Επιμέρους τμήματα
Controller
Database
Model
GUI
3 Πειράματα
4 Σύνοψη
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 24 / 29
Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29
Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29
Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29
Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29
Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29
Πειράματα
Περιεχόμενα
1 Αυτόματη αναγνώριση φωνής
Τι είναι
Εφαρμογές
Διαθέσιμα εργαλεία
2 Η εφαρμογή Ε.Α.Α.Φ.
Γενική περιγραφή
Επιμέρους τμήματα
Controller
Database
Model
GUI
3 Πειράματα
4 Σύνοψη
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 26 / 29
Πειράματα
Ακρίβεια
Σετ δεδομένων 1000 προτάσεων
Προσαρμογή
Word Accuracy
ASR Post-processing
0% 0.22% 27.91%
0% 1
26.49% 59.14%
10% 60.67% 83.13%
20% 62.81% 84.77%
50% 66.36% 87.34%
75% 67.84% 88.15%
100% 68.85% 88.83%
1
custom language model
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 27 / 29
Σύνοψη
Περιεχόμενα
1 Αυτόματη αναγνώριση φωνής
Τι είναι
Εφαρμογές
Διαθέσιμα εργαλεία
2 Η εφαρμογή Ε.Α.Α.Φ.
Γενική περιγραφή
Επιμέρους τμήματα
Controller
Database
Model
GUI
3 Πειράματα
4 Σύνοψη
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 28 / 29
Σύνοψη
Personalized Automatic Speech Recognition
Υλοποίηση
Δημιουργία εφαρμογής για συγγραφή e-mails στην
Αγγλική με υπαγόρευση.
Εργαλεία - Τεχνικές
CMU Sphinx για αυτόματη αναγνώριση φωνής.
Post-processing για βελτίωση των αποτελεσμάτων.
Αποτελέσματα
Αποτελέσματα της τάξης του 80% με προσαρμογή
του ακουστικού μοντέλου.
Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 29 / 29
1 of 33

Recommended

Μιλτιάδης Σιάββας 7523 by
Μιλτιάδης Σιάββας 7523Μιλτιάδης Σιάββας 7523
Μιλτιάδης Σιάββας 7523ISSEL
205 views38 slides
Αλεξάνδρα Μπαλτζή 7485 by
Αλεξάνδρα Μπαλτζή 7485Αλεξάνδρα Μπαλτζή 7485
Αλεξάνδρα Μπαλτζή 7485ISSEL
194 views32 slides
Κρασανάκης Εμμανουήλ by
Κρασανάκης ΕμμανουήλΚρασανάκης Εμμανουήλ
Κρασανάκης ΕμμανουήλISSEL
158 views30 slides
Δούμας Οδυσσέας 7168 by
Δούμας Οδυσσέας 7168Δούμας Οδυσσέας 7168
Δούμας Οδυσσέας 7168ISSEL
239 views23 slides
Βασίλειος Λώλης 5638 by
Βασίλειος Λώλης 5638Βασίλειος Λώλης 5638
Βασίλειος Λώλης 5638ISSEL
165 views18 slides
Λυκάρτσης Ιωάννης by
Λυκάρτσης ΙωάννηςΛυκάρτσης Ιωάννης
Λυκάρτσης ΙωάννηςISSEL
206 views35 slides

More Related Content

More from ISSEL

Camera-based localization of annotated objects in indoor environments by
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsISSEL
12 views38 slides
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ... by
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...ISSEL
6 views38 slides
Design and implementation of an automation mechanism to automatically develop... by
Design and implementation of an automation mechanism to automatically develop...Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...ISSEL
4 views17 slides
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ... by
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ISSEL
6 views17 slides
Static Analysis of Python code and Identification of Potential Security Vulne... by
Static Analysis of Python code and Identification of Potential Security Vulne...Static Analysis of Python code and Identification of Potential Security Vulne...
Static Analysis of Python code and Identification of Potential Security Vulne...ISSEL
8 views16 slides
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ... by
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...ISSEL
26 views27 slides

More from ISSEL(20)

Camera-based localization of annotated objects in indoor environments by ISSEL
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environments
ISSEL12 views
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ... by ISSEL
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
ISSEL6 views
Design and implementation of an automation mechanism to automatically develop... by ISSEL
Design and implementation of an automation mechanism to automatically develop...Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...
ISSEL4 views
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ... by ISSEL
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ISSEL6 views
Static Analysis of Python code and Identification of Potential Security Vulne... by ISSEL
Static Analysis of Python code and Identification of Potential Security Vulne...Static Analysis of Python code and Identification of Potential Security Vulne...
Static Analysis of Python code and Identification of Potential Security Vulne...
ISSEL8 views
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ... by ISSEL
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
ISSEL26 views
Design and Development of an Authorization and Access Control Mechanism for C... by ISSEL
Design and Development of an Authorization and Access Control Mechanism for C...Design and Development of an Authorization and Access Control Mechanism for C...
Design and Development of an Authorization and Access Control Mechanism for C...
ISSEL13 views
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο... by ISSEL
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...
ISSEL19 views
Analysis and profiling of developer profiles using data mining techniques fro... by ISSEL
Analysis and profiling of developer profiles using data mining techniques fro...Analysis and profiling of developer profiles using data mining techniques fro...
Analysis and profiling of developer profiles using data mining techniques fro...
ISSEL3 views
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση... by ISSEL
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...
ISSEL8 views
TOWARDS AN AUTOMATED SOURCE CODE FORMATTING SYSTEM by ISSEL
TOWARDS AN AUTOMATED SOURCE CODE FORMATTING SYSTEMTOWARDS AN AUTOMATED SOURCE CODE FORMATTING SYSTEM
TOWARDS AN AUTOMATED SOURCE CODE FORMATTING SYSTEM
ISSEL3 views
ΔΗΜΙΟΥΡΓΙΑ ΣΥΣΤΗΜΑΤΟΣ ΓΙΑ ΤΗΝ ΠΑΡΟΧΗ ΠΡΟΤΑΣΕΩΝ ΒΕΛΤΙΩΣΗΣ ΤΗΣ ΜΟΡΦΟΠΟΙΗΣΗΣ ΠΗΓ... by ISSEL
ΔΗΜΙΟΥΡΓΙΑ ΣΥΣΤΗΜΑΤΟΣ ΓΙΑ ΤΗΝ ΠΑΡΟΧΗ ΠΡΟΤΑΣΕΩΝ ΒΕΛΤΙΩΣΗΣ ΤΗΣ ΜΟΡΦΟΠΟΙΗΣΗΣ ΠΗΓ...ΔΗΜΙΟΥΡΓΙΑ ΣΥΣΤΗΜΑΤΟΣ ΓΙΑ ΤΗΝ ΠΑΡΟΧΗ ΠΡΟΤΑΣΕΩΝ ΒΕΛΤΙΩΣΗΣ ΤΗΣ ΜΟΡΦΟΠΟΙΗΣΗΣ ΠΗΓ...
ΔΗΜΙΟΥΡΓΙΑ ΣΥΣΤΗΜΑΤΟΣ ΓΙΑ ΤΗΝ ΠΑΡΟΧΗ ΠΡΟΤΑΣΕΩΝ ΒΕΛΤΙΩΣΗΣ ΤΗΣ ΜΟΡΦΟΠΟΙΗΣΗΣ ΠΗΓ...
ISSEL11 views
System Development for Prediction of Static Analysis Metrics of Source Code by ISSEL
System Development for Prediction of Static Analysis Metrics of Source CodeSystem Development for Prediction of Static Analysis Metrics of Source Code
System Development for Prediction of Static Analysis Metrics of Source Code
ISSEL6 views
Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ... by ISSEL
Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...
Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...
ISSEL11 views
Micro Front-ends and Microservices Architecture in Web Application Development by ISSEL
Micro Front-ends and Microservices Architecture in Web Application DevelopmentMicro Front-ends and Microservices Architecture in Web Application Development
Micro Front-ends and Microservices Architecture in Web Application Development
ISSEL8 views
Η αρχιτεκτονική των Microservices και Micro Front-ends στην Ανάπτυξη Εφαρµογώ... by ISSEL
Η αρχιτεκτονική των Microservices και Micro Front-ends στην Ανάπτυξη Εφαρµογώ...Η αρχιτεκτονική των Microservices και Micro Front-ends στην Ανάπτυξη Εφαρµογώ...
Η αρχιτεκτονική των Microservices και Micro Front-ends στην Ανάπτυξη Εφαρµογώ...
ISSEL19 views
Indoor localization using wireless networks by ISSEL
Indoor localization using wireless networksIndoor localization using wireless networks
Indoor localization using wireless networks
ISSEL5 views
Εντοπισμός θέσης σε εσωτερικούς χώρους με χρήση ασύρματων δικτύων by ISSEL
Εντοπισμός θέσης σε εσωτερικούς χώρους με χρήση ασύρματων δικτύωνΕντοπισμός θέσης σε εσωτερικούς χώρους με χρήση ασύρματων δικτύων
Εντοπισμός θέσης σε εσωτερικούς χώρους με χρήση ασύρματων δικτύων
ISSEL10 views
Design and implementation of a big data architecture for storage, real-time p... by ISSEL
Design and implementation of a big data architecture for storage, real-time p...Design and implementation of a big data architecture for storage, real-time p...
Design and implementation of a big data architecture for storage, real-time p...
ISSEL9 views
Σχεδιασµός και υλοποίηση µιας αρχιτεκτονικής µεγάλων δεδοµένων για την αποθήκ... by ISSEL
Σχεδιασµός και υλοποίηση µιας αρχιτεκτονικής µεγάλων δεδοµένων για την αποθήκ...Σχεδιασµός και υλοποίηση µιας αρχιτεκτονικής µεγάλων δεδοµένων για την αποθήκ...
Σχεδιασµός και υλοποίηση µιας αρχιτεκτονικής µεγάλων δεδοµένων για την αποθήκ...
ISSEL16 views

Ουζούνης Γεώργιος

  • 1. Εξατομικευμένη Αυτόματη Αναγνώριση Φωνής Ουζούνης Γεώργιος Επιβλέποντες: Συμεωνίδης Ανδρέας Τσαρδούλιας Εμμανουήλ Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εργαστήριο Επεξεργασίας της Πληροφορίας και Υπολογισμών 4 Νοεμβρίου 2016 Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 1 / 29
  • 2. Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 2 / 29
  • 3. Αυτόματη αναγνώριση φωνής Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 3 / 29
  • 4. Αυτόματη αναγνώριση φωνής Τι είναι Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 4 / 29
  • 5. Αυτόματη αναγνώριση φωνής Τι είναι Είναι η διαδικασία κατανόησης της ανθρώπινης φωνής από ηλεκτρονικά συστήματα. Βήματα διαδικασίας Εξαγωγή χαρακτηριστικών από το ηχητικό σήμα. Εύρεση παύσεων της ομιλίας. Αντιστοίχιση των επιμέρους τμημάτων σε ακολουθίες λέξεων. Επιλογή του πιθανότερου συνδυασμού βάσει στατιστικών ή/και άλλων μοντέλων. Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 5 / 29
  • 6. Αυτόματη αναγνώριση φωνής Εφαρμογές Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 6 / 29
  • 7. Αυτόματη αναγνώριση φωνής Εφαρμογές Ιατρική Εκτενής καταγραφή συμβάντων. Συμπλήρωση φόρμας ασθενούς. Καθοδήγηση ρομποτικών συστημάτων. Συστήματα αυτοκινήτων Σχεδιασμός πορείας (δήλωση τελικού προορισμού, στάσεων, κτλ...). Διαχείριση εισερχόμενων/εξερχόμενων κλήσεων κατά την οδήγηση. Αναζήτηση σε χάρτες για σταθμούς ανεφοδιασμού, ξενοδοχεία, κτλ... Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 7 / 29
  • 8. Αυτόματη αναγνώριση φωνής Εφαρμογές ΄Αλλα Αυτόματη μετάφραση σε διεθνή συνέδρεια, πανεπιστήμια, κτλ... Χρήση από ανθρώπους με προβλήματα ακοής σε διαλέξεις, εκδηλώσεις, κτλ... Internet of Things: Διαχείριση οικειακών συσκευών. Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 8 / 29
  • 9. Αυτόματη αναγνώριση φωνής Διαθέσιμα εργαλεία Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 9 / 29
  • 10. Αυτόματη αναγνώριση φωνής Διαθέσιμα εργαλεία Για τους χρήστες Intelligent personal assistants: Siri, Cortana, Google Voice, MLS IQTalk. Desktop εφαρμογές για δημιουργία εγγράφων, e-mail, καταγραφή σημειώσεων κ.α. μέσω της φωνής. Για τους προγραμματιστές Ελεύθερο ή εμπορικό λογισμικό για αυτόματη αναγνώριση φωνής: CMU Sphinx, HTK, Kaldi. APIs: Google Cloud Speech, Cortana, Siri. Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 10 / 29
  • 11. Η εφαρμογή Ε.Α.Α.Φ. Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 11 / 29
  • 12. Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 12 / 29
  • 13. Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Εφαρμογή για τη συγγραφή e-mail στην αγγλική γλώσσα με υπαγόρευση. CMU Sphinx για την υλοποίηση της αυτόματης αναγνώρισης φωνής. Επεξεργασία του αποτελέσματος και διόρθωση βάσει των e-mail του χρήστη. Επιπλέον... Δυνατότητα προσαρμογής στη φωνή και το ηχητικό περιβάλλον του χρήστη βάσει ηχογραφήσεων. Ομαδοποίηση e-mail ανά θεματικές ενότητες. Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 13 / 29
  • 14. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 14 / 29
  • 15. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 15 / 29
  • 16. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 16 / 29
  • 17. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Controller Αναλαμβάνει την ενορχήστρωση και τη συνεργασία των επιμέρους τμημάτων. Επικοινωνεί με τον πάροχο των μηνυμάτων ηλεκτρονικού ταχυδρομείου. Επικοινωνεί με τη βάση δεδομένων για την αποθήκευση και την ανάκτηση δεδομένων. Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 17 / 29
  • 18. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 18 / 29
  • 19. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Database Αποθηκεύει και ανακτά τα μοντέλα της εφαρμογής. Διατηρεί τα δείγματα φωνής του χρήστη. Προσαρμόζει τα μοντέλα του CMU Sphinx στη φωνή του χρήστη. Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 19 / 29
  • 20. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 20 / 29
  • 21. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα CMU Sphinx Υλοποιεί την αναγνώριση φωνής. Παραμετροποίηση Ακουστικό μοντέλο (acoustic model) Γλωσσικό μοντέλο (language model) Λεξικό (dictionary) Δυνατότητα προσαρμογής του ακουστικού μοντέλου χρησιμοποιώντας ηχογραφήσεις. Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 21 / 29
  • 22. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Pre-processing Στάδιο δημιουργίας των μοντέλων του CMU Sphinx. Δημιουργία γλωσσικού μοντέλου με βάση τα e-mails του χρήστη. Δημιουργία λεξικού με βάση το γλωσσικό μοντέλο. Προσαρμογή του υπάρχοντος ακουστικού μοντέλου. Αποθήκευση των παραπάνω για μελλοντική χρήση. Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 22 / 29
  • 23. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Post-processing Στάδιο επεξεργασίας της εξόδου του CMU Sphinx. Διαδικασία διόρθωσης πρότασης Εύρεση πιθανώς εσφαλμένων λέξεων. Εύρεση πιθανών αντικαστατών για κάθε εσφαλμένη λέξη. Βαθμολόγιση και επιλογή αντικαταστάτη. Μετρικές ομοιότητας Απόσταση Levenshtein Fuzzy matching Part of speech tagging Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 23 / 29
  • 24. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 24 / 29
  • 25. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29
  • 26. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29
  • 27. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29
  • 28. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29
  • 29. Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29
  • 30. Πειράματα Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 26 / 29
  • 31. Πειράματα Ακρίβεια Σετ δεδομένων 1000 προτάσεων Προσαρμογή Word Accuracy ASR Post-processing 0% 0.22% 27.91% 0% 1 26.49% 59.14% 10% 60.67% 83.13% 20% 62.81% 84.77% 50% 66.36% 87.34% 75% 67.84% 88.15% 100% 68.85% 88.83% 1 custom language model Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 27 / 29
  • 32. Σύνοψη Περιεχόμενα 1 Αυτόματη αναγνώριση φωνής Τι είναι Εφαρμογές Διαθέσιμα εργαλεία 2 Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή Επιμέρους τμήματα Controller Database Model GUI 3 Πειράματα 4 Σύνοψη Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 28 / 29
  • 33. Σύνοψη Personalized Automatic Speech Recognition Υλοποίηση Δημιουργία εφαρμογής για συγγραφή e-mails στην Αγγλική με υπαγόρευση. Εργαλεία - Τεχνικές CMU Sphinx για αυτόματη αναγνώριση φωνής. Post-processing για βελτίωση των αποτελεσμάτων. Αποτελέσματα Αποτελέσματα της τάξης του 80% με προσαρμογή του ακουστικού μοντέλου. Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 29 / 29