Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Adamantidou Eleni

64 views

Published on

Development of an application that provides services based on speech recognition

Published in: Education
  • Be the first to comment

  • Be the first to like this

Adamantidou Eleni

  1. 1. Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας Αδαμαντίδου Ελένη Επιβλέποντες: Συμεωνίδης Ανδρέας, Αναπληρωτής Καθηγητής ΑΠΘ Φαλελάκης Μανώλης, Μεταδιδακτορικός ερευνητής ΑΠΘ Θεσσαλονίκη, Οκτώβριος 2018 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ & ΥΠΟΛΟΓΙΣΜΩΝ
  2. 2. Σκοπός της διπλωματικής εργασίας Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 2 Διευκόλυνση της χρήσης έξυπνων συσκευών, ιδίως από ηλικιωμένους και άτομα με μειωμένη όραση  Προφορική επικοινωνία ανθρώπου-μηχανής  Αναγνώριση ομιλίας  Φωνητικές εντολές χρήστη – Προφορική απάντηση συστήματος  Υπηρεσίες σχετικές με ανάγκες ηλικιωμένων
  3. 3. Αυτόματη αναγνώριση ομιλίας (ΑΑΟ) - Μοντέλα Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 3 Διαδικασία μετατροπής ομιλίας σε κείμενο  Φωνητικό λεξικό (dictionary – dic ) : αρχείο λέξεων με την αντίστοιχη ακολουθία φωνημάτων  Γλωσσικό μοντέλο (language model – lm ) : πιθανότητες εμφάνισης λέξεων -> περιορίζει την αναζήτηση της επόμενης λέξης  Ακουστικό μοντέλο (acoustic model – am ): στατιστική αναπαράσταση φωνημάτων
  4. 4. Αξιολόγηση ΑΑΟ Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 4  3 είδη σφαλμάτων 1. Εισαγωγή (Insertion – I) 2. Διαγραφή (Deletion – D) 3. Αντικατάσταση (Substitution – S)  Word Error Rate (WER) όπου Ν το πλήθος των λέξεων  Ακρίβεια = 1 - WER N IDS WER ++ =
  5. 5. • Δομή εφαρμογής • Εργαλεία • Επεκτασιμότητα • Δημιουργία ελληνικού ειδικού μοντέλου • Προσαρμογή μοντέλων Υλοποίηση εφαρμογής Οκτώβριος 2018 5 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας
  6. 6. Δομή εφαρμογής Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 6 Ηχογράφηση Αναγνώριση Ομιλίας Μετάφραση Εξαγωγή Εννοιολογικών χαρακτηριστικών Επιλογή της κατάλληλης υπηρεσίας Λήψη της πληροφορίας από το διαδίκτυο Εκφώνηση της πληροφορίας
  7. 7. Εργαλεία Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 7  CMUSphinx • Εκπαίδευση και προσαρμογή μοντέλων • Αποκωδικοποίηση αρχείων ομιλίας  Wit.ai  Yandex translate API  APIs • Openweathermap • Google Places, Google Timezone, GoogleGeocoding • IP-API
  8. 8. Επεκτασιμότητα Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 8 Πρότυπα σχεδίασης (Design Patterns)  Γέφυρα (Bridge) Επεκτασιμότητα ως προς την προσθήκη νέων υπηρεσιών.  Προσαρμογέας (Adapter) Προσαρμοστικότητα ως προς τη χρήση διαφορετικών APIs για την ίδια υπηρεσία.
  9. 9. Δημιουργία ελληνικού ειδικού μοντέλου Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 9  Φωνητικό λεξικό 400 λέξεων (commands_el_dic)  Γλωσσικό μοντέλο (commands_el_lm) • εκπαίδευση σε 100 προτάσεις (corpus_lm) • N-grams  Ακουστικό μοντέλο (commands_el) • σύνολο 56 προτάσεων (corpus1) • συλλογή ηχογραφήσεων για εκπαίδευση • εκπαίδευση σε 1008 προτάσεις από 18 ομιλητές (9 άνδρες, 9 γυναίκες) – trainingset • Sphinxtrain
  10. 10. Προσαρμογή ακουστικού μοντέλου Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 10  Απαιτεί λιγότερα δεδομένα για αποτελεσματική εκπαίδευση.  Βασικό μοντέλο : γενικευμένο ελληνικό μοντέλο (el-generic)  Προσαρμογή πάνω στο trainingset  Τελικό μοντέλο: el-generic-adapt  Sphinxbase, Sphinxtrain
  11. 11. • Σύνολα δεδομένων • Πειράματα σχετικά με την αναγνώριση ομιλίας Πειράματα & αποτελέσματα Οκτώβριος 2018 11 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας
  12. 12. Σύνολα δεδομένων Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 12  corpus1: 56 προτάσεις  corpus2 : 50 προτάσεις (διαφορετικές από τις προηγούμενες)  corpus_lm : Περιέχει τις προτάσεις του corpus1 και ακόμα 44 αντιπροσωπευτικές Όνομα συνόλου δεδομένων Πλήθος προτάσεων Χαρακτηριστικά προτάσεων Πλήθος ομιλητών Χαρακτηριστικά ομιλητών training_set 1008 corpus1 18 νέοι youth 112 corpus1 2 νέοι elders 211 corpus1 4 ηλικιωμένοι young_man 50 corpus2 1 νέος elder_woman 50 corpus2 1 ηλικιωμένη
  13. 13. Έτοιμο μοντέλο Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 13  Φωνητικό λεξικό: el-generic_dic  Γλωσσικό μοντέλο: el-generic_lm  Ακουστικό μοντέλο: el-generic Αριθμός πειράματος Σετ ελέγχου Word Error Rate (%) 1 youth 35.94 2 elders 50.3 3 young_man 29.31 4 elder_woman 33.23
  14. 14. Ειδικό φωνητικό & γλωσσικό μοντέλο Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 14  Φωνητικό λεξικό: commands_el_dic  Γλωσσικό μοντέλο: commands_el _lm  Ακουστικό μοντέλο: el-generic Αριθμός πειράματος Σετ ελέγχου Word Error Rate (%) 1 youth 7.69 2 elders 9.62 3 young_man 17.52 4 elder_woman 11.48
  15. 15. Προσαρμοσμένο ακουστικό μοντέλο Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 15  Φωνητικό λεξικό: commands_el _dic  Γλωσσικό μοντέλο: commands_el _lm  Ακουστικό μοντέλο: el-generic-adapt Αριθμός πειράματος Σετ ελέγχου Word Error Rate (%) 1 youth 2.41 2 elders 22.22 3 young_man 9.06 4 elder_woman 32.33
  16. 16. Ειδικό ακουστικό μοντέλο Οκτώβριος2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 16  Φωνητικό λεξικό: commands_el _dic  Γλωσσικό μοντέλο: commands_el _lm  Ακουστικό μοντέλο: commands_el Αριθμός πειράματος Σετ ελέγχου Word Error Rate (%) 1 youth 3.33 2 elders 9.87 3 young_man 12.99 4 elder_woman 19.03
  17. 17. Προσαρμογή στη φωνή Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 17  Φωνητικό λεξικό: commands_el _dic  Γλωσσικό μοντέλο: commands_el _lm  Ακουστικό μοντέλο: προσαρμοσμένο στη φωνή Αριθμός πειράματος Σετ ελέγχου Word Error Rate (%) 1 young_man 13.29 2 elder_woman 16.01
  18. 18. Προσαρμογή στη φωνή με περισσότερα δεδομένα Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 18  Φωνητικό λεξικό: commands_el _dic  Γλωσσικό μοντέλο: commands_el _lm  Ακουστικό μοντέλο: προσαρμοσμένο στη φωνή Αριθμός πειράματος Σετ ελέγχου Word Error Rate (%) 1 young_man 6.339 2 elder_woman 9.942
  19. 19. Σύγκριση αποτελεσμάτων Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 19 Com/Com/Gen Com/Com/Com Com/Com/Voice
  20. 20. Συμπεράσματα Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 20  Ικανοποιητική ακρίβεια ΑΑΟ, καλή λειτουργία του συνόλου της εφαρμογής  Γλωσσικό μοντέλο → αυξάνει σε μεγάλο βαθμό την ακρίβεια  Ακουστικό μοντέλο : • Εξειδικευμένο μοντέλο → μεγαλύτερη ακρίβεια • Προσαρμογή μοντέλου → μεγαλύτερη ακρίβεια ακόμα και με λίγα δεδομένα εκπαίδευσης • Προσαρμογή μοντέλου σε μη αντιπροσωπευτικά δεδομένα → μικρότερη ακρίβεια • Προσαρμογή στα χαρακτηριστικά ενός χρήστη → σημαντική αύξηση της ακρίβειας
  21. 21. Μελλοντική Εργασία Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 21  Συλλογή περισσότερων ηχογραφήσεων, ιδίως από ηλικιωμένους  Προσαρμογή στη φωνή του χρήστη μέσω της εφαρμογής  Έλεγχος και εκ νέου εκπαίδευση σε δεδομένα με θόρυβο  Υλοποίηση της εφαρμογής ως διαδικτυακή υπηρεσία
  22. 22. Επίδειξη λειτουργίας Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 22
  23. 23. Ευχαριστίες Οκτώβριος 2018 Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση ομιλίας 23 Ευχαριστώ θερμά:  Τον κ. Συμεωνίδη Ανδρέα, Αναπληρωτή Καθηγητή  Τον κ. Φαλελάκη Μανώλη, Μεταδιδακτορικό ερευνητή  Όλους όσους συνέβαλλαν στη συλλογή των δεδομένων για την εκπαίδευση και τον έλεγχο του συστήματος, ηχογραφώντας τη φωνή τους
  24. 24. Ερωτήσεις

×