Your SlideShare is downloading. ×
Università degli studi di roma                          “TOR VERGATA”                           Confronto tra riconoscitor...
FOCUS ON    Sistema di riconoscimento Vocale                          Computer                           Desktopdomenica 1...
FOCUS ON    Sistema di riconoscimento Vocale                          Computer                           Desktop          ...
FOCUS ON    Sistema di riconoscimento Vocale                          Computer                                        }   ...
Premessa 1          Sistema di Riconoscimento Vocale:                  •              ottime prestazioni su sistemi       ...
Performance:                          Desktop Vs. Mobile                                                                  ...
Performance:                          Desktop Vs. Mobile                                                                  ...
Premessa 2                    • il problema è strettamente connesso                          alla capacità computazionale ...
Quesito                          è possibile allineare le                          performance di riconoscimento          ...
La Soluzione             ...consiste nell’abbandonare il            modello ASR e adottarne uno che             si basi su...
... ovvero passare da ...                           ASR                 Automatic Speech Recognition                      ...
... ovvero passare da ...                          DSR             Distributed Speech Recognitiondomenica 17 febbraio 13
Motore di riconoscimento          Segnale Audio                Stringa di testo                          motore ASRdomenic...
Motore di riconoscimento           Signal processing:                Matching: confronto e           elaborazione audio pe...
DSR                                  Signal Processing                                     Matching                       ...
DSR                L’obiettivo è lasciare al desktop la logica di servizio e i                    componenti più onerosi c...
DSR                L’obiettivo è lasciare al desktop la logica di servizio e i                    componenti più onerosi c...
DSR                L’obiettivo è lasciare al desktop la logica di servizio e i                    componenti più onerosi c...
DSR                Signal Processing    Operatività e comunicazione                                       definita dal prot...
...garantire performance                   elevate (al pari di quelle di                   un desktop) nella gestione     ...
Operatività                                                                         Client                           Featu...
Operatività                                                                         Client                           Featu...
Operatività                                                                          Client                           Feat...
Esperimento                    1.Confrontiamo il risultato del                      “processo di estrazione” ottenuto     ...
Processo di estrazione           Valutare l’importanza della capacità computazionale                 nel processo di estra...
Processo di estrazione           Valutare l’importanza della capacità computazionale                 nel processo di estra...
Processo di estrazione           Valutare l’importanza della capacità computazionale                 nel processo di estra...
Processo di estrazione           Valutare l’importanza della capacità computazionale                 nel processo di estra...
Processo di estrazione           Valutare l’importanza della capacità computazionale                 nel processo di estra...
Processo di estrazione                                                             VS           Valutare l’importanza dell...
Metriche                    • Confidenza: percentuale di certezza con la                          quale il motore propone u...
Confidenze a confrontodomenica 17 febbraio 13
Conclusioni esperimento                          Il confronto ha messo in evidenza che il                          risulta...
Confronto modelli                                         Dizionari                                             2 .000    ...
Confronto modelli                                         Dizionari                                             2 .000    ...
Confronto modelli                                         Dizionari                                             2 .000    ...
Confronto modelli                                         Dizionari                                               2 .000  ...
Metriche                    • Confidenza: percentuale di certezza con la                          quale il motore propone u...
Metriche                    • Confidenza: percentuale di certezza con la                          quale il motore propone u...
Confronto confidenze                            2.000domenica 17 febbraio 13
Confronto confidenze                           10.000domenica 17 febbraio 13
Confronto WER                                                                                80                          I...
Confronto WER                                                                                80                          I...
Confronto WER                                                                                80                          I...
Confronto Tempi di risposta                                                          7,00                                 ...
Confronto Tempi di risposta                                                          7,00                                 ...
Confronto Tempi di risposta                                                          7,00                                 ...
Demodomenica 17 febbraio 13
Demo             • Servizio che necessita di vocabolario ampio             • API di Google Mapsdomenica 17 febbraio 13
Conclusioni                    • L’utilizzo del modello distribuito aumenta le                          performance di ric...
[2007] Tesi: Confronto tra riconoscitori vocali embedded e distribuiti per telefonia mobile
Upcoming SlideShare
Loading in...5
×

[2007] Tesi: Confronto tra riconoscitori vocali embedded e distribuiti per telefonia mobile

299

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
299
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "[2007] Tesi: Confronto tra riconoscitori vocali embedded e distribuiti per telefonia mobile"

  1. 1. Università degli studi di roma “TOR VERGATA” Confronto tra riconoscitori vocali embedded e distribuiti per telefonia mobile DAVID FUNARO Prof. Salvatore Tucci Dott. Ing. Fabrizio Giacomellidomenica 17 febbraio 13
  2. 2. FOCUS ON Sistema di riconoscimento Vocale Computer Desktopdomenica 17 febbraio 13
  3. 3. FOCUS ON Sistema di riconoscimento Vocale Computer Desktop Dispositivi Mobilidomenica 17 febbraio 13
  4. 4. FOCUS ON Sistema di riconoscimento Vocale Computer } Desktop riconoscimento ASR Dispositivi Integrato Mobilidomenica 17 febbraio 13
  5. 5. Premessa 1 Sistema di Riconoscimento Vocale: • ottime prestazioni su sistemi desktop. • problemi all’aumentare della cardinalità del dizionario su sistemi mobilidomenica 17 febbraio 13
  6. 6. Performance: Desktop Vs. Mobile 80 70 Degrado delle 60 performance 50 %WER all’aumentare della 40 cardinalità del 30 20 dizionario 10 500 1000 0 1500 2000 10000 Cardinalità dizionario Desktop Mobiledomenica 17 febbraio 13
  7. 7. Performance: Desktop Vs. Mobile 80 70 Degrado delle 60 performance 50 %WER all’aumentare della 40 cardinalità del 30 20 dizionario 10 500 1000 0 1500 2000 10000 Cardinalità dizionario Desktop Mobiledomenica 17 febbraio 13
  8. 8. Premessa 2 • il problema è strettamente connesso alla capacità computazionale • ad oggi non è possibile aumentare le potenzialità di un dispositivo mobiledomenica 17 febbraio 13
  9. 9. Quesito è possibile allineare le performance di riconoscimento vocale su dispositivo mobile a quelle ottenute su sistemi desktop?domenica 17 febbraio 13
  10. 10. La Soluzione ...consiste nell’abbandonare il modello ASR e adottarne uno che si basi sulla “distribuzione” del processo di riconoscimento vocale...domenica 17 febbraio 13
  11. 11. ... ovvero passare da ... ASR Automatic Speech Recognition Integratodomenica 17 febbraio 13
  12. 12. ... ovvero passare da ... DSR Distributed Speech Recognitiondomenica 17 febbraio 13
  13. 13. Motore di riconoscimento Segnale Audio Stringa di testo motore ASRdomenica 17 febbraio 13
  14. 14. Motore di riconoscimento Signal processing: Matching: confronto e elaborazione audio per verifica del ottenere le caratteristiche riconoscimento dello “speech” Segnale Audio Signal Processing Stringa di testo Matching motore ASRdomenica 17 febbraio 13
  15. 15. DSR Signal Processing Matching ASR Smartphone Desktopdomenica 17 febbraio 13
  16. 16. DSR L’obiettivo è lasciare al desktop la logica di servizio e i componenti più onerosi computazionalmente Signal Processing Matching ASR Smartphone Desktopdomenica 17 febbraio 13
  17. 17. DSR L’obiettivo è lasciare al desktop la logica di servizio e i componenti più onerosi computazionalmente Signal Processing Matching ASR Smartphone Desktopdomenica 17 febbraio 13
  18. 18. DSR L’obiettivo è lasciare al desktop la logica di servizio e i componenti più onerosi computazionalmente Signal Processing Operatività e comunicazione definita dal protocollo ETSI-AURORA Matching ASR Smartphone Desktopdomenica 17 febbraio 13
  19. 19. DSR Signal Processing Operatività e comunicazione definita dal protocollo ETSI-AURORA Matching ASR Smartphone Desktop A questo punto tutto “si gioca” sulla capacità dello smartphone di ...domenica 17 febbraio 13
  20. 20. ...garantire performance elevate (al pari di quelle di un desktop) nella gestione del signal processingdomenica 17 febbraio 13
  21. 21. Operatività Client Features Features Bitstreaming Extraction Compression Coding Terminal-Front End SIP/RTP Server Bistreaming Features Server Features Decoding Decompression Processing Server-Front End VoxNautadomenica 17 febbraio 13
  22. 22. Operatività Client Features Features Bitstreaming Extraction Compression Coding Terminal-Front End SIP/RTP Server Bistreaming Features Server Features Decoding Decompression Processing Server-Front End VoxNautadomenica 17 febbraio 13
  23. 23. Operatività Client Features Features Bitstreaming Extraction Compression Coding Terminal-Front End SIP/RTP Server Bistreaming Features Server Features Decoding Decompression Processing Server-Front End VoxNautadomenica 17 febbraio 13
  24. 24. Esperimento 1.Confrontiamo il risultato del “processo di estrazione” ottenuto con dispositivi aventi differenti capacità computazionalidomenica 17 febbraio 13
  25. 25. Processo di estrazione Valutare l’importanza della capacità computazionale nel processo di estrazione delle featuresdomenica 17 febbraio 13
  26. 26. Processo di estrazione Valutare l’importanza della capacità computazionale nel processo di estrazione delle featuresdomenica 17 febbraio 13
  27. 27. Processo di estrazione Valutare l’importanza della capacità computazionale nel processo di estrazione delle featuresdomenica 17 febbraio 13
  28. 28. Processo di estrazione Valutare l’importanza della capacità computazionale nel processo di estrazione delle featuresdomenica 17 febbraio 13
  29. 29. Processo di estrazione Valutare l’importanza della capacità computazionale nel processo di estrazione delle featuresdomenica 17 febbraio 13
  30. 30. Processo di estrazione VS Valutare l’importanza della capacità computazionale nel processo di estrazione delle featuresdomenica 17 febbraio 13
  31. 31. Metriche • Confidenza: percentuale di certezza con la quale il motore propone una sceltadomenica 17 febbraio 13
  32. 32. Confidenze a confrontodomenica 17 febbraio 13
  33. 33. Conclusioni esperimento Il confronto ha messo in evidenza che il risultato del processo di estrazione delle features è indipendente dalla capacità computazionale dopo tale verifica possiamo mettere a confronto i due modelli di riconoscimento per dispositivi mobili.domenica 17 febbraio 13
  34. 34. Confronto modelli Dizionari 2 .000 Channel 10 .000 DSR eASR Confrontare il comportamento dei modelli al variare della cardinalità del vocabolariodomenica 17 febbraio 13
  35. 35. Confronto modelli Dizionari 2 .000 Channel 10 .000 DSR eASR Confrontare il comportamento dei modelli al variare della cardinalità del vocabolariodomenica 17 febbraio 13
  36. 36. Confronto modelli Dizionari 2 .000 Channel 10 .000 DSR eASR Confrontare il comportamento dei modelli al variare della cardinalità del vocabolariodomenica 17 febbraio 13
  37. 37. Confronto modelli Dizionari 2 .000 Channel 10 .000 DSR VS eASR Confrontare il comportamento dei modelli al variare della cardinalità del vocabolariodomenica 17 febbraio 13
  38. 38. Metriche • Confidenza: percentuale di certezza con la quale il motore propone una sceltadomenica 17 febbraio 13
  39. 39. Metriche • Confidenza: percentuale di certezza con la quale il motore propone una scelta • WER (word error rate): percentuale di riconoscimenti falliti in relazione al totale dei riconoscimenti effettuati #riconoscimenti f alliti W ER = #riconoscimenti totalidomenica 17 febbraio 13
  40. 40. Confronto confidenze 2.000domenica 17 febbraio 13
  41. 41. Confronto confidenze 10.000domenica 17 febbraio 13
  42. 42. Confronto WER 80 Il WER indica la 60 percentuale di %WER parole sbagliate in 40 relazione a quelle pronunciate 20 2000 0 embedded10000 distribuito Cardinalità dizionariodomenica 17 febbraio 13
  43. 43. Confronto WER 80 Il WER indica la 60 percentuale di %WER parole sbagliate in 40 relazione a quelle pronunciate 20 2000 0 embedded10000 distribuito Cardinalità dizionariodomenica 17 febbraio 13
  44. 44. Confronto WER 80 Il WER indica la 60 percentuale di %WER parole sbagliate in 40 relazione a quelle pronunciate 20 2000 0 embedded10000 distribuito Cardinalità dizionariodomenica 17 febbraio 13
  45. 45. Confronto Tempi di risposta 7,00 5,25 Scarto dovuto alla Secondi comunicazione di 3,50 rete tra client e server 1,75 0 embedded distribuitodomenica 17 febbraio 13
  46. 46. Confronto Tempi di risposta 7,00 5,25 Scarto dovuto alla Secondi comunicazione di 3,50 rete tra client e server 1,75 0 embedded distribuitodomenica 17 febbraio 13
  47. 47. Confronto Tempi di risposta 7,00 5,25 Scarto dovuto alla Secondi comunicazione di 3,50 rete tra client e server 1,75 0 embedded distribuitodomenica 17 febbraio 13
  48. 48. Demodomenica 17 febbraio 13
  49. 49. Demodomenica 17 febbraio 13
  50. 50. Demo • Servizio che necessita di vocabolario ampio • API di Google Mapsdomenica 17 febbraio 13
  51. 51. Conclusioni • L’utilizzo del modello distribuito aumenta le performance di riconoscimento a scapito dei tempi di risposta • Un modello ibrido (ASR, DSR a bordo) in grado di scegliere il modello di riconoscimento in base al servizio potrebbe essere la soluzione miglioredomenica 17 febbraio 13

×