Presentazione Laurea Triennale (Furlan Michele)

1,033 views

Published on

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,033
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
11
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Presentazione Laurea Triennale (Furlan Michele)

  1. 1. Università degli Studi di Trieste Facoltà di Ingegneria Dipartimento di Elettrotecnica, Elettronica e Informatica Tesi di laurea in: Programmazione dei Calcolatori Laureando: Michele Furlan Relatore: Dott. Ing. Massimiliano Nolich SVILUPPO DI UN’INTERFACCIA UOMO-ROBOT BASATA SULLA SINTESI VOCALE PER CONCATENAZIONE
  2. 2. Introduzione <ul><li>La sintesi vocale è uno strumento che permette di trasformare un testo scritto in formato audio </li></ul><ul><li>Sintetizzatori vocali presenti su diverse piattaforme </li></ul><ul><li>Compromesso tra qualità e dinamismo </li></ul><ul><li>Migliorano interazione uomo-macchina </li></ul><ul><li>Agevolano persone ipovedenti </li></ul>
  3. 3. Motivazioni <ul><li>Progettazione di un sintetizzatore vocale per applicazioni specifiche: </li></ul><ul><ul><li>Database fonetico ingente ma aggiornabile possibilità di ampliare il range di frasi pronunciabili </li></ul></ul><ul><ul><li>Multipiattaforma </li></ul></ul><ul><ul><li>Alta qualità </li></ul></ul><ul><ul><li>Diverse voci </li></ul></ul><ul><li>Risultati attesi: </li></ul><ul><ul><li>Naturalezza </li></ul></ul><ul><ul><li>Comprensibilità </li></ul></ul>
  4. 4. Sistemi di sintesi vocale <ul><li>Sintesi articolatoria </li></ul><ul><li>Sintesi concatenativa </li></ul><ul><ul><li>Concatenazione di difoni </li></ul></ul><ul><ul><li>Concatenazione di parole intere </li></ul></ul>
  5. 5. Il sistema implementato <ul><li>Realizzazione di un sintetizzatore vocale per concatenazione di parole </li></ul><ul><li>Linguaggio di programmazione Java (vers. 1.6) </li></ul><ul><ul><li>JavaSound API </li></ul></ul><ul><ul><li>Netbeans IDE </li></ul></ul><ul><li>Struttura del programma </li></ul><ul><ul><li>4 classi implementate </li></ul></ul>Tesi (solo il main che crea un oggetto FormPrincipale ) Frase (acquisisce stringa, crea oggetti Parola , playback, grafo, costi, ottimizza, pessimizza, ottimizza2) FormPrincipale (estende JFrame) Parola (carica le parole corrette dal database)
  6. 6. JavaSound API <ul><li>Elaborazione, registrazione e mixaggio di audio digitale </li></ul><ul><li>“ Platform independent” </li></ul><ul><li>Complessità dal punto di vista della programmazione </li></ul><ul><li>Formato MIDI e suoni campionati </li></ul><ul><li>Fornisce funzionalità per applicazioni tipo: </li></ul><ul><ul><li>Framework comunicativi </li></ul></ul><ul><ul><li>Media players e contenuti musicali </li></ul></ul><ul><ul><li>Programmi interattivi come videogiochi e siti web </li></ul></ul><ul><ul><li>Contenuti creativi ed editing </li></ul></ul><ul><ul><li>Tools e utilities </li></ul></ul>
  7. 7. Concatenazione di parole <ul><li>Registrazione di una serie di frasi campione </li></ul><ul><li>Estrazione delle parole tramite il taglio del segnale audio </li></ul><ul><li>Le parole estratte hanno un peso che dipende dalla posizione all’interno della frase (inizio, in mezzo, fine, etc.) </li></ul><ul><li>Classificazione e memorizzazione delle parole all’interno del database </li></ul><ul><li>Il peso delle parole viene considerato nella successiva fase di ottimizzazione </li></ul>
  8. 8. Ottimizza – Pessimizza <ul><li>Struttura tipo grafo </li></ul><ul><li>Sistema di ottimizzazione </li></ul><ul><li>Sistema di pessimizzazione </li></ul><ul><li>Sistema di costi (ce ne sono 2) </li></ul>
  9. 9. Primo sistema di ottimizzazione <ul><li>sistema di costi </li></ul>costi C p Posizione corrente Tipo file Inizio frase Metà frase Fine frase Prima virgola Dopo virgola IF 1 3 5 5 2 IM 3 1 3 3 3 FF 5 3 1 2 5 PV 4 2 2 1 4 DV 2 2 4 4 1
  10. 10. Secondo sistema di ottimizzazione <ul><li>Prende in cosiderazione anche i costi C L </li></ul><ul><li>Costi della transizione lettera-lettera tra parole diverse </li></ul><ul><li>Caratteri fonetici dei fonemi della lingua italiana </li></ul><ul><li>C L è un costo di tipo binario che modifica il costo C p preesistente </li></ul>
  11. 11. Esempi di frasi <ul><li>Frasi tratte dai test condotti: </li></ul><ul><ul><li>Primo sistema di ottimizzazione: </li></ul></ul><ul><ul><ul><li>Frase ottima </li></ul></ul></ul><ul><ul><ul><li>Frase pessima </li></ul></ul></ul><ul><ul><li>Secondo sistema di ottimizzazione </li></ul></ul><ul><ul><ul><li>Frase ottima </li></ul></ul></ul><ul><ul><ul><li>Frase pessima </li></ul></ul></ul>
  12. 12. Risultati sperimentali (1) <ul><li>Risultati attesi: </li></ul><ul><ul><li>Sintesi naturale </li></ul></ul><ul><ul><li>Sintesi intelligibile </li></ul></ul><ul><ul><li>Differenza rilevabile tra sintesi ottimizzata e sintesi pessimizzata </li></ul></ul><ul><ul><li>Valutazione dell’efficacia del secondo sistema di ottimizzazione </li></ul></ul>
  13. 13. Risultati sperimentali (2) <ul><li>Procedura di test: </li></ul><ul><ul><li>20 persone (tra i 18 e i 53 anni) </li></ul></ul><ul><ul><li>10 frasi (ottimizzate e pessimizzate) </li></ul></ul><ul><ul><li>Valutazione da 1 a 5 su naturalezza ed intelligibilità per ogni frase </li></ul></ul><ul><ul><li>Prima ed ultima frase uguali, ma… </li></ul></ul>
  14. 14. Risultati sperimentali (3) <ul><li>Risultati preliminari: </li></ul><ul><ul><li>Ottimizzazione aumenta naturalezza del 14,8% </li></ul></ul><ul><ul><li>Ottimizzazione aumenta intelligibilità del 13,4% </li></ul></ul><ul><ul><li>Secondo sistema di ottimizzazione migliora il primo del 37,3% in naturalezza e rimane agli stessi livelli in fatto di intelligibilità </li></ul></ul>
  15. 15. Risultati sperimentali (4) <ul><li>Dall’analisi dei dati raccolti emerge che: </li></ul><ul><li>Il sintetizzatore vocale sviluppato ha le potenzialità per fornire un parlato di naturalezza quasi Ottima e di intelligibilità Ottima . </li></ul>
  16. 16. Lavoro svolto <ul><li>Implementazione software ex novo </li></ul><ul><li>Studio delle modalità di programmazione dell’API JavaSound </li></ul><ul><li>Registrazione e taglio di segnali sonori generando un DB di dati audio utilizzato dal software </li></ul><ul><li>Sviluppo di due differenti sistemi di ottimizzazione (con relativa pessimizzazione) </li></ul><ul><li>Conduzione di un’indagine statistica </li></ul><ul><li>Analisi dei dati </li></ul>
  17. 17. Conclusioni e sviluppi futuri <ul><li>Aspettative rispettate </li></ul><ul><li>Applicazione su un sistema di autenticazione biometrica </li></ul><ul><li>Applicabile in ambito ferroviario, aeroportuale, telefonico, meteorologico, etc. </li></ul><ul><li>Sviluppi futuri: sviluppo di un tool che guidi la registrazione e la corretta memorizzazione delle parole all’interno del database </li></ul>

×