Introduction to Text to Speech Technology and Applications

Loading...

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

1 comments

Comments 1 - 1 of 1 previous next Post a comment

  • + guest0ac5bf5b guest0ac5bf5b 10 months ago
    very interesting...do you have a version in English?
Post a comment
Embed Video
Edit your comment Cancel

1 Favorite

Introduction to Text to Speech Technology and Applications - Presentation Transcript

  1. Mengenal Text to Speech dan Teknologi Bahasa Arry Akhmad Arman Institut Teknologi Bandung Email: arman@kupalima.com Web: http://www.kupalima.com Blog: http://kupalima.wordpress.com Materi kuliah ini dapat di download di http://slideshare.net/kupalima Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  2. How small can you go? y g Still convenient? Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  3. Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  4. Apa “Teknologi Bahasa”? p g Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  5. Komponen Teknologi Bahasa p g Text to Speech Speech Recogni Recogni- tion NLP: NLP Language Translator Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  6. Apa “Text to Speech”? p p Text to Text Speech Ucapan Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  7. Indonesian Text to Speech System Intonation Diphone Model Database Text Text Phonemes Phoneme Speech to Phoneme to Speech Converter Converter Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 7
  8. Konversi Teks ke Ucapan p Bapak membeli 5 Text kerang seharga Rp 200,- eme Normalization li i Exception Letter-to-Phoneme ext-to-Phone Dictionary Lookup Conversion Prosody Te Generation ch eme-to-Speec Speech Parameter Generation Phone Speech Waveform Production Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 8
  9. Konversi Teks ke Ucapan p Saya membeli 5 saya membeli lima Text kerang seharga Normalization li i k kerang seharga d h dua Rp 200,- ratus rupiah eme Exception Letter-to-Phoneme ext-to-Phone Dictionary Lookup Conversion Prosody Te Generation ch eme-to-Speec Speech Parameter Generation Phone Speech Waveform Production Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 9
  10. Konversi Teks ke Ucapan p Saya membeli 5 saya membeli lima Text kerang seharga Normalization li i kerang seharga d k h dua Rp 200,- ratus rupiah *|s|* => |s| eme Exception Letter-to-Phoneme *|a| =>|a| |a| ext-to-Phone Dictionary Lookup Conversion *|n|~g => |n| *|n|g => |ñ| n|g|* => |blank| Prosody ~n|g|* => |g| Te Generation ch eme-to-Speec Speech Parameter Generation Phone Speech Waveform Production Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 10
  11. Konversi Teks ke Ucapan p Saya membeli 5 saya membeli lima Text kerang seharga Normalization li i k kerang seharga d h dua Rp 200,- ratus rupiah *|s|* => |s| eme teknik => Exception Letter-to-Phoneme *|a| =>|a| |a| ext-to-Phone /t//E//k/ Dictionary Lookup Conversion *|n|~g => |n| /n//i//k/ *|n|g => |ñ| n|g|* => |blank| Prosody ~n|g|* => |g| Te IT => /a//i//t//i/ Generation ch eme-to-Speec Speech Parameter Generation Phone Speech Waveform Production Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 11
  12. Konversi Teks ke Ucapan p Saya membeli 5 saya membeli lima Text kerang seharga Normalization li i k kerang seharga d h dua Rp 200,- ratus rupiah *|s|* => |s| eme teknik => Exception Letter-to-Phoneme *|a| =>|a| |a| ext-to-Phone /t//E//k/ Dictionary Lookup Conversion *|n|~g => |n| /n//i//k/ *|n|g => |ñ| n|g|* => |blank| Prosody ~n|g|* => |g| Te Generation |_||s||a||y||a| … |_||k||e||r||a||ñ| |_|… ch eme-to-Speec Speech Parameter Generation Phone Speech Waveform Production Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 12
  13. Konversi Teks ke Ucapan p Saya membeli 5 saya membeli lima Text kerang seharga Normalization li i kerang seharga d k h dua Rp 200,- ratus rupiah *|s|* => |s| eme teknik => Exception Letter-to-Phoneme *|a| =>|a| |a| ext-to-Phone /t//E//k/ Dictionary Lookup Conversion *|n|~g => |n| /n//i//k/ *|n|g => |ñ| n|g|* => |blank| Prosody ~n|g|* => |g| Te Generation |_| ,100ms |_||s||a||y||a| … |s| ,60ms, 97Hz |_||k||e||r||a|| ñ | |_|… ch eme-to-Speec |a| 85 | | ,85ms, 100Hz 100H Speech Parameter …. Generation |r| ,55ms, 110Hz |a| ,90ms, 114Hz | ñ|, 87ms , |, ,117Hz Phone … Speech Waveform Production Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 13
  14. Konversi Teks ke Ucapan p Saya membeli 5 saya membeli lima Text kerang seharga Normalization li i kerang seharga d k h dua Rp 200,- ratus rupiah *|s|* => |s| eme teknik => Exception Letter-to-Phoneme *|a| =>|a| |a| ext-to-Phone /t//E//k/ Dictionary Lookup Conversion *|n|~g => |n| /n//i//k/ *|n|g => |ñ| n|g|* => |blank| Prosody ~n|g|* => |g| Te Generation |_| ,100ms |_||s||a||y||a| … |s| ,60ms, 97Hz |_||k||e||r||a|| ñ | |_|… ch eme-to-Speec |a| 85 | | ,85ms, 100Hz 100H Speech Parameter …. Generation |r| ,55ms, 110Hz |a| ,90ms, 114Hz | ñ|, 87ms , |, ,117Hz Phone … Speech Waveform Production Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 14
  15. Teknik Pembangkitan Ucapan g p • Formant Synthesizer (penentuan parameter frekuensi untuk setiap fonem) • Concatenation (rekaman kata yang disambung) ( y g g) – Word concatenation (terbatas) – Diphone Concatenation (teknik yang saat ini digunakan untuk TTS Bahasa Indonesia) – Unit Selection (today’s most uptodate TTS) • A i l Articulatory M d l ( Model (penentuan parameter fi ik fisik alat-alat ucap manusia untuk setiap fonem) Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  16. [Teknik Pembangkitan Ucapan] Formant Synthesizer Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  17. [Teknik Pembangkitan Ucapan] Formant Synthesizer F1 F2 F3 /a/ / / 180 272 390 180 /i/ 171 293 377 272 Formant /a/ 390 Synthesizer module d l Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  18. [Teknik Pembangkitan Ucapan] Diphone Concatenation _|s = wav11 s|a = wav23 a|y = wav54 |y y|a =wav167 a|_ =wav365 _/s /s s/a Diphone /s//a/y/a/ Diphone a/y Concate- Sequencer nation y/a Engine a/_ Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  19. Apa “Speech Recognition”? p p g Speech Ucapan Recognition Text Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  20. Speech Recognition System p g y Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 20
  21. Intermezzo… Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  22. Apa “Translator Bahasa”? p Bahasa Translator Bahasa Alami #1 Bahasa Alami #2 Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  23. Bahasa Alami dan Bahasa Buatan Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  24. Beberapa Tantangan dalam Pengembangan Translator Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  25. Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  26. Definisi Prosodi Thierry Dutoit [Dut97] mengemukakan bahwa: “The term prosody refers to certain properties of the speech signal such as audible changes in pitch, loudness, and syllable length. … because prosodic events appear to be time-aligned with syllables or groups of syllables, rather than with segments (sound phonemes), they are (sound, phonemes) also referred to as supra segmental phenomena. Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  27. Definisi Prosodi Hiroya Fujisaki [Fuj96] mengutip pendapat Lehiste (1970), (1970) Ladd dan Cutler (1983): 1. prosodi sebagai fenomena fisik yang melibatkan parameter‐parameter pitch, d i h durasi d i i dan intensitas; i dan 2. prosodi sebagai suatu fenomena linguistik yang p g f g y g melibatkan organisasi fonologi pada level yang lebih tinggi dari segmen-segmennya. Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  28. Definisi Prosodi p y j [ j ] Definisi prosodi menurut Hiroya Fujisaki [Fuj96] : “Prosody is the systematic organization of various linguistic units into an utterance or a coherent group of utterances in the process of speech production. Its realization involves both segmental and suprasegmental f t t l features of speech, and serves to convey f h d t not only linguistic information, but also paralinguistic and non-linguistic information”. Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  29. Rangkuman Definisi Prosodi g • Prosodi adalah “organisasi yang sistematis dari g y g berbagai unit linguistik untuk membentuk ucapan”. • Prosodi dapat dilihat sebagai fenomena fisik atau fenomena li f linguistik. i tik • Prosodi sebagai fenomena fisik dibentuk dari properti- properti pitch, tingkat kekerasan, serta durasi. • Prosodi sebagai fenomena linguistik dipengaruhi oleh informasi informasi linguistik, informasi para- linguistik (i f li i l h ditambahkan oleh pengucap), i ik (informasi yang di b hk ) serta informasi non-linguistik (usia, jenis kelamin dan g y ) sebagainya). Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  30. Model-Model Prosodi • Model Fujisaki • Model Acoustic Stylization • Model Automatic Perceptual Stylization • Model “Teori Kontur Pitch” • Model “Teori Urutan Nada” Teori Nada Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  31. Model Fujisaki j • Kurva pitch p p prosodi merupakan super-impose dari kurva p p p frasa dan kurva aksen. • Fujisaki tidak menjelaskan bagaimana mengaitkan setiap komponen d k dengan aspek li k linguistiknya. i tik Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  32. Teori Kontur Pitch • Teori Kontur Pitch menyatakan bahwa kurva pitch dibentuk dari segmen segmen segmen-segmen unik yang berasal dari kumpulan segmen yang jumlahnya terhingga. • Pernah diterapkan oleh Delatree untuk Bahasa Perancis dengan 10 segmen (k t d (kontur dasar) ) Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  33. Penelitian Intonasi Bahasa Indonesia • Analisis pola intonasi secara kualitatif. Penelitian-penelitian kelompok ini mencoba menganalisis pola intonasi bahasa Indonesia tanpa melakukan pengukuran secara kuantitatif. • Analisis pola intonasi secara kuantitatif. Analisis pola intonasi bahasa Indonesia berdasarkan besaran besaran besaran‐besaran kuantitatif yang diukur mengunakan alat tertentu. – ”Intonation in Relation to Syntax in Indonesia” yang merupakan disertasi Bapak Amran Halim ( p (1969, Universitas Michigan). , g ) • Pemodelan Intonasi. Pengembangan model yang dapat membangkitkan pola intonasi secara otomatis untuk suatu kalimat tertentu. – Model intonasi Indo-1, diusulkan oleh Arry Akhmad Arman yang dipublikasikan pada APCC (Asia Pacific Conference on Communications) 2001 di Tokyo, Jepang [ASAM01]. – Model intonasi Indo-2, diusulkan oleh Arry Akhmad Arman yang dipublikasikan dip blikasikan sebagai disertasi (2004) Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  34. Model Intonasi Indo-1 Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  35. Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  36. Definisi Praktis ‘Model Prosodi’ Saya membeli 5 Text kerang seharga Rp 200,- eme Normalization li i Exception Letter-to-Phoneme ext-to-Phone Dictionary Lookup Conversion Prosody Te Generation |_| ,100ms |s| ,60ms, 97Hz ch eme-to-Speec |a| 85 | | ,85ms, 100Hz 100H Speech Parameter …. Generation |r| ,55ms, 110Hz |a| ,90ms, 114Hz | ñ|, 87ms ,117Hz |, , Phone … Speech Waveform Production Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 36
  37. Model Intonasi Indo-2 [Tahap Analisis] Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  38. Model Intonasi Indo-2 [Tahap Analisis] Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  39. Model Intonasi Indo-2 [Tahap Analisis] Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  40. Model Intonasi Indo-2 [Tahap Analisis] Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  41. Model Intonasi Indo-2 [Tahap Analisis: Hasil Analisis] • Kurva prosodi Bahasa Indonesia p dapat dibentuk dari segmen-segmen yang dapat dikategorikan dalam dalam suatu kumpulan segmen yang jumlahnya terhingga • Setiap segmen dapat dibentuk dari sub-sub segmen yang mempunyai trend linier • Setiap sub segmen dapat dibentuk dari kurva linier dan aksen-aksen yang terletak pada suku kata tertentu • B b berhubungan d Batas-batas segmen b h b dengan i f informasi i linguistik (koma dan simbol lainnya) serta informasi p para linguistik (kata tersebut, itu, dan sebagainya) g ( g y ) Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  42. Model Intonasi Indo-2 Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  43. Model Intonasi Indo-2 Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  44. Deskripsi Model [1] [Besaran-Besaran [Besaran Besaran Sistem] jseg kalimat = U s , jseg = jumlah segmen dalam kalimat i i =1 jss si = U ss ij , jss = jumlah sub segmen j =1 jkt ssij = U kt ijk , jkt = jumlah kata dalam segmen k =1 jsk kt ijkl = U sk ijkl , jsk = jumlah suku kata dalam kata l =1 jf sk ijklm = U fonemijklm , jf = jumlah fonem pada sukukata ijkl kl kl ijklm m =1 Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  45. Deskripsi Model [2] [Proses Segmentasi] AS = (as1 , as 2 ,L, as jas ), jas = jumlah aturan segmentasi  as = (t , pt , kpt , js, ls )  t ∈ ( t l ∪ t pl ) t l = informasi linguistik t pl = informasi para - linguistik pt = (1,2,L , jt ), jt = jumlah token dalam kalimat p j j j kpt = (<, ≤, =, ≥, >) js ∈ (tag1 , tag 2 , L, tag n ) ls ∈ (sebelum, sesudah) Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  46. Deskripsi Model [3] [Proses Segmentasi] durasi _ total ( ssij ) = ∑∑∑ durasi( fonemklm ) k l m pitch ( fonemijklm ) = pitch _ frasaijklm + pitch _ aksenijklm  pitch _ frasa( fonemijklm ) = G ∑∑∑ durasi( fonemk ,l ,m ) + PA  k l m   ( PB − PA )  G= durasi _ total ( ssij )   pitch _ aksen( fonemijklm ) = 0, jika aturan aksen tidak terpenuhi   = ps, jika aturan terpenuhi  Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  47. Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  48. Application Natural Language Translator Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 48
  49. Application Speech to Speech Translation Speech Translator Text to Recognition Indonesia Speech Indonesia text Inggris text Inggris speech p speech Bahasa Indonesia English speech speech Text to Translator Speech Speech Inggris Recognition Indonesia text Indonesia text Inggris Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 49
  50. Application Document Reader Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 50
  51. Application Terminal for Deaf People Monitor Text Screen To Speech Deaf and d Prople Keyboard Speech g Recognition Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 51
  52. Application Talking Aid Sign Text to Language Speech Identification Speech Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 52
  53. Application Talking Aid Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 53
  54. Aplikasi Untuk Tuna Netra p Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  55. Interaksi Lisan dengan Komputer g p 2 Kurs rupiah terhadap Komputer! Tolong 1 dolar saat ini menurut bacakan kurs rupiah informasi Bank terhadap dolar Indonesia adalah …. amerika! Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  56. Layanan pemesanan tanpa operator! y p p p Sedang! Selamat datang di layanan online Piza Jakarta! k Sebutkan ukuran yang akan anda pesan: besar, sedang, atau kecil! Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  57. Application Future • Di masa depan robot akan depan, menjadi bagian dari kehidupan kita sehari‐hari; p ; tentunya kita tidak berharap berhadapan dengan robot yang hanya bisa berbahasa Inggris atau Jepang! Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 57
  58. Penutup p Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  59. Terima kasih ! Award from Presiden RI, Award f A d from DAAD F DAAD-Fraunhofer, h f 2003 Germany , 2004 Materi kuliah ini dapat di download di http://slideshare.net/kupalima Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 59

+ Arry ArmanArry Arman, 2 years ago

custom

2324 views, 1 favs, 0 embeds more stats

Introduction to Text to Speech Technology and Appli more

More info about this document

© All Rights Reserved

Go to text version

  • Total Views 2324
    • 2324 on SlideShare
    • 0 from embeds
  • Comments 1
  • Favorites 1
  • Downloads 106
Most viewed embeds

more

All embeds

less

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate. If needed, use the feedback form to let us know more details.

Cancel
File a copyright complaint
Having problems? Go to our helpdesk?

Categories