Introduction to Text to Speech Technology and Applications

7,249 views

Published on

Introduction to Text to Speech Technology and Applications

Published in: Technology, Design
1 Comment
3 Likes
Statistics
Notes
No Downloads
Views
Total views
7,249
On SlideShare
0
From Embeds
0
Number of Embeds
16
Actions
Shares
0
Downloads
510
Comments
1
Likes
3
Embeds 0
No embeds

No notes for slide

Introduction to Text to Speech Technology and Applications

  1. 1. Mengenal Text to Speech dan Teknologi Bahasa Arry Akhmad Arman Institut Teknologi Bandung Email: arman@kupalima.com Web: http://www.kupalima.com Blog: http://kupalima.wordpress.com Materi kuliah ini dapat di download di http://slideshare.net/kupalima Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  2. 2. How small can you go? y g Still convenient? Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  3. 3. Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  4. 4. Apa “Teknologi Bahasa”? p g Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  5. 5. Komponen Teknologi Bahasa p g Text to Speech Speech Recogni Recogni- tion NLP: NLP Language Translator Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  6. 6. Apa “Text to Speech”? p p Text to Text Speech Ucapan Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  7. 7. Indonesian Text to Speech System Intonation Diphone Model Database Text Text Phonemes Phoneme Speech to Phoneme to Speech Converter Converter Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 7
  8. 8. Konversi Teks ke Ucapan p Bapak membeli 5 Text kerang seharga Rp 200,- eme Normalization li i Exception Letter-to-Phoneme ext-to-Phone Dictionary Lookup Conversion Prosody Te Generation ch eme-to-Speec Speech Parameter Generation Phone Speech Waveform Production Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 8
  9. 9. Konversi Teks ke Ucapan p Saya membeli 5 saya membeli lima Text kerang seharga Normalization li i k kerang seharga d h dua Rp 200,- ratus rupiah eme Exception Letter-to-Phoneme ext-to-Phone Dictionary Lookup Conversion Prosody Te Generation ch eme-to-Speec Speech Parameter Generation Phone Speech Waveform Production Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 9
  10. 10. Konversi Teks ke Ucapan p Saya membeli 5 saya membeli lima Text kerang seharga Normalization li i kerang seharga d k h dua Rp 200,- ratus rupiah *|s|* => |s| eme Exception Letter-to-Phoneme *|a| =>|a| |a| ext-to-Phone Dictionary Lookup Conversion *|n|~g => |n| *|n|g => |ñ| n|g|* => |blank| Prosody ~n|g|* => |g| Te Generation ch eme-to-Speec Speech Parameter Generation Phone Speech Waveform Production Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 10
  11. 11. Konversi Teks ke Ucapan p Saya membeli 5 saya membeli lima Text kerang seharga Normalization li i k kerang seharga d h dua Rp 200,- ratus rupiah *|s|* => |s| eme teknik => Exception Letter-to-Phoneme *|a| =>|a| |a| ext-to-Phone /t//E//k/ Dictionary Lookup Conversion *|n|~g => |n| /n//i//k/ *|n|g => |ñ| n|g|* => |blank| Prosody ~n|g|* => |g| Te IT => /a//i//t//i/ Generation ch eme-to-Speec Speech Parameter Generation Phone Speech Waveform Production Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 11
  12. 12. Konversi Teks ke Ucapan p Saya membeli 5 saya membeli lima Text kerang seharga Normalization li i k kerang seharga d h dua Rp 200,- ratus rupiah *|s|* => |s| eme teknik => Exception Letter-to-Phoneme *|a| =>|a| |a| ext-to-Phone /t//E//k/ Dictionary Lookup Conversion *|n|~g => |n| /n//i//k/ *|n|g => |ñ| n|g|* => |blank| Prosody ~n|g|* => |g| Te Generation |_||s||a||y||a| … |_||k||e||r||a||ñ| |_|… ch eme-to-Speec Speech Parameter Generation Phone Speech Waveform Production Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 12
  13. 13. Konversi Teks ke Ucapan p Saya membeli 5 saya membeli lima Text kerang seharga Normalization li i kerang seharga d k h dua Rp 200,- ratus rupiah *|s|* => |s| eme teknik => Exception Letter-to-Phoneme *|a| =>|a| |a| ext-to-Phone /t//E//k/ Dictionary Lookup Conversion *|n|~g => |n| /n//i//k/ *|n|g => |ñ| n|g|* => |blank| Prosody ~n|g|* => |g| Te Generation |_| ,100ms |_||s||a||y||a| … |s| ,60ms, 97Hz |_||k||e||r||a|| ñ | |_|… ch eme-to-Speec |a| 85 | | ,85ms, 100Hz 100H Speech Parameter …. Generation |r| ,55ms, 110Hz |a| ,90ms, 114Hz | ñ|, 87ms , |, ,117Hz Phone … Speech Waveform Production Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 13
  14. 14. Konversi Teks ke Ucapan p Saya membeli 5 saya membeli lima Text kerang seharga Normalization li i kerang seharga d k h dua Rp 200,- ratus rupiah *|s|* => |s| eme teknik => Exception Letter-to-Phoneme *|a| =>|a| |a| ext-to-Phone /t//E//k/ Dictionary Lookup Conversion *|n|~g => |n| /n//i//k/ *|n|g => |ñ| n|g|* => |blank| Prosody ~n|g|* => |g| Te Generation |_| ,100ms |_||s||a||y||a| … |s| ,60ms, 97Hz |_||k||e||r||a|| ñ | |_|… ch eme-to-Speec |a| 85 | | ,85ms, 100Hz 100H Speech Parameter …. Generation |r| ,55ms, 110Hz |a| ,90ms, 114Hz | ñ|, 87ms , |, ,117Hz Phone … Speech Waveform Production Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 14
  15. 15. Teknik Pembangkitan Ucapan g p • Formant Synthesizer (penentuan parameter frekuensi untuk setiap fonem) • Concatenation (rekaman kata yang disambung) ( y g g) – Word concatenation (terbatas) – Diphone Concatenation (teknik yang saat ini digunakan untuk TTS Bahasa Indonesia) – Unit Selection (today’s most uptodate TTS) • A i l Articulatory M d l ( Model (penentuan parameter fi ik fisik alat-alat ucap manusia untuk setiap fonem) Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  16. 16. [Teknik Pembangkitan Ucapan] Formant Synthesizer Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  17. 17. [Teknik Pembangkitan Ucapan] Formant Synthesizer F1 F2 F3 /a/ / / 180 272 390 180 /i/ 171 293 377 272 Formant /a/ 390 Synthesizer module d l Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  18. 18. [Teknik Pembangkitan Ucapan] Diphone Concatenation _|s = wav11 s|a = wav23 a|y = wav54 |y y|a =wav167 a|_ =wav365 _/s /s s/a Diphone /s//a/y/a/ Diphone a/y Concate- Sequencer nation y/a Engine a/_ Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  19. 19. Apa “Speech Recognition”? p p g Speech Ucapan Recognition Text Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  20. 20. Speech Recognition System p g y Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 20
  21. 21. Intermezzo… Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  22. 22. Apa “Translator Bahasa”? p Bahasa Translator Bahasa Alami #1 Bahasa Alami #2 Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  23. 23. Bahasa Alami dan Bahasa Buatan Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  24. 24. Beberapa Tantangan dalam Pengembangan Translator Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  25. 25. Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  26. 26. Definisi Prosodi Thierry Dutoit [Dut97] mengemukakan bahwa: “The term prosody refers to certain properties of the speech signal such as audible changes in pitch, loudness, and syllable length. … because prosodic events appear to be time-aligned with syllables or groups of syllables, rather than with segments (sound phonemes), they are (sound, phonemes) also referred to as supra segmental phenomena. Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  27. 27. Definisi Prosodi Hiroya Fujisaki [Fuj96] mengutip pendapat Lehiste (1970), (1970) Ladd dan Cutler (1983): 1. prosodi sebagai fenomena fisik yang melibatkan parameter‐parameter pitch, d i h durasi d i i dan intensitas; i dan 2. prosodi sebagai suatu fenomena linguistik yang p g f g y g melibatkan organisasi fonologi pada level yang lebih tinggi dari segmen-segmennya. Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  28. 28. Definisi Prosodi p y j [ j ] Definisi prosodi menurut Hiroya Fujisaki [Fuj96] : “Prosody is the systematic organization of various linguistic units into an utterance or a coherent group of utterances in the process of speech production. Its realization involves both segmental and suprasegmental f t t l features of speech, and serves to convey f h d t not only linguistic information, but also paralinguistic and non-linguistic information”. Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  29. 29. Rangkuman Definisi Prosodi g • Prosodi adalah “organisasi yang sistematis dari g y g berbagai unit linguistik untuk membentuk ucapan”. • Prosodi dapat dilihat sebagai fenomena fisik atau fenomena li f linguistik. i tik • Prosodi sebagai fenomena fisik dibentuk dari properti- properti pitch, tingkat kekerasan, serta durasi. • Prosodi sebagai fenomena linguistik dipengaruhi oleh informasi informasi linguistik, informasi para- linguistik (i f li i l h ditambahkan oleh pengucap), i ik (informasi yang di b hk ) serta informasi non-linguistik (usia, jenis kelamin dan g y ) sebagainya). Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  30. 30. Model-Model Prosodi • Model Fujisaki • Model Acoustic Stylization • Model Automatic Perceptual Stylization • Model “Teori Kontur Pitch” • Model “Teori Urutan Nada” Teori Nada Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  31. 31. Model Fujisaki j • Kurva pitch p p prosodi merupakan super-impose dari kurva p p p frasa dan kurva aksen. • Fujisaki tidak menjelaskan bagaimana mengaitkan setiap komponen d k dengan aspek li k linguistiknya. i tik Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  32. 32. Teori Kontur Pitch • Teori Kontur Pitch menyatakan bahwa kurva pitch dibentuk dari segmen segmen segmen-segmen unik yang berasal dari kumpulan segmen yang jumlahnya terhingga. • Pernah diterapkan oleh Delatree untuk Bahasa Perancis dengan 10 segmen (k t d (kontur dasar) ) Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  33. 33. Penelitian Intonasi Bahasa Indonesia • Analisis pola intonasi secara kualitatif. Penelitian-penelitian kelompok ini mencoba menganalisis pola intonasi bahasa Indonesia tanpa melakukan pengukuran secara kuantitatif. • Analisis pola intonasi secara kuantitatif. Analisis pola intonasi bahasa Indonesia berdasarkan besaran besaran besaran‐besaran kuantitatif yang diukur mengunakan alat tertentu. – ”Intonation in Relation to Syntax in Indonesia” yang merupakan disertasi Bapak Amran Halim ( p (1969, Universitas Michigan). , g ) • Pemodelan Intonasi. Pengembangan model yang dapat membangkitkan pola intonasi secara otomatis untuk suatu kalimat tertentu. – Model intonasi Indo-1, diusulkan oleh Arry Akhmad Arman yang dipublikasikan pada APCC (Asia Pacific Conference on Communications) 2001 di Tokyo, Jepang [ASAM01]. – Model intonasi Indo-2, diusulkan oleh Arry Akhmad Arman yang dipublikasikan dip blikasikan sebagai disertasi (2004) Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  34. 34. Model Intonasi Indo-1 Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  35. 35. Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  36. 36. Definisi Praktis ‘Model Prosodi’ Saya membeli 5 Text kerang seharga Rp 200,- eme Normalization li i Exception Letter-to-Phoneme ext-to-Phone Dictionary Lookup Conversion Prosody Te Generation |_| ,100ms |s| ,60ms, 97Hz ch eme-to-Speec |a| 85 | | ,85ms, 100Hz 100H Speech Parameter …. Generation |r| ,55ms, 110Hz |a| ,90ms, 114Hz | ñ|, 87ms ,117Hz |, , Phone … Speech Waveform Production Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 36
  37. 37. Model Intonasi Indo-2 [Tahap Analisis] Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  38. 38. Model Intonasi Indo-2 [Tahap Analisis] Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  39. 39. Model Intonasi Indo-2 [Tahap Analisis] Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  40. 40. Model Intonasi Indo-2 [Tahap Analisis] Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  41. 41. Model Intonasi Indo-2 [Tahap Analisis: Hasil Analisis] • Kurva prosodi Bahasa Indonesia p dapat dibentuk dari segmen-segmen yang dapat dikategorikan dalam dalam suatu kumpulan segmen yang jumlahnya terhingga • Setiap segmen dapat dibentuk dari sub-sub segmen yang mempunyai trend linier • Setiap sub segmen dapat dibentuk dari kurva linier dan aksen-aksen yang terletak pada suku kata tertentu • B b berhubungan d Batas-batas segmen b h b dengan i f informasi i linguistik (koma dan simbol lainnya) serta informasi p para linguistik (kata tersebut, itu, dan sebagainya) g ( g y ) Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  42. 42. Model Intonasi Indo-2 Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  43. 43. Model Intonasi Indo-2 Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  44. 44. Deskripsi Model [1] [Besaran-Besaran [Besaran Besaran Sistem] jseg kalimat = U s , jseg = jumlah segmen dalam kalimat i i =1 jss si = U ss ij , jss = jumlah sub segmen j =1 jkt ssij = U kt ijk , jkt = jumlah kata dalam segmen k =1 jsk kt ijkl = U sk ijkl , jsk = jumlah suku kata dalam kata l =1 jf sk ijklm = U fonemijklm , jf = jumlah fonem pada sukukata ijkl kl kl ijklm m =1 Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  45. 45. Deskripsi Model [2] [Proses Segmentasi] AS = (as1 , as 2 ,L, as jas ), jas = jumlah aturan segmentasi  as = (t , pt , kpt , js, ls )  t ∈ ( t l ∪ t pl ) t l = informasi linguistik t pl = informasi para - linguistik pt = (1,2,L , jt ), jt = jumlah token dalam kalimat p j j j kpt = (<, ≤, =, ≥, >) js ∈ (tag1 , tag 2 , L, tag n ) ls ∈ (sebelum, sesudah) Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  46. 46. Deskripsi Model [3] [Proses Segmentasi] durasi _ total ( ssij ) = ∑∑∑ durasi( fonemklm ) k l m pitch ( fonemijklm ) = pitch _ frasaijklm + pitch _ aksenijklm  pitch _ frasa( fonemijklm ) = G ∑∑∑ durasi( fonemk ,l ,m ) + PA  k l m   ( PB − PA )  G= durasi _ total ( ssij )   pitch _ aksen( fonemijklm ) = 0, jika aturan aksen tidak terpenuhi   = ps, jika aturan terpenuhi  Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  47. 47. Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  48. 48. Application Natural Language Translator Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 48
  49. 49. Application Speech to Speech Translation Speech Translator Text to Recognition Indonesia Speech Indonesia text Inggris text Inggris speech p speech Bahasa Indonesia English speech speech Text to Translator Speech Speech Inggris Recognition Indonesia text Indonesia text Inggris Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 49
  50. 50. Application Document Reader Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 50
  51. 51. Application Terminal for Deaf People Monitor Text Screen To Speech Deaf and d Prople Keyboard Speech g Recognition Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 51
  52. 52. Application Talking Aid Sign Text to Language Speech Identification Speech Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 52
  53. 53. Application Talking Aid Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 53
  54. 54. Aplikasi Untuk Tuna Netra p Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  55. 55. Interaksi Lisan dengan Komputer g p 2 Kurs rupiah terhadap Komputer! Tolong 1 dolar saat ini menurut bacakan kurs rupiah informasi Bank terhadap dolar Indonesia adalah …. amerika! Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  56. 56. Layanan pemesanan tanpa operator! y p p p Sedang! Selamat datang di layanan online Piza Jakarta! k Sebutkan ukuran yang akan anda pesan: besar, sedang, atau kecil! Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  57. 57. Application Future • Di masa depan robot akan depan, menjadi bagian dari kehidupan kita sehari‐hari; p ; tentunya kita tidak berharap berhadapan dengan robot yang hanya bisa berbahasa Inggris atau Jepang! Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 57
  58. 58. Penutup p Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008
  59. 59. Terima kasih ! Award from Presiden RI, Award f A d from DAAD F DAAD-Fraunhofer, h f 2003 Germany , 2004 Materi kuliah ini dapat di download di http://slideshare.net/kupalima Arry Akhmad Arman | http://www.kupalima.com | arman@kupalima.com | Institut Teknologi Bandung | 2008 59

×