Your SlideShare is downloading. ×

Pengsu uts

1,340
views

Published on

Aplikasi kamus binatang bahasa inggris untuk pembelajaran taman kanak-kanak

Aplikasi kamus binatang bahasa inggris untuk pembelajaran taman kanak-kanak

Published in: Education, Technology

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,340
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
21
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Nama Kelompok :<br />
    • M. Fikri Muhtadi H(08650121)
    • 2. Velly Nindy T.(08650127)
    Aplikasi Text To Speech Kamus Binatang Bahasa Inggris Dengan Metode Diphone Concatenation<br />
    • Pendahuluan
    Sistem konversi text-to-speech (TTS) merupakan suatu sistem yang mampu memproduksi sinyal ucapan secara otomatis melalui transkripsi grafem-ke-fonem untuk kalimat yang diucapkan. Perbedaan sistem TTS dengan talking machine biasa adalah keotomatisannya dalam mengucapkan kata-kata baru. Oleh karena itu TTS memungkinkan untuk diimplementasikan pada bidang aplikasi yang beragam seperti aplikasi sms bicara, buku digital dan pembaca email otomatis. Luasnya aplikasi yang ditawarkan oleh sistem TTS ini, dan berkembangnya beberapa perangkat/platform, seperti Handphone dan PDA, telah mendorong diimplementasikannya sistem TTS pada berbagai platform untuk berbagai keperluan. Dukungan hardware dan software yang memadai memungkinkan sistem TTS untuk diimplementasikan pada perangkat tersebut. Namun demikian, pada umumnya perangkat yang berkembang selalu mempertimbangkan karakteristik memori yang terbatas. Oleh karena itu, perancangan suatu sistem aplikasi yang mempertimbangkan penghematan memori dan kecepatan proses perlu untuk dikembangkan.<br />Sistem Text To Speech yang mampu menghasilkan sinyal ucapan yang jelas dan alami bias dilakukan dengan synthesizer perangkaian berbasis fonem, sehingga diperoleh sistem TTS dengan kompleksitas yang lebih rendah dan lebih hemat memori.<br />
    • Text To Speech
    • 3. Text-to-speech (TTS) adalah salah satu tipe dari aplikasi speech syntesis yang digunakan untuk membuat versi suara dari teks yang ada pada dokumen di komputer (misalnya eBook). TTS dapat dimanfaatkan untuk membacakan informasi di layar komputer pada orang-orang yang tunanetra ataupun juga digunakan juga untuk membacakan text message, seperti yang sudah di-implementasikan pada beberapa handphone untuk membacakan SMS. Selain itu, aplikasi TTS saat ini mencakup juga voice-enabled e-mail dan perangkat suara pada sistem dengan respons suara. Text-to-speech juga seringkali digunakan bersamaan dengan program voice recognition.
    Sistem TTS memproduksi sinyal ucapan secara otomatis melalui transkripsi grafem kefonem pada kalimat yang diberikan. Hal inilah yang membedakan sistem TTS dengan mesin bicara lainnya. Sistem voice response systems misalnya, bekerja dengan merangkai susunan kata terpisah (isolated word), hanya sesuai untuk aplikasi dengan jumlah kosa kata yang terbatas. Dalam konteks sistem TTS, sangat tidak mungkin (selain tidak berguna) untuk menyimpan seluruh kata dari satu bahasa.<br />Tugas sistem TTS secara umum dapat dibagi dalam 2 bagian besar, analisa teks dan sintesa ucapan. Analisa teks mentransformasi teks masukan menjadi representasi linguistik, selanjutnya bagian sintesis ucapan mentransformasi representasi linguistik tersebut menjadi gelombang sinyal ucapan. Beberapa aplikasi dimana sistem TTS ini dapat diterapkan antara lain :<br />− Layanan telekomunikasi seperti akses informasi tekstual melalui telepon, Telephone relay service, SMS bicara, pembacaan e-mail melalui telepon, IVR (Interactive Voice Respons), dan Automatic Caller Identity<br />− Pembelajaran bahasa<br />− Pemecahan terhadap beberapa permasalahan kemanusiaan seperti membantu tuna netra mengakses informasi tertulis<br />atau membantu tuna wicara mengungkapkan pesannya dalam bentuk ucapan<br />− Buku bicara (talking books) dan mainan bicara<br />− Multimedia, komunikasi man-machine<br />−Penelitian dasar dan terapan<br />Secara umum proses dalam sistem TTS terdiri dari Natural Language Prossesing (NLP) yang berupa modul konversi teks ke fonem yang menghasilkan transkripsi fonetik beserta informasi intonasi dan ritme (dikenal dengan prosodi) dan Digital Signal Processing (DSP) yang berupa modul konversi fonem ke ucapan, yang mengubah informasi fonetis yang diterimanya menjadi sinyal ucapan. Secara umum sistem TTS digambarkan pada Gambar di bawah ini<br />.<br />15629861041990 <br /> Model intonasi Basis data diphone <br />Bahasa Inggris Bahasa Inggris<br /> Teks Konversi teks ke fonem Konversi fonem ke teks Suara<br /> Kode- kode fonem, nada dan durasi<br />Gambar 1.2 Sub sistem pensintesis ucapan<br />
    • Teks merupakan kalimat masukan dalam suatu bahasa tertentu yang berbentuk teks
    • 4. Bagian konverter teks ke fonem, mengubah kalimat masukan dalam suatu bahasa tertentu yang berbentuk teks menjadi rangkaian kode-kode bunyi yang biasanya dipresentasikan dengan kode fonem, durasi serta pitch(frekuensi dasar)-nya.
    • 5. Model intonasi bahasa inggris ini merupakan model pengucapan dengan logat atau pengucapan bahasa inggris
    • 6. Bagian konverter fonem ke ucapan akan menerima masukan berupa kode-kode fonem serta pitch dan durasi yang dihasilkan oleh bagian sebelumnya. Serta akan menghasilkan bunyi atau sinyal ucapan yang sesuai dengan kalimat yang ingin diucapkan.
    • 7. Basis data diphone bahasa inggris adalah database kata atau teks yang akan disuarakan yang sebelumnya akan dikonversi terlebih dahulu.
    Natural Language Prossesing (NLP)<br />Modul NLP dapat diimplementasikan dengan beberapa solusi, yang sering diklasifikasikan sebagai dictionary-based dan rule-based. Solusi dictionary-based diimplementasikan dengan menyimpan sebanyak mungkin informasi fonologi ke dalam kamus. Dalam metoda ini transkripsi dilakukan dengan cara metoda lookup database leksikal yang telah disusun. Sedangkan sistem transkripsi rule-based, menggantikan penyimpanan informasi fonologi dalam kamus dengan membuat set aturan letter-to-sound (atau grafem-ke-fonem).<br />Synthesizer<br />Tahap pemrosesan terakhir dari sistem TTS adalah sintesa sinyal ucapan. Secara umum terdapat tiga metoda dasar untuk sintesa sinyal ucapan. Sintesis articulatory, yang berusaha memodelkan sistem produksi sinyal ucapan manusia dengan pendekatan fisik mekanis secara langsung, sintesis formant, yang memodelkan frekuensi pole suatu sinyal ucapan atau fungsi transfer yang berbasis vocal track atau model source-filter, sintesis perangkaian (concatenation), yang menggunakan panjang bagian yang berbeda dari suatu perekaman sinyal ucapan alami. Namun demikian dua teknik yang sering digunakan adalah formant synthesizer dan diphone Concatenation.<br />Sintesis formant didasarkan pada pemodelan source-filter, merupakan pensintesis dengan pendekatan deskripsi acousticphonetic. Model dasar akustik berupa model sumber atau filter. Filter dibuat dengan beberapa set formant, yang menggambarkan artikulasi dalam suatu ucapan suara. Sumber menggambarkan phonation. Model ini memodelkan aliran suara (glottal flow) atau sinyal eksitasi noise. Baik sumber dan filter dikontrol oleh suatu set aturan fonetis (biasanya<br />ratusan). Walaupun dapat menghasilkan ucapan dengan tingkat kemudahan interprestasi yang baik, namun synthesizer ini tidak dapat menghasilkan ucapan dengan tingkat kealamian yang tinggi.<br />Sintesis perangkaian bekerja dengan merangkai unit ucapan yang telah tersimpan sebelumnya (database unit ucapan). Merangkai rekaman bagian ucapan alami merupakan cara termudah untuk membuat sinyal ucapan yang jelas dan alami. Tetapi, pesintesis perangkaian hanya terbatas pada seorang pengucap, dan satu suara, dan biasanya membutuhkan kapasitas memori yang lebih banyak daripada metoda yang lain. Kata (word) mungkin menjadi unit ucapan yang paling alami untuk suatu tulisan teks tetapi dengan keterbatasan perbendaharaan kata. Perangkaian kata relatif lebih mudah untuk dibuat dan pengaruh koartikulasi antar kata dapat diatasi. Dengan banyaknya kata yang harus tercakup, maka penggunaan kata sebagai unit ucapan kurang cocok untuk sistem TTS. Jumlah suku kata yang berbeda pada suatu bahasa biasanya lebih kecil dari pada kata, tetapi banyaknya unit dalam database masih terlalu banyak untuk sistem TTS, misal: ada 10000 suku kata dalam Bahasa Inggris. Demisyllable merupakan bentuk awal dan akhir suatu suku kata. Satu keuntungan dari penggunaan demisyllable adalah hanya 1000 demisyllable yang dibutuhkan untuk membuat 10000 suku kata.<br />Diphone merupakan unit ucapan yang paling sering digunakan sebagai unit database. Diphone diberikan untuk memperluas titik tengah pada kondisi tetap suatu bagian bunyi dengan titik tengah bunyi yang mengikutinya. Ini dimaksudkan agar pada perangkaian selalu diupayakan untuk berada pada kondisi yang tetap (steady state), yang mengurangi distorsi pada titik perangkaian. Keuntungan lainnya, diphone tidak terlalu banyak membutuhkan formulasi pengaruh co-artikulasi sebagai suatu aturan. Secara prinsip, jumlah diphone adalah kuadrat dari jumlah fonem beserta alofon-nya, tetapi tidak semua kombinasi fonem dibutuhkan.<br />Fonem dapat juga digunakan sebagai unit ucapan pada database. Umumnya unit dasar ini berjumlah antara 40-50, yang jauh lebih kecil jika dibandingkan dengan unit yang lain. Penggunaan fonem memberikan fleksibilitas yang tinggi dengan sistem rule-based. Tetapi, beberapa fonem yang tidak memiliki target posisi yang tetap, seperti plosives, akan sulit untuk disintesis. Artikulasi juga harus dirumuskan sebagai aturan. Beberapa masalah pada sintesis perangkaian dibandingkan dengan metoda yang lain, yaitu:<br />• Terjadi distorsi akibat ketidakberlanjutan pada titik perangkaian, yang dapat dikurangi dengan menggunakan diphone<br />atau beberapa metoda lainnya untuk memperhalus sinyal ucapan.<br />• Kebutuhan terhadap memori sangat tinggi, khususnya ketika menggunakan unit perangkaian yang panjang, misalnya suku kata dan kata.<br />• Pengumpulan data dan penandaan bagian sinyal ucapan membutuhkan waktu yang lama.<br />Masalah-masalah tersebut dapat diatasi dengan salah satu metode yang ada yaitu Pitch Synchronous Overlap Add (PSOLA).<br />
    • Penggabungan Frasa Kata
    Metode ini menggabungkan frasa kata yang sebelumnya telah direkam untuk membentuk sebuah kalimat dan merupakan metode yang paling mudah serta paling banyak digunakan saat ini. Kebanyakan system voice-mail menggunakan metode ini. Sebagai contoh, pesan pada voice-mail "Anda mempunyai [dua] buah pesan", ini merupakan pesan yang terdiri dari tiga bagian yaitu dua buah pesan yang bersifat statis "Anda mempunyai" dan "buat pesan" serta sebuah pesan yang bersifat dinamis tetapi telah dipersiapkan sebelumnya yaitu "dua".<br />
    • Sintesi Kata
    Metode ini menghasilkan sintesis atau tiruan kata secara elektronik dengan<br />menerapkan algoritma perhitungan yang kompleks untuk mensimulasikan pita suara,<br />rongga mulut, bentuk bibir dan posisi lidah. Suara yang dihasilkan dari metode ini<br />seperti suara robot tetapi dengan algoritma yang telah ada pada Text to Speech<br />
    • engine menjadi seperti suara manusia.
    • 8. Penggabungan Frasa Kata dan Sintesis Kata
    Metode ini menggabungkan segmen audio dan menggunakan algoritma perhitungan untuk menghaluskan jeda guna menghasilkan suara yang utuh. Contohnya adalah "hello", terdiri dari empat segmen.<br />
    • Konversi Dari Teks ke Ucapan
    • 9. Sistem Text to Speech pada prinsipnya terdiri dari dua sub sistem, yaitu :
    • 10. 1. Bagian Konverter Teks ke Fonem (Text to Phoneme), serta
    • 11. 2. Bagian Konverter Fonem to Ucapan (Phoneme to Speech).
    • 12. Bagian Konverter Teks ke Fonem berfungsi untuk mengubah kalimat masukan dalam suatu bahasa tertentu yang berbentuk teks menjadi rangkaian kode-kode bunyi yang biasanya direpresentasikan dengan kode fonem, durasi serta pitch-nya. Bagian ini bersifat sangat language dependant. Untuk suatu bahasa baru, bagian ini harus dikembangkan secara lengkap khusus untuk bahasa tersebut.
    • 13. Bagian Konverter Fonem ke Ucapan akan menerima masukan berupa kode-kode fonem serta pitch dan durasi yang dihasilkan oleh bagian sebelumnya. Berdasarkan kode-kode tersebut, bagian Konverter Fonem ke Ucapan akan menghasilkan bunyi
    • 14. atau sinyal ucapan yang sesuai dengan kalimat yang ingin diucapkan. Ada beberapa alternatif teknik yang dapat digunakan untuk implementasi bagian ini. Dua teknik yang banyak digunakan adalah formant synthesizer, serta diphone concatenation.
    • 15. Format synthesizer bekerja berdasarkan suatu model matematis yang akan melakukan komputasi untuk menghasilkan sinyal ucapan yang diinginkan. Synthe-sizer jenis ini telah lama digunakan pada berbagai aplikasi. Walaupun dapat menghasilkan ucapan dengan tingkat kemudahan interpretasi yang baik, synthesizer ini tidak dapat menghasilkan ucapan dengan tingkat kealamian yang tinggi. Synthesizer yang menggunakan teknik diphone concatenation bekerja dengan cara menggabung-gabungkan segmen-segmen bunyi yang telah direkam sebelumnya. Setiap segmen berupa diphone (gabungan dua buah fonem). Synthesizer jenis ini dapat menghasilkan bunyi ucapan dengan tingkat kealamian (naturalness) yang tinggi.
    • 16. Struktur sistem seperti di atas pada prinsipnya merupakan konfigurasi tipikal yang digunakan pada berbagai sistem Text to Speech berbagai bahasa. Namun demikian, pada setiap sub-sistem terdapat sifat-sifat serta proses-proses yang sangat spesifik dan sangat tergantung dari bahasanya. Konversi dari teks ke fonem sangat dipengaruhi oleh aturan-aturan yang berlaku dalam suatu bahasa. Pada prinsipnya proses ini melakukan konversi dari simbol-simbol tekstual menjadi simbol-simbol fonetik yang merepresentasikan unit bunyi terkecil dalam suatu bahasa. Setiap bahasa memiliki aturan cara pembacaan dan cara pengucapan teks yang sangat spesifik. Hal ini menyebabkan implementasi unit konverter teks ke fonem menjadi sangat spesifik terhadap suatu bahasa. Untuk mendapatkan ucapan yang lebih alami, ucapan yang dihasilkan harus memiliki intonasi (prosody). Secara kuantisasi, prosodi adalah perubahan nilai pitch (frekuensi dasar) selama pengucapan kalimat dilakukan atau pitch sebagai fungsi waktu. Pada prakteknya, informasi pembentuk prosodi berupa data-data pitch serta durasi pengucapannya untuk setiap fonem yang dibangkitkan. Nilai-nilai yang dihasilkan diperoleh dari suatu model prosodi. Prosodi bersifat sangat spesifik untuk setiap bahasa, sehingga model yang diperlukan untuk membangkitkan data-data prosodi menjadi sangat spesifik juga untuk suatu bahasa. Beberapa model umum prosodi pernah dikembangkan, tetapi untuk digunakan pada suatu bahasa masih perlu banyak penyesuaian yang harus dilakukan. Konverter fonem ke ucapan berfungsi untuk membangkitkan sinyal ucapan berdasarkan kode-kode fonem yang dihasilkan dari proses sebelumnya. Sub system ini harus memiliki pustaka setiap unit ucapan dari suatu bahasa. Pada system yang menggunakan teknik diphone concatenation, sistem harus didukung oleh suatu diphone database yang berisi rekaman segmen-segmen ucapan yang berupa diphone. Ucapan dalam suatu bahasa dibentuk dari satu set bunyi yang mungkin berbeda untuk setiap bahasa, oleh karena itu setiap bahasa harus dilengkapi dengan diphone database yang berbeda. Tahap normalisasi teks berfungsi untuk mengubah semua teks kalimat yang ingin diucapkan menjadi teks yang secara lengkap memperlihatkan cara pengucapannya.
    • 17. Perancangan Sistem TTS Berbasis Fonem
    • 18. Beberapa kriteria yang diperhatikan dalam merancang sistem TTS ini adalah :
    a. Versatility (kecakapan), seberapa luas kata yang dapat diproses akan menentukan tingkat kecakapan sistem TTS.<br />b. Metoda analisis teks. Sebagaimana telah dijelaskan sebelumnya, bahwa pemilihan metoda analisis teks akan memberikan konsekuensi yang berbeda terhadap hasil perancangan. Sistem look-up dictionary akan memerlukan memori yang sangat besar. Sebaliknya sistem rule-based akan bermasalah ketika menemukan permasalahan pengecualian aturan yang kompleks.<br />c. Metode sintesis, pemilihan metoda sintesis sangat mempengaruhi hasil kualitas speech yang diproduksi sistem ini.<br />d. Platform, pada platform mana sistem ini bekerja.<br />5.1 Perancangan Modul Text Analyzer<br />Tugas utama teks analiser adalah merubah teks masukan menjadi informasi linguistik yang selanjutnya siap dikonversi oleh sintesiser menjadi ucapan yang benar dan jelas. Dalam hal ini metoda yang digunakan adalah gabungan metoda look-up dictionary dengan metoda rule-based. Hal ini dilakukan dengan berberapa pertimbangan, antara lain dengan penggabungan ini diharapkan kata-kata yang sulit dipecahkan dengan rule-based dapat ditemukan dalam entry kamus yang sudah disusun sebelumnya, tanpa menimbulkan kebutuhan memori yang besar akibat penyusunan kamus khusus ini. Hal ini disebabkan karena hanya kata tertentu yang disimpan dalam kamus khusus. Sistem yang direalisasikan dalam penelitian ini dapat dilihat pada Gambar 2.<br />Algoritma pencocokan teks masukan dengan entry dalam kamus merupakan bagian yang penting untuk diperhatikan dalam hal ini, khususnya berkenaan dengan jumlah siklus komputasi yang diperlukan. Sebagai misal database yang ada berisi 1000 kata dalam Bahasa Indonesia. Dalam hal ini jika digunakan <br />Untuk menghindari masalah ini, dalam hal ini proses pencarian/pencocokan dilakukan dengan algoritma biner. Dimana awal pointer diset pada tepat ditengah array data. Karena isi dari database adalah array dengan panjang konstan dan berbasis alpabet, maka langkah pencarian berikutnya secara mudah dapat ditentukan kearah data sebelum pointer atau sesudahnya. Demikian seterusnya, sehingga dalam kasus terjelek, dimana kata tidak ditemukan dalam kamus, hanya akan memerlukan 10 step. Dalam penelitian ini, blok pengontrol prosodi tidak direalisasikan.<br />5.2 Perancangan Synthesizer<br />Modul sintesis adalah bagian akhir dari sistem TTS yang bertugas mengkonversi informasi fonetik dan prosodi yang ada menjadi sinyal ucapan. Metoda sintesis disini digunakan TD_PSOLA sebagai pensintesa ucapan.<br />5.2.1 Database Unit Ucapan<br />Database unit ucapan berfungsi menampung seluruh unit ucapan yang digunakan dalam sistem TTS. Dalam penelitian ini unit ucapan yang digunakan adalah fonem. Salah satu alasan pemilihan fonem sebagai unit ucapan, menggantikan diphone adalah penghematan dalam penggunaan memori dapat dicapai secara drastis. Setiap fonem memiliki bentuk yang berbeda bergantung dari posisinya dalam kata, baik bentuk sinyal maupun durasinya. <br />Tiap fonem memiliki tiga bentuk, yakni fonem di awal suku, fonem di tengah suku, dan fonem di akhir suku. Oleh karena itu setidaknya diperlukan 35 x 3 = 115 unit ucapan. Namun demikian masih terdapat fonem khusus yang perlu ditambahkan dan dieliminasi, sehingga keseluruhan terdapat 108 buah unit ucapan. Unit ucapan direkam dengan frekuensi pencuplikan 22050 Hz, dan diolah menggunakan perangkat lunak Cool Edit 2000. Data disimpan dalam file WAV. <br />5.2.2 Sintesiser dengan Metoda PSOLA modifikasi<br />Sebagaimana dijelaskan dalam bab sebelumnya, bahwa metoda sintesis TD-PSOLA sebagai salah satu metoda sintesiser dengan prinsip perangkaian, bekerja dengan tiga tahap proses. Secara singkat, tiga tahap proses pada PSOLA adalah sebagai berikut:<br />Pertama, sinyal suara x(n) dibagi menjadi beberapa bagian/frame (short term signal), dengan cara mengalikan sinyal suara x(n) dengan jendela analisis. Jendela yang digunakan umumnya tipe Hanning yang titik tengahnya berada pada tm. tm sering disebut dengan istilah pitch mark.<br />
    • Uji Kecakapan (Versatility) Pengucapan Kata
    Salah satu kriteria yang perlu diperhatikan dalam merancang sistem TTS adalah versatility, yakni berkenaan dengan seberapa luas kata yang dapat diucapkan. Dalam bahasa Inggris kita mengenal vokal, konsonan dan juga alofon, dimana kombinasi posisi dari masing-masing komponen tersebut akan sangat mungkin membedakan pengucapannya. <br />Berdasarkan pengamatan terhadap beberapa pengucapan kata/kalimat dalam bahasa Inggris oleh sistem TTS ini, maka dapat dikatakan bahwa sistem TTS ini mampu mengucapkan vokal /a/, /i/, /u/, /e/, /o/, dan / / dengan benar, baik vokal pada posisi awal, tengah maupun akhir kata, dan juga masih dapat mengucapkan dengan baik untuk vokal serupa yang beriringan. Demikian pula pada pengamatan ucapan dari grafem konsonan, sebagian besar dapat diucapkan dengan baik. <br />Namun demikian pada kata-kata tertentu, pengucapan beberapa konsonan seringkali tidak jelas khususnya terjadi pada konsonan akhir. Hal ini dapat diakibatkan oleh sangat pendeknya durasi unit ucapan untuk konsonan tersebut. Dalam hal ini sistem diuji dengan pola variasi posisi vokal-konsonan dalam Bahasa Inggris dilakukan dengan sejumlah kata yang berpola. Berdasarkan data pengujian, maka sistem TTS hasil realisasi hampir dapat mengucapkan seluruh kata baku dalam bahasa Inggris.<br />
    • Uji Unjuk Kerja Sintesiser
    Unjuk kerja sintesiser diukur dari keberhasilannya dalam membuat perangkaian dari unit ucapan dalam database untuk menghasilkan sinyal ucapan sintesis yang alami. Untuk itu pengamatan kinerja sintesiser akan dibandingkan dengan beberapa sinyal ucapan hasil sintesis dengan sinyal asli, dengan titik berat pengamatan pada daerah sambung antar fonem tersebut.<br />
    • Program Kamus Binatang Bahasa Inggris
    • 19. 10185105346Menetukangambardannama fileMengambilnama file kemudiandimasukkandalam listMengambilnama file dari list yang adadalambentukteksOutput suaraMengalokasikan database suara
    <br /> Output Suara<br /> <br /> Gambar Alur Program Kamus Bahasa Inggris<br />1485900590550Yang pertama adalah memilih gambar binatang dan memberikan nama gambar binatang tersebut. Sebagai contoh pemilihan gambar binatang elang<br />Gambar tersebut kami beri nama “eagle”<br />Kami pilih 20 gambar binatang yang kemudian dimasukkan dalam daftar file.<br />Setelah itu diambil 1 nama file dalam bentuk teks dan dialokasikan dalam database suara <br />Database suara ini berfungsi untuk mengolah teks dengan metode diphone concatenation.<br />Pada prinsipnya dilakukan dengan cara menyusun sejumlah diphone sehingga diperoleh ucapan yang diinginkan. Sebagai contoh, pembentukan kata atau ucapan “Eagle” yang disusun dari diphone-diphone /_e/, /ea/, /ag/, /gl/, /le/, /e_/.<br />Supaya pensitesa/ pengolahan ucapan dapat mengucapkan semua kemungkinan kata atau kalimat yang ada dalam suatu bahasa, sistem tersebut harus didukung oleh diphone database yang terdiri dari semua kombinasi diphone yang ada dalam bahasa tersebut.<br />Unit pemroses diphone akan menerima masukan berupa daftar fonem yang ingin diucapkan, masing-masing disertai oleh durasi pengucapannya, serta pitch atau frekuensinya. Berdasarkan daftar fonem yang diterima, unit ini akan menentukan susunan diphone yang sesuai.<br />Perlu diketahui pula bahwa mbrola yang kami ambil merupakan mbrola yang sudah ada sebelumnya, jadi hanya mendownload kemudian file (.jar) tersebut dimasukkan dalam program yang kami buat.<br />Yang terakhir adalah output berupa suara yang dihasilkan dari nama file yang telah diberikan di gambar yang ada.<br />Contoh gambar dan nama file dengan nama binatang “eagle”<br />183721730288<br /> <br /> Eagle<br />
    • Desain interface
    102914326331<br /> Fungsi tombol :<br />2443273270407<br /> Previous<br />2432641249821<br /> Next<br />2443274209919<br /> Voice<br />