SlideShare a Scribd company logo
1 of 4
Download to read offline
Paper Tentang Speech Recognition 
12650026 | AS Wahid Faizin 
Abstract 
Suara atau ucapan adalah cara berkomunikasi yang paling sering dilakukan oleh manusia. 
Komunikasi yang dilakukan antara manusia dan komputer sering disebut sebagai Human 
Computer Interface (HCI) atau Interaksi manusia dan komputer (IMK). Pengenalan suara atau 
Speech Recognition menjadi salah satu hal potensial penting yang menjadi perhatian dalam 
interaksi antara manusia dan komputer. Desain dari sistem Speech Recognition membutuhkan 
perhatian dan penanganan yang khusus dan hati-hati, pada sistem itu terdapat beberapa kendala: 
realisasi akustik fonem, keragaman akustik, keragaman pengucapan atau dialek bahasa, kondisi 
emosional pembicara, kecepatan berbicara atau kualitas suara, lingkungan. 
Keywords: Pengenalan suara, Pengolahan Suara, Interaksi Manusia dan Komputer, ASR. 
Pendahuluan 
Speech Recognition atau Automatic Speech Recognition (ASR) atau pengenalan suara 
adalah sebuah proses konversi sinyal suara menjadi kata atau perintah. Dalam hal ini diperlukan 
sebuah algoritma yang diinmplementasikan menjadi sebuah program komputer untuk menjalankan 
perintah tersebut. Aplikasi pengenalan suara yang telah diimplementasikan hingga saat ini antara 
lain untuk melakukan panggilan (Misalnya, "Panggil Ayah"), Melakukan input data sederhana 
(Misalnya, memasukkan nomor kartu kredit), Pengolahan kata menjadi teks (Misal, windows 
speech recognition), sistem pesawat (Misal, pengatur lalu-lintas udara atau yang dikenal 
dengan Air Traffic Controllers ). 
Pembahasan 
Model dasar Speech Recognition 
Penelitian di bidang pengolahan suara telah memotivasi banyak orang untuk menciptakan 
model mekanik untuk meniru kemampuan komunikasi verbal manusia. Berbicara adalah bentuk 
komunikasi manusia yang paling dasar, dan pengolahan suara telah menjadi salah satu hal yang 
paling diperhatikan dalam bidang signal processing. Tujuan utama dari teknologi pengenalan 
suara adalah menciptakan sebuah teknik dan sistem untuk memasukkan perintah suara ke dalam 
mesin, agar mesin dapat mengerti apa yang manusia ucapkan dan mematuhi apa yang 
diperintahkannya. 
Sejarah Speech Recognition 
Sejarah perkembangan dari speech recognition telah dimulai lebih dari 1 abad yang lalu, 
dalam sejarah ada beberapa peristiwa penting yang tercatat, yaitu: 
Tahun 1874 : Alexander Graham Bell berhasil membuktikkan bahwa frekuensi harmoni dari 
sebuah sinyal elektrik dapat dibagi-bagi yang kemudian hari berlanjut pada digitalisasi ucapan. 
Tahun 1952 : Bell Labs mengembangkan speech recognizer pertama dengan menggunakan 
teknologi pemisah frekuensi yang serupa dengan teknologi yang dikembangkan oleh 
Alexander Graham Bell. 
1971-1976 : Defence Advance Research Project Agency dibentuk yang merupakan proyek 
riset dengan dana dari pemerintah AS. Tujuan dari proyek ini adalah untuk melakukan 
penelitian teknologi speech recognition. Penemuan terbesar yang dihasilkan proyek ini adalah
peningkatan dalam menekan permasalahan variabilitas suara. Pada rentang tahun yang sama 
pula ditemukan : 
Pemrograman dinamik oleh tiga peneliti asal Jepang, Itakura, Skoe, dan Chiba yang 
dikemudian hari menjadi dasar bagi deret waktu non-linier. 
Pemodelan Makov oleh Jim Baker dan Fred Jelinek dari IBM yang merupakan pemodelan 
untuk menentukan letak informasi tetap dalam sebuah sinyal suara (speech signal). 
Pertengahan tahun 1970-an : Itakura mengadakan sebuah riset untuk mengembangkan 
sebuah produk yang berbasis pada asumsi bahwa noise itu walaupun terdengar sama namun 
pada kenyataannya tidak demikian. Produk tersebut akurasinya mencapai 97,3% saat diuji 
menggunakan 200 kosakata. 
Bell Labs mengembangkan sistem yang mampu mengenali suara dari orang-orang yang 
berbeda dengan akurasi hingga 97,1%. 
Akhir tahun 1970-an : Produk speech recognition pertama mulai dipasarkan dengan harga 
mulai $259 hingga $100.000. 
Tahun 1980-an : Pasaran speech recognition mulai digolongkan menjadi dua, yaitu Call 
Center Speech Recognition System dan Speech-to-Text Application. 
Tahun 1990-an : Prosesor sebuah personal computer telah sanggup memenuhi level 
minimal yang diperlukan agar sebuah software speech recognition dapat berjalan dengan 
lancar serta efektif untuk penggunaan pribadi. 
Tahun 1999 : Sebuah program speech recognition baru telah mampu memahami 
pembicaraan manusia secara berkesinambungan dengan tingkat akurasi hingga 99% yang 
membuatnya dapat dengan mudah digunakan oleh pengguna awam sekaligus. 
Jenis-jenis Speech Recognition 
Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan 
kata, yaitu : 
1. Kata-kata yang terisolasi 
Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika 
kata tersebut memiliki jeda waktu pengucapan antar kata 
2. Kata-kata yang berhubungan 
Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun 
membutuhkan jeda waktu pengucapan antar kata yang lebih singkat 
3. Kata-kata yang berkelanjutan 
Proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-kata 
yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat 
sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena 
membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa 
jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural 
4. Kata-kata spontan 
Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara 
spontan tanpa jeda waktu antar kata 
5. Verifikasi atau identifikasi suara 
Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga 
mengidentifikasi siapa yang berbicara. 
12650026 | AS Wahid Faizin
Proses produksi dan pengenalan suara pada manusia 
Spektrum setiap suara manusia berbeda-beda. Hal ini didasarkan pada bentuk 
tenggorokan, velum dan organ lain yang merupakan organ reproduksi suara pada manusia yang 
berbeda-beda untuk setiap individu. Lekukan-lekukan pada organ inilah yang menentukan jenis 
suara manusia. Sedangkan sumber suara dihasilkan oleh getaran pada pita suara. Proses 
Produksi suara (Speech Generation) hingga Pengenalan suata (Speech Recognition) pada 
komunikasi antara 2 buah subyek (Gambar A). 
Gambar A. Diagram produksi dan pengenalan suara pada manusia 
Proses produksi suara adalah suatu proses untuk menghasilkan sinyal suara manusia dimana 
sinyal suara pada awalnya berasal dari otak yang memformulasikan pesan yang ingin disampaikan 
melalui mulut. Pesan tersebut sebenarnya adalah seperti halnya teks/tulisan kemudian diolah 
menjadi kode bahasa (languange code). Kode bahasa ini sebenarnya adalah 
sebuah database (memori) dalam otak kita yang mencocokkan pesan dengan kode-kode tersebut. 
Keluaran dari proses tersebut akan diteruskan oleh proses neuro-moscular actions dimana pa da 
proses ini melakukan kontrol terhadap semua aspek gerak artikulasi seperti kontrol bibir, rahang 
dan lidah. Proses produksi suara ini sering diistilahkan sebagai speech 
synthesizing (pensintsesaan suara). 
Beda halnya dengan pengenal suara yang merupakan kebalikan dari produksi suara yang 
mana suara akan diolah akan masuk ke telinga (yang diimplementasikan oleh mikrofon) yang 
kemudian dilakukan spectrum analysis dan feature extraction dan coding oleh neural transduction. 
Selain itu pada bagian ini juga dilakukan pemilahan dari sinyal suara yang masuk dan menentuan 
semantik (arti) dari sinyal diskrit tersebut dengan mencocokan dengan kode bahasa yang 
merupakan kebalikan kode bahasa dari produksi suara. Untuk lebih jelasnya dapat dilihat diagram 
blok speech generation dan speech recognition (Gambar B). 
12650026 | AS Wahid Faizin
Gambar B. Diagram blok hubungan antara Speech Generation dan 
12650026 | AS Wahid Faizin 
Speech Recognition 
Perbandingan antara Automatic Speech Recognition dan Human Speech Recognition 
Sejauh ini perbandingan akurasi yang paling komprehensif antara ASR dan manusia 
dilakukan oleh Lippmann pada tahun 1997. Lippmann menyusun hasil dari berbagai sumber 
terpercaya dan menyajikannya dalam Word Error Rates (WER) atau perbandingan tingkat 
kesalahan untuk berbagai tugas dan konsdisi. 
Tabel 1 : Perbandingan akurasi antara ASR dan dan manusia 
Dari tabel tersebut dapat dilihat bahwa kesalahan pengenalan kata pada ASR presentasinya 
lebih tinggi dari pengenalan kata yang dilakukan oleh manusia. 
Referensi 
1. M.A.Anusuya and S.K.Katti. 2009. Speech Recognition by Machine: A Review. (Online), 
(arxiv.org/pdf/1001.2267, diakses pada 3 September 2014). 
2. Lippmann, R. 1997. Speech Recognition by Machines and Humans. (Online), 
(http://www.ee.columbia.edu/~dpwe/classes/e6820-2006-01/papers/Lipp97-hummach.pdf, 
diakses pada 3 September 2014). 
3. http://id.wikipedia.org/wiki/Pengenalan_ucapan, diakses pada 3 September 2014. 
4. http://yanti91.blogspot.com/2012/10/tugas-2-speech-recognition_12.html, diakses pada 3 
September 2014.

More Related Content

What's hot

Makalah phase shift keying
Makalah phase shift keyingMakalah phase shift keying
Makalah phase shift keyingampas03
 
Modulasi frekuensi dan modulasi phase (Fm dan Pm)
Modulasi frekuensi dan modulasi phase (Fm dan Pm)Modulasi frekuensi dan modulasi phase (Fm dan Pm)
Modulasi frekuensi dan modulasi phase (Fm dan Pm)Ishardi Nassogi
 
Telekomunikasi Analog dan Digital - Slide week 10 noise dan error pada tran...
Telekomunikasi Analog dan Digital - Slide week 10   noise dan error pada tran...Telekomunikasi Analog dan Digital - Slide week 10   noise dan error pada tran...
Telekomunikasi Analog dan Digital - Slide week 10 noise dan error pada tran...Beny Nugraha
 
Kuliah 3-modulasi-amplitudo
Kuliah 3-modulasi-amplitudoKuliah 3-modulasi-amplitudo
Kuliah 3-modulasi-amplitudoarinnana
 
Lampu otomatis berbasis arduino, bluetooth dan android
Lampu otomatis berbasis arduino, bluetooth dan androidLampu otomatis berbasis arduino, bluetooth dan android
Lampu otomatis berbasis arduino, bluetooth dan androidRohmat Ramadhan
 
Infrastruktur Mode Jaringan Wireless
Infrastruktur Mode Jaringan WirelessInfrastruktur Mode Jaringan Wireless
Infrastruktur Mode Jaringan WirelessTsaniaNB
 
Materi Amplitude Modulation (AM)
Materi Amplitude Modulation (AM) Materi Amplitude Modulation (AM)
Materi Amplitude Modulation (AM) Ferdi Dirgantara
 
Impedansi Antena Oleh Risdawati Hutabarat
Impedansi Antena Oleh  Risdawati HutabaratImpedansi Antena Oleh  Risdawati Hutabarat
Impedansi Antena Oleh Risdawati HutabaratRisdawati Hutabarat
 
Mel frequency cepstral coefficient (mfcc)
Mel frequency cepstral coefficient (mfcc)Mel frequency cepstral coefficient (mfcc)
Mel frequency cepstral coefficient (mfcc)BushraShaikh44
 
Pengertian PM dan FM
Pengertian PM dan FMPengertian PM dan FM
Pengertian PM dan FMRizki Nugroho
 
Telekomunikasi Analog dan Digital - Slide week 14 - lanjutan modulasi gabunga...
Telekomunikasi Analog dan Digital - Slide week 14 - lanjutan modulasi gabunga...Telekomunikasi Analog dan Digital - Slide week 14 - lanjutan modulasi gabunga...
Telekomunikasi Analog dan Digital - Slide week 14 - lanjutan modulasi gabunga...Beny Nugraha
 
Sistem Komunikasi Seluler
Sistem Komunikasi SelulerSistem Komunikasi Seluler
Sistem Komunikasi SelulerRio Hafandi
 

What's hot (20)

6 frekuensi sinyal
6  frekuensi sinyal6  frekuensi sinyal
6 frekuensi sinyal
 
Modulasi digital ASK kelompok 2
Modulasi digital ASK kelompok 2Modulasi digital ASK kelompok 2
Modulasi digital ASK kelompok 2
 
Tugas modulation AM, FM, dan PM
Tugas modulation AM, FM, dan PMTugas modulation AM, FM, dan PM
Tugas modulation AM, FM, dan PM
 
Qpsk
QpskQpsk
Qpsk
 
Makalah phase shift keying
Makalah phase shift keyingMakalah phase shift keying
Makalah phase shift keying
 
Modulasi frekuensi dan modulasi phase (Fm dan Pm)
Modulasi frekuensi dan modulasi phase (Fm dan Pm)Modulasi frekuensi dan modulasi phase (Fm dan Pm)
Modulasi frekuensi dan modulasi phase (Fm dan Pm)
 
Matlab
MatlabMatlab
Matlab
 
Telekomunikasi Analog dan Digital - Slide week 10 noise dan error pada tran...
Telekomunikasi Analog dan Digital - Slide week 10   noise dan error pada tran...Telekomunikasi Analog dan Digital - Slide week 10   noise dan error pada tran...
Telekomunikasi Analog dan Digital - Slide week 10 noise dan error pada tran...
 
Kuliah 3-modulasi-amplitudo
Kuliah 3-modulasi-amplitudoKuliah 3-modulasi-amplitudo
Kuliah 3-modulasi-amplitudo
 
Lampu otomatis berbasis arduino, bluetooth dan android
Lampu otomatis berbasis arduino, bluetooth dan androidLampu otomatis berbasis arduino, bluetooth dan android
Lampu otomatis berbasis arduino, bluetooth dan android
 
Infrastruktur Mode Jaringan Wireless
Infrastruktur Mode Jaringan WirelessInfrastruktur Mode Jaringan Wireless
Infrastruktur Mode Jaringan Wireless
 
Materi Amplitude Modulation (AM)
Materi Amplitude Modulation (AM) Materi Amplitude Modulation (AM)
Materi Amplitude Modulation (AM)
 
Impedansi Antena Oleh Risdawati Hutabarat
Impedansi Antena Oleh  Risdawati HutabaratImpedansi Antena Oleh  Risdawati Hutabarat
Impedansi Antena Oleh Risdawati Hutabarat
 
Mel frequency cepstral coefficient (mfcc)
Mel frequency cepstral coefficient (mfcc)Mel frequency cepstral coefficient (mfcc)
Mel frequency cepstral coefficient (mfcc)
 
Pengertian PM dan FM
Pengertian PM dan FMPengertian PM dan FM
Pengertian PM dan FM
 
Siskom (pam)
Siskom (pam)Siskom (pam)
Siskom (pam)
 
Modulator dan demodulator fsk
Modulator dan demodulator fskModulator dan demodulator fsk
Modulator dan demodulator fsk
 
Telekomunikasi Analog dan Digital - Slide week 14 - lanjutan modulasi gabunga...
Telekomunikasi Analog dan Digital - Slide week 14 - lanjutan modulasi gabunga...Telekomunikasi Analog dan Digital - Slide week 14 - lanjutan modulasi gabunga...
Telekomunikasi Analog dan Digital - Slide week 14 - lanjutan modulasi gabunga...
 
Sistem File
Sistem FileSistem File
Sistem File
 
Sistem Komunikasi Seluler
Sistem Komunikasi SelulerSistem Komunikasi Seluler
Sistem Komunikasi Seluler
 

Viewers also liked

Penerapan Teknologi RFID di Perpustakaan
Penerapan Teknologi RFID di PerpustakaanPenerapan Teknologi RFID di Perpustakaan
Penerapan Teknologi RFID di PerpustakaanFuse Minami
 
APLIKASI PENGENALAN SUARA MENGGUNAKAN MICROSOFT SAPI SEBAGAI PENGENDALI PERAL...
APLIKASI PENGENALAN SUARA MENGGUNAKAN MICROSOFT SAPI SEBAGAI PENGENDALI PERAL...APLIKASI PENGENALAN SUARA MENGGUNAKAN MICROSOFT SAPI SEBAGAI PENGENDALI PERAL...
APLIKASI PENGENALAN SUARA MENGGUNAKAN MICROSOFT SAPI SEBAGAI PENGENDALI PERAL...Sukarso Liem
 
"The Effects of Bullying Among Middle School Gifted and Talented Childre...
"The Effects of Bullying Among Middle School Gifted and Talented Childre..."The Effects of Bullying Among Middle School Gifted and Talented Childre...
"The Effects of Bullying Among Middle School Gifted and Talented Childre...Helen Tsipliareles-Pryor
 
Algoritma pencarian lintasan jalur terpendek
Algoritma pencarian lintasan jalur terpendekAlgoritma pencarian lintasan jalur terpendek
Algoritma pencarian lintasan jalur terpendekLaili Wahyunita
 
Abstract writing
Abstract writingAbstract writing
Abstract writingolpal77
 
Sample project abstract
Sample project abstractSample project abstract
Sample project abstractklezeh
 

Viewers also liked (10)

Slide minggu 7 (suara)
Slide minggu 7 (suara)Slide minggu 7 (suara)
Slide minggu 7 (suara)
 
Abstrak
AbstrakAbstrak
Abstrak
 
Penerapan Teknologi RFID di Perpustakaan
Penerapan Teknologi RFID di PerpustakaanPenerapan Teknologi RFID di Perpustakaan
Penerapan Teknologi RFID di Perpustakaan
 
APLIKASI PENGENALAN SUARA MENGGUNAKAN MICROSOFT SAPI SEBAGAI PENGENDALI PERAL...
APLIKASI PENGENALAN SUARA MENGGUNAKAN MICROSOFT SAPI SEBAGAI PENGENDALI PERAL...APLIKASI PENGENALAN SUARA MENGGUNAKAN MICROSOFT SAPI SEBAGAI PENGENDALI PERAL...
APLIKASI PENGENALAN SUARA MENGGUNAKAN MICROSOFT SAPI SEBAGAI PENGENDALI PERAL...
 
Bab 5 penyiaran tv
Bab 5 penyiaran tvBab 5 penyiaran tv
Bab 5 penyiaran tv
 
"The Effects of Bullying Among Middle School Gifted and Talented Childre...
"The Effects of Bullying Among Middle School Gifted and Talented Childre..."The Effects of Bullying Among Middle School Gifted and Talented Childre...
"The Effects of Bullying Among Middle School Gifted and Talented Childre...
 
Algoritma pencarian lintasan jalur terpendek
Algoritma pencarian lintasan jalur terpendekAlgoritma pencarian lintasan jalur terpendek
Algoritma pencarian lintasan jalur terpendek
 
Abstrak
AbstrakAbstrak
Abstrak
 
Abstract writing
Abstract writingAbstract writing
Abstract writing
 
Sample project abstract
Sample project abstractSample project abstract
Sample project abstract
 

Similar to Speech Recognition / Pengenalan Suara

Speech recognition Muksal Mina
Speech recognition Muksal MinaSpeech recognition Muksal Mina
Speech recognition Muksal MinaMooksHal Mhiestri
 
Jurnal anggi & miko
Jurnal anggi & mikoJurnal anggi & miko
Jurnal anggi & mikoeswete69
 
Kecerdasan buatan
Kecerdasan buatanKecerdasan buatan
Kecerdasan buatancorcrash
 
Sim 1, alfi nurfazri, hapzi_ali, artificial_intelligence, universitas_mercu_b...
Sim 1, alfi nurfazri, hapzi_ali, artificial_intelligence, universitas_mercu_b...Sim 1, alfi nurfazri, hapzi_ali, artificial_intelligence, universitas_mercu_b...
Sim 1, alfi nurfazri, hapzi_ali, artificial_intelligence, universitas_mercu_b...Alfi Nurfazri
 
English Teacher for english study (speak & listening) based Voice Recognition
English Teacher for english study (speak & listening) based Voice RecognitionEnglish Teacher for english study (speak & listening) based Voice Recognition
English Teacher for english study (speak & listening) based Voice Recognitionjefri zal
 
Sistem bersensor ganda
Sistem bersensor gandaSistem bersensor ganda
Sistem bersensor gandaarfianti
 
Aplikasi mobile pembaca short message service(sms) untuk tunanetra menggunaka...
Aplikasi mobile pembaca short message service(sms) untuk tunanetra menggunaka...Aplikasi mobile pembaca short message service(sms) untuk tunanetra menggunaka...
Aplikasi mobile pembaca short message service(sms) untuk tunanetra menggunaka...W. Rachmat Putra
 
Kecerdasan Buatan - Tugas 1
Kecerdasan Buatan - Tugas 1Kecerdasan Buatan - Tugas 1
Kecerdasan Buatan - Tugas 1IDementor
 
Multimedia dan Computer Vision
Multimedia dan Computer VisionMultimedia dan Computer Vision
Multimedia dan Computer Visionsoe sumijan
 
Artificial Intelligence
Artificial IntelligenceArtificial Intelligence
Artificial Intelligencedio nugroho
 
dio nugroho (41816010074) - kecerdasan buatan
dio nugroho (41816010074) - kecerdasan buatandio nugroho (41816010074) - kecerdasan buatan
dio nugroho (41816010074) - kecerdasan buatandio nugroho
 
Sim 2, adam dermawan(41816010097),hapzi ali,kecerdasan buatan,universitas mer...
Sim 2, adam dermawan(41816010097),hapzi ali,kecerdasan buatan,universitas mer...Sim 2, adam dermawan(41816010097),hapzi ali,kecerdasan buatan,universitas mer...
Sim 2, adam dermawan(41816010097),hapzi ali,kecerdasan buatan,universitas mer...adamdermawan97
 
Slides-Artificial-Intelligence-01.pptx
Slides-Artificial-Intelligence-01.pptxSlides-Artificial-Intelligence-01.pptx
Slides-Artificial-Intelligence-01.pptxMuhammadSyukron33
 
Universitas 17 agustus (1)
Universitas 17 agustus (1)Universitas 17 agustus (1)
Universitas 17 agustus (1)AdamPratama24
 
Headphone with Voice Sensor dengan Teknologi WSN (Studi Kasus : Mal Bali Gale...
Headphone with Voice Sensor dengan Teknologi WSN (Studi Kasus : Mal Bali Gale...Headphone with Voice Sensor dengan Teknologi WSN (Studi Kasus : Mal Bali Gale...
Headphone with Voice Sensor dengan Teknologi WSN (Studi Kasus : Mal Bali Gale...Nyoman Triana Suanjaya Putra
 

Similar to Speech Recognition / Pengenalan Suara (20)

Speech recognition Muksal Mina
Speech recognition Muksal MinaSpeech recognition Muksal Mina
Speech recognition Muksal Mina
 
Jurnal anggi & miko
Jurnal anggi & mikoJurnal anggi & miko
Jurnal anggi & miko
 
Kecerdasan buatan
Kecerdasan buatanKecerdasan buatan
Kecerdasan buatan
 
Jurnal anggi
Jurnal anggiJurnal anggi
Jurnal anggi
 
Seminar Proposal.pptx
Seminar Proposal.pptxSeminar Proposal.pptx
Seminar Proposal.pptx
 
Sim 1, alfi nurfazri, hapzi_ali, artificial_intelligence, universitas_mercu_b...
Sim 1, alfi nurfazri, hapzi_ali, artificial_intelligence, universitas_mercu_b...Sim 1, alfi nurfazri, hapzi_ali, artificial_intelligence, universitas_mercu_b...
Sim 1, alfi nurfazri, hapzi_ali, artificial_intelligence, universitas_mercu_b...
 
English Teacher for english study (speak & listening) based Voice Recognition
English Teacher for english study (speak & listening) based Voice RecognitionEnglish Teacher for english study (speak & listening) based Voice Recognition
English Teacher for english study (speak & listening) based Voice Recognition
 
Sistem bersensor ganda
Sistem bersensor gandaSistem bersensor ganda
Sistem bersensor ganda
 
Aplikasi mobile pembaca short message service(sms) untuk tunanetra menggunaka...
Aplikasi mobile pembaca short message service(sms) untuk tunanetra menggunaka...Aplikasi mobile pembaca short message service(sms) untuk tunanetra menggunaka...
Aplikasi mobile pembaca short message service(sms) untuk tunanetra menggunaka...
 
SISTEM BERSENSOR GANDA
SISTEM BERSENSOR GANDASISTEM BERSENSOR GANDA
SISTEM BERSENSOR GANDA
 
Kecerdasan Buatan - Tugas 1
Kecerdasan Buatan - Tugas 1Kecerdasan Buatan - Tugas 1
Kecerdasan Buatan - Tugas 1
 
Tgs1 bhs indo 2
Tgs1 bhs indo 2Tgs1 bhs indo 2
Tgs1 bhs indo 2
 
Multimedia dan Computer Vision
Multimedia dan Computer VisionMultimedia dan Computer Vision
Multimedia dan Computer Vision
 
Artificial Intelligence
Artificial IntelligenceArtificial Intelligence
Artificial Intelligence
 
dio nugroho (41816010074) - kecerdasan buatan
dio nugroho (41816010074) - kecerdasan buatandio nugroho (41816010074) - kecerdasan buatan
dio nugroho (41816010074) - kecerdasan buatan
 
Sim 2, adam dermawan(41816010097),hapzi ali,kecerdasan buatan,universitas mer...
Sim 2, adam dermawan(41816010097),hapzi ali,kecerdasan buatan,universitas mer...Sim 2, adam dermawan(41816010097),hapzi ali,kecerdasan buatan,universitas mer...
Sim 2, adam dermawan(41816010097),hapzi ali,kecerdasan buatan,universitas mer...
 
Slides-Artificial-Intelligence-01.pptx
Slides-Artificial-Intelligence-01.pptxSlides-Artificial-Intelligence-01.pptx
Slides-Artificial-Intelligence-01.pptx
 
Universitas 17 agustus (1)
Universitas 17 agustus (1)Universitas 17 agustus (1)
Universitas 17 agustus (1)
 
Headphone with Voice Sensor dengan Teknologi WSN (Studi Kasus : Mal Bali Gale...
Headphone with Voice Sensor dengan Teknologi WSN (Studi Kasus : Mal Bali Gale...Headphone with Voice Sensor dengan Teknologi WSN (Studi Kasus : Mal Bali Gale...
Headphone with Voice Sensor dengan Teknologi WSN (Studi Kasus : Mal Bali Gale...
 
12561989.ppt
12561989.ppt12561989.ppt
12561989.ppt
 

More from As Faizin

Watermarking
WatermarkingWatermarking
WatermarkingAs Faizin
 
Emboss menggunakan Delphi7
Emboss menggunakan Delphi7Emboss menggunakan Delphi7
Emboss menggunakan Delphi7As Faizin
 
Epistemologi irfani
Epistemologi irfaniEpistemologi irfani
Epistemologi irfaniAs Faizin
 
CRUD dengan PHP dan MySQL
CRUD dengan PHP dan MySQLCRUD dengan PHP dan MySQL
CRUD dengan PHP dan MySQLAs Faizin
 
Project Charter
Project CharterProject Charter
Project CharterAs Faizin
 
Algoritma dan Struktur Data
Algoritma dan Struktur DataAlgoritma dan Struktur Data
Algoritma dan Struktur DataAs Faizin
 
State Chart diagram
State Chart diagramState Chart diagram
State Chart diagramAs Faizin
 
Makiyyah Madaniyyah dan Qiraat Al-Qur'an
Makiyyah Madaniyyah dan Qiraat Al-Qur'anMakiyyah Madaniyyah dan Qiraat Al-Qur'an
Makiyyah Madaniyyah dan Qiraat Al-Qur'anAs Faizin
 
Lembaga hukum Islam di indonesia
Lembaga hukum Islam di indonesiaLembaga hukum Islam di indonesia
Lembaga hukum Islam di indonesiaAs Faizin
 
Qowaid / Tata Bahasa Arab
Qowaid / Tata Bahasa ArabQowaid / Tata Bahasa Arab
Qowaid / Tata Bahasa ArabAs Faizin
 
(Contoh) Bisnis Plan
(Contoh) Bisnis Plan(Contoh) Bisnis Plan
(Contoh) Bisnis PlanAs Faizin
 
Tipe Data pada Bahasa Java
Tipe Data pada Bahasa JavaTipe Data pada Bahasa Java
Tipe Data pada Bahasa JavaAs Faizin
 

More from As Faizin (13)

Watermarking
WatermarkingWatermarking
Watermarking
 
Emboss menggunakan Delphi7
Emboss menggunakan Delphi7Emboss menggunakan Delphi7
Emboss menggunakan Delphi7
 
Epistemologi irfani
Epistemologi irfaniEpistemologi irfani
Epistemologi irfani
 
Modul HTML5
Modul HTML5Modul HTML5
Modul HTML5
 
CRUD dengan PHP dan MySQL
CRUD dengan PHP dan MySQLCRUD dengan PHP dan MySQL
CRUD dengan PHP dan MySQL
 
Project Charter
Project CharterProject Charter
Project Charter
 
Algoritma dan Struktur Data
Algoritma dan Struktur DataAlgoritma dan Struktur Data
Algoritma dan Struktur Data
 
State Chart diagram
State Chart diagramState Chart diagram
State Chart diagram
 
Makiyyah Madaniyyah dan Qiraat Al-Qur'an
Makiyyah Madaniyyah dan Qiraat Al-Qur'anMakiyyah Madaniyyah dan Qiraat Al-Qur'an
Makiyyah Madaniyyah dan Qiraat Al-Qur'an
 
Lembaga hukum Islam di indonesia
Lembaga hukum Islam di indonesiaLembaga hukum Islam di indonesia
Lembaga hukum Islam di indonesia
 
Qowaid / Tata Bahasa Arab
Qowaid / Tata Bahasa ArabQowaid / Tata Bahasa Arab
Qowaid / Tata Bahasa Arab
 
(Contoh) Bisnis Plan
(Contoh) Bisnis Plan(Contoh) Bisnis Plan
(Contoh) Bisnis Plan
 
Tipe Data pada Bahasa Java
Tipe Data pada Bahasa JavaTipe Data pada Bahasa Java
Tipe Data pada Bahasa Java
 

Speech Recognition / Pengenalan Suara

  • 1. Paper Tentang Speech Recognition 12650026 | AS Wahid Faizin Abstract Suara atau ucapan adalah cara berkomunikasi yang paling sering dilakukan oleh manusia. Komunikasi yang dilakukan antara manusia dan komputer sering disebut sebagai Human Computer Interface (HCI) atau Interaksi manusia dan komputer (IMK). Pengenalan suara atau Speech Recognition menjadi salah satu hal potensial penting yang menjadi perhatian dalam interaksi antara manusia dan komputer. Desain dari sistem Speech Recognition membutuhkan perhatian dan penanganan yang khusus dan hati-hati, pada sistem itu terdapat beberapa kendala: realisasi akustik fonem, keragaman akustik, keragaman pengucapan atau dialek bahasa, kondisi emosional pembicara, kecepatan berbicara atau kualitas suara, lingkungan. Keywords: Pengenalan suara, Pengolahan Suara, Interaksi Manusia dan Komputer, ASR. Pendahuluan Speech Recognition atau Automatic Speech Recognition (ASR) atau pengenalan suara adalah sebuah proses konversi sinyal suara menjadi kata atau perintah. Dalam hal ini diperlukan sebuah algoritma yang diinmplementasikan menjadi sebuah program komputer untuk menjalankan perintah tersebut. Aplikasi pengenalan suara yang telah diimplementasikan hingga saat ini antara lain untuk melakukan panggilan (Misalnya, "Panggil Ayah"), Melakukan input data sederhana (Misalnya, memasukkan nomor kartu kredit), Pengolahan kata menjadi teks (Misal, windows speech recognition), sistem pesawat (Misal, pengatur lalu-lintas udara atau yang dikenal dengan Air Traffic Controllers ). Pembahasan Model dasar Speech Recognition Penelitian di bidang pengolahan suara telah memotivasi banyak orang untuk menciptakan model mekanik untuk meniru kemampuan komunikasi verbal manusia. Berbicara adalah bentuk komunikasi manusia yang paling dasar, dan pengolahan suara telah menjadi salah satu hal yang paling diperhatikan dalam bidang signal processing. Tujuan utama dari teknologi pengenalan suara adalah menciptakan sebuah teknik dan sistem untuk memasukkan perintah suara ke dalam mesin, agar mesin dapat mengerti apa yang manusia ucapkan dan mematuhi apa yang diperintahkannya. Sejarah Speech Recognition Sejarah perkembangan dari speech recognition telah dimulai lebih dari 1 abad yang lalu, dalam sejarah ada beberapa peristiwa penting yang tercatat, yaitu: Tahun 1874 : Alexander Graham Bell berhasil membuktikkan bahwa frekuensi harmoni dari sebuah sinyal elektrik dapat dibagi-bagi yang kemudian hari berlanjut pada digitalisasi ucapan. Tahun 1952 : Bell Labs mengembangkan speech recognizer pertama dengan menggunakan teknologi pemisah frekuensi yang serupa dengan teknologi yang dikembangkan oleh Alexander Graham Bell. 1971-1976 : Defence Advance Research Project Agency dibentuk yang merupakan proyek riset dengan dana dari pemerintah AS. Tujuan dari proyek ini adalah untuk melakukan penelitian teknologi speech recognition. Penemuan terbesar yang dihasilkan proyek ini adalah
  • 2. peningkatan dalam menekan permasalahan variabilitas suara. Pada rentang tahun yang sama pula ditemukan : Pemrograman dinamik oleh tiga peneliti asal Jepang, Itakura, Skoe, dan Chiba yang dikemudian hari menjadi dasar bagi deret waktu non-linier. Pemodelan Makov oleh Jim Baker dan Fred Jelinek dari IBM yang merupakan pemodelan untuk menentukan letak informasi tetap dalam sebuah sinyal suara (speech signal). Pertengahan tahun 1970-an : Itakura mengadakan sebuah riset untuk mengembangkan sebuah produk yang berbasis pada asumsi bahwa noise itu walaupun terdengar sama namun pada kenyataannya tidak demikian. Produk tersebut akurasinya mencapai 97,3% saat diuji menggunakan 200 kosakata. Bell Labs mengembangkan sistem yang mampu mengenali suara dari orang-orang yang berbeda dengan akurasi hingga 97,1%. Akhir tahun 1970-an : Produk speech recognition pertama mulai dipasarkan dengan harga mulai $259 hingga $100.000. Tahun 1980-an : Pasaran speech recognition mulai digolongkan menjadi dua, yaitu Call Center Speech Recognition System dan Speech-to-Text Application. Tahun 1990-an : Prosesor sebuah personal computer telah sanggup memenuhi level minimal yang diperlukan agar sebuah software speech recognition dapat berjalan dengan lancar serta efektif untuk penggunaan pribadi. Tahun 1999 : Sebuah program speech recognition baru telah mampu memahami pembicaraan manusia secara berkesinambungan dengan tingkat akurasi hingga 99% yang membuatnya dapat dengan mudah digunakan oleh pengguna awam sekaligus. Jenis-jenis Speech Recognition Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata, yaitu : 1. Kata-kata yang terisolasi Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata 2. Kata-kata yang berhubungan Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat 3. Kata-kata yang berkelanjutan Proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural 4. Kata-kata spontan Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa jeda waktu antar kata 5. Verifikasi atau identifikasi suara Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa yang berbicara. 12650026 | AS Wahid Faizin
  • 3. Proses produksi dan pengenalan suara pada manusia Spektrum setiap suara manusia berbeda-beda. Hal ini didasarkan pada bentuk tenggorokan, velum dan organ lain yang merupakan organ reproduksi suara pada manusia yang berbeda-beda untuk setiap individu. Lekukan-lekukan pada organ inilah yang menentukan jenis suara manusia. Sedangkan sumber suara dihasilkan oleh getaran pada pita suara. Proses Produksi suara (Speech Generation) hingga Pengenalan suata (Speech Recognition) pada komunikasi antara 2 buah subyek (Gambar A). Gambar A. Diagram produksi dan pengenalan suara pada manusia Proses produksi suara adalah suatu proses untuk menghasilkan sinyal suara manusia dimana sinyal suara pada awalnya berasal dari otak yang memformulasikan pesan yang ingin disampaikan melalui mulut. Pesan tersebut sebenarnya adalah seperti halnya teks/tulisan kemudian diolah menjadi kode bahasa (languange code). Kode bahasa ini sebenarnya adalah sebuah database (memori) dalam otak kita yang mencocokkan pesan dengan kode-kode tersebut. Keluaran dari proses tersebut akan diteruskan oleh proses neuro-moscular actions dimana pa da proses ini melakukan kontrol terhadap semua aspek gerak artikulasi seperti kontrol bibir, rahang dan lidah. Proses produksi suara ini sering diistilahkan sebagai speech synthesizing (pensintsesaan suara). Beda halnya dengan pengenal suara yang merupakan kebalikan dari produksi suara yang mana suara akan diolah akan masuk ke telinga (yang diimplementasikan oleh mikrofon) yang kemudian dilakukan spectrum analysis dan feature extraction dan coding oleh neural transduction. Selain itu pada bagian ini juga dilakukan pemilahan dari sinyal suara yang masuk dan menentuan semantik (arti) dari sinyal diskrit tersebut dengan mencocokan dengan kode bahasa yang merupakan kebalikan kode bahasa dari produksi suara. Untuk lebih jelasnya dapat dilihat diagram blok speech generation dan speech recognition (Gambar B). 12650026 | AS Wahid Faizin
  • 4. Gambar B. Diagram blok hubungan antara Speech Generation dan 12650026 | AS Wahid Faizin Speech Recognition Perbandingan antara Automatic Speech Recognition dan Human Speech Recognition Sejauh ini perbandingan akurasi yang paling komprehensif antara ASR dan manusia dilakukan oleh Lippmann pada tahun 1997. Lippmann menyusun hasil dari berbagai sumber terpercaya dan menyajikannya dalam Word Error Rates (WER) atau perbandingan tingkat kesalahan untuk berbagai tugas dan konsdisi. Tabel 1 : Perbandingan akurasi antara ASR dan dan manusia Dari tabel tersebut dapat dilihat bahwa kesalahan pengenalan kata pada ASR presentasinya lebih tinggi dari pengenalan kata yang dilakukan oleh manusia. Referensi 1. M.A.Anusuya and S.K.Katti. 2009. Speech Recognition by Machine: A Review. (Online), (arxiv.org/pdf/1001.2267, diakses pada 3 September 2014). 2. Lippmann, R. 1997. Speech Recognition by Machines and Humans. (Online), (http://www.ee.columbia.edu/~dpwe/classes/e6820-2006-01/papers/Lipp97-hummach.pdf, diakses pada 3 September 2014). 3. http://id.wikipedia.org/wiki/Pengenalan_ucapan, diakses pada 3 September 2014. 4. http://yanti91.blogspot.com/2012/10/tugas-2-speech-recognition_12.html, diakses pada 3 September 2014.