Speech Recognition / Pengenalan Suara

Paper Tentang Speech Recognition
12650026 | AS Wahid Faizin
Abstract
Suara atau ucapan adalah cara berkomunikasi yang paling sering dilakukan oleh manusia.
Komunikasi yang dilakukan antara manusia dan komputer sering disebut sebagai Human
Computer Interface (HCI) atau Interaksi manusia dan komputer (IMK). Pengenalan suara atau
Speech Recognition menjadi salah satu hal potensial penting yang menjadi perhatian dalam
interaksi antara manusia dan komputer. Desain dari sistem Speech Recognition membutuhkan
perhatian dan penanganan yang khusus dan hati-hati, pada sistem itu terdapat beberapa kendala:
realisasi akustik fonem, keragaman akustik, keragaman pengucapan atau dialek bahasa, kondisi
emosional pembicara, kecepatan berbicara atau kualitas suara, lingkungan.
Keywords: Pengenalan suara, Pengolahan Suara, Interaksi Manusia dan Komputer, ASR.
Pendahuluan
Speech Recognition atau Automatic Speech Recognition (ASR) atau pengenalan suara
adalah sebuah proses konversi sinyal suara menjadi kata atau perintah. Dalam hal ini diperlukan
sebuah algoritma yang diinmplementasikan menjadi sebuah program komputer untuk menjalankan
perintah tersebut. Aplikasi pengenalan suara yang telah diimplementasikan hingga saat ini antara
lain untuk melakukan panggilan (Misalnya, "Panggil Ayah"), Melakukan input data sederhana
(Misalnya, memasukkan nomor kartu kredit), Pengolahan kata menjadi teks (Misal, windows
speech recognition), sistem pesawat (Misal, pengatur lalu-lintas udara atau yang dikenal
dengan Air Traffic Controllers ).
Pembahasan
Model dasar Speech Recognition
Penelitian di bidang pengolahan suara telah memotivasi banyak orang untuk menciptakan
model mekanik untuk meniru kemampuan komunikasi verbal manusia. Berbicara adalah bentuk
komunikasi manusia yang paling dasar, dan pengolahan suara telah menjadi salah satu hal yang
paling diperhatikan dalam bidang signal processing. Tujuan utama dari teknologi pengenalan
suara adalah menciptakan sebuah teknik dan sistem untuk memasukkan perintah suara ke dalam
mesin, agar mesin dapat mengerti apa yang manusia ucapkan dan mematuhi apa yang
diperintahkannya.
Sejarah Speech Recognition
Sejarah perkembangan dari speech recognition telah dimulai lebih dari 1 abad yang lalu,
dalam sejarah ada beberapa peristiwa penting yang tercatat, yaitu:
Tahun 1874 : Alexander Graham Bell berhasil membuktikkan bahwa frekuensi harmoni dari
sebuah sinyal elektrik dapat dibagi-bagi yang kemudian hari berlanjut pada digitalisasi ucapan.
Tahun 1952 : Bell Labs mengembangkan speech recognizer pertama dengan menggunakan
teknologi pemisah frekuensi yang serupa dengan teknologi yang dikembangkan oleh
Alexander Graham Bell.
1971-1976 : Defence Advance Research Project Agency dibentuk yang merupakan proyek
riset dengan dana dari pemerintah AS. Tujuan dari proyek ini adalah untuk melakukan
penelitian teknologi speech recognition. Penemuan terbesar yang dihasilkan proyek ini adalah

peningkatan dalam menekan permasalahan variabilitas suara. Pada rentang tahun yang sama
pula ditemukan :
Pemrograman dinamik oleh tiga peneliti asal Jepang, Itakura, Skoe, dan Chiba yang
dikemudian hari menjadi dasar bagi deret waktu non-linier.
Pemodelan Makov oleh Jim Baker dan Fred Jelinek dari IBM yang merupakan pemodelan
untuk menentukan letak informasi tetap dalam sebuah sinyal suara (speech signal).
Pertengahan tahun 1970-an : Itakura mengadakan sebuah riset untuk mengembangkan
sebuah produk yang berbasis pada asumsi bahwa noise itu walaupun terdengar sama namun
pada kenyataannya tidak demikian. Produk tersebut akurasinya mencapai 97,3% saat diuji
menggunakan 200 kosakata.
Bell Labs mengembangkan sistem yang mampu mengenali suara dari orang-orang yang
berbeda dengan akurasi hingga 97,1%.
Akhir tahun 1970-an : Produk speech recognition pertama mulai dipasarkan dengan harga
mulai $259 hingga $100.000.
Tahun 1980-an : Pasaran speech recognition mulai digolongkan menjadi dua, yaitu Call
Center Speech Recognition System dan Speech-to-Text Application.
Tahun 1990-an : Prosesor sebuah personal computer telah sanggup memenuhi level
minimal yang diperlukan agar sebuah software speech recognition dapat berjalan dengan
lancar serta efektif untuk penggunaan pribadi.
Tahun 1999 : Sebuah program speech recognition baru telah mampu memahami
pembicaraan manusia secara berkesinambungan dengan tingkat akurasi hingga 99% yang
membuatnya dapat dengan mudah digunakan oleh pengguna awam sekaligus.
Jenis-jenis Speech Recognition
Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan
kata, yaitu :
1. Kata-kata yang terisolasi
Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika
kata tersebut memiliki jeda waktu pengucapan antar kata
2. Kata-kata yang berhubungan
Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun
membutuhkan jeda waktu pengucapan antar kata yang lebih singkat
3. Kata-kata yang berkelanjutan
Proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-kata
yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat
sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena
membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa
jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural
4. Kata-kata spontan
Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara
spontan tanpa jeda waktu antar kata
5. Verifikasi atau identifikasi suara
Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga
mengidentifikasi siapa yang berbicara.

Proses produksi dan pengenalan suara pada manusia
Spektrum setiap suara manusia berbeda-beda. Hal ini didasarkan pada bentuk
tenggorokan, velum dan organ lain yang merupakan organ reproduksi suara pada manusia yang
berbeda-beda untuk setiap individu. Lekukan-lekukan pada organ inilah yang menentukan jenis
suara manusia. Sedangkan sumber suara dihasilkan oleh getaran pada pita suara. Proses
Produksi suara (Speech Generation) hingga Pengenalan suata (Speech Recognition) pada
komunikasi antara 2 buah subyek (Gambar A).
Gambar A. Diagram produksi dan pengenalan suara pada manusia
Proses produksi suara adalah suatu proses untuk menghasilkan sinyal suara manusia dimana
sinyal suara pada awalnya berasal dari otak yang memformulasikan pesan yang ingin disampaikan
melalui mulut. Pesan tersebut sebenarnya adalah seperti halnya teks/tulisan kemudian diolah
menjadi kode bahasa (languange code). Kode bahasa ini sebenarnya adalah
sebuah database (memori) dalam otak kita yang mencocokkan pesan dengan kode-kode tersebut.
Keluaran dari proses tersebut akan diteruskan oleh proses neuro-moscular actions dimana pa da
proses ini melakukan kontrol terhadap semua aspek gerak artikulasi seperti kontrol bibir, rahang
dan lidah. Proses produksi suara ini sering diistilahkan sebagai speech
synthesizing (pensintsesaan suara).
Beda halnya dengan pengenal suara yang merupakan kebalikan dari produksi suara yang
mana suara akan diolah akan masuk ke telinga (yang diimplementasikan oleh mikrofon) yang
kemudian dilakukan spectrum analysis dan feature extraction dan coding oleh neural transduction.
Selain itu pada bagian ini juga dilakukan pemilahan dari sinyal suara yang masuk dan menentuan
semantik (arti) dari sinyal diskrit tersebut dengan mencocokan dengan kode bahasa yang
merupakan kebalikan kode bahasa dari produksi suara. Untuk lebih jelasnya dapat dilihat diagram
blok speech generation dan speech recognition (Gambar B).

Gambar B. Diagram blok hubungan antara Speech Generation dan
Speech Recognition
Perbandingan antara Automatic Speech Recognition dan Human Speech Recognition
Sejauh ini perbandingan akurasi yang paling komprehensif antara ASR dan manusia
dilakukan oleh Lippmann pada tahun 1997. Lippmann menyusun hasil dari berbagai sumber
terpercaya dan menyajikannya dalam Word Error Rates (WER) atau perbandingan tingkat
kesalahan untuk berbagai tugas dan konsdisi.
Tabel 1 : Perbandingan akurasi antara ASR dan dan manusia
Dari tabel tersebut dapat dilihat bahwa kesalahan pengenalan kata pada ASR presentasinya
lebih tinggi dari pengenalan kata yang dilakukan oleh manusia.
Referensi
1. M.A.Anusuya and S.K.Katti. 2009. Speech Recognition by Machine: A Review. (Online),
(arxiv.org/pdf/1001.2267, diakses pada 3 September 2014).
2. Lippmann, R. 1997. Speech Recognition by Machines and Humans. (Online),
(http://www.ee.columbia.edu/~dpwe/classes/e6820-2006-01/papers/Lipp97-hummach.pdf,
diakses pada 3 September 2014).
3. http://id.wikipedia.org/wiki/Pengenalan_ucapan, diakses pada 3 September 2014.
4. http://yanti91.blogspot.com/2012/10/tugas-2-speech-recognition_12.html, diakses pada 3
September 2014.

Speech Recognition / Pengenalan Suara

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (10)

Similar to Speech Recognition / Pengenalan Suara

Similar to Speech Recognition / Pengenalan Suara (20)

More from As Faizin

More from As Faizin (13)

Speech Recognition / Pengenalan Suara