Universitas Gunadarma
Fakultas Ilmu Komputer dan Teknologi Informasi
Pengantar Teknologi Sistem Cerdas
Sistem Pengenalan Ucapan (Speech Recognition)
Disusun Oleh :
Reza Burhanudin (15117101)
Rizky Gerry P. (15117345)
Salim Sannigo (15117461)
Sindi Fernanda (15117693)
Sonya Natasha (15117753)
Sutamy Tri W. (15117810)
Yulisma Salsabila (16117349)
Zahrah Nindisya (16117386)
Gischa Karina HP. (1B118707)
Kelas: 3KA05
2019/2020
ABSTRAK
Pengenalan suara atau Speech Recognition adalah proses identifikasi suara berdasarkan kata yang diucapkan dengan melakukan konversi sebuah sinyal akustik, yang ditangkap oleh audio device (perangkat input suara). Speech Recognition juga merupakan sistem yang digunakan untuk mengenali perintah kata dari suara manusia dan kemudian diterjemahkan menjadi suatu data yang dimengerti oleh komputer. Speech Recognition kini telah diimplementasikan pada banyak aplikasi. Pada makalah ini akan dibahas implementasi Speech Recognition pada Google Assistant, Siri danWaze.
Tujuan pembahasan Speech Recognition dalam makalah ini adalah untuk mempelajari cara kerja salah satu bentuk sistem cerdas dalam perangkat yang dipakai sehari-sehari seperti Google Assistant (Android), Siri (iOS) dan Waze.
Kesimpulan dari makalah ini adalah terdapat sedikit perbedaan antara Voice Recognition dan Speech Recognition. Voice Recognition hanya mengenali identitas pemilik suara sedangkan Speech Recognition mengubah suara menjadi teks. Speech Recognition kini sudah diimplementasikan pada banyak aplikasi, namun yang paling sering dipakai adalah di aplikasi Google Assistant, Siri dan Waze. Speech Recognition membuat penggunaan perangkat elektronik menjadi lebih mudah dan praktis. Namun, di balik banyaknya keunggulan Speech Recognition, terdapat juga beberapa kekurangan yang belum bisa diatasi.
BAB I
PENDAHULUAN
1.1 Latar Belakang
Speech Recognition adalah proses identifikasi suara berdasarkan kata yang diucapkan dengan melakukan konversi sebuah sinyal akustik, yang ditangkap oleh audio device (perangkat input suara). Speech Recognition juga merupakan sistem yang digunakan untuk mengenali perintah kata dari suara manusia dan kemudian diterjemahkan menjadi suatu data yang dimengerti oleh komputer. Pada saat ini, sistem ini digunakan untuk menggantikan peranan input dari keyboard dan mouse.
Speech Recognition adalah suatu teknik yang memungkinkan sistem komputer untuk menerima input berupa kata yang diucapkan. Kata-kata tersebut diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka lalu disesuaikan dengan kode-kode tertentu dan dicocokkan dengan suatu pola yang tersimpan dalam suatu perangkat. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi. Keuntungan dari sistem ini adalah pada kecepatan dan kemudahan dalam penggunaannya. Kata – kata yang ditangkap dan dikenali bisa jadi sebagai hasil akhir, untuk sebuah aplikasi seperti command & control, penginputan data, dan persiapan dokumen. Parameter yang dibandingkan ialah tingkat penekanan suara yang kemudian akan dicocokkan dengan template database yang tersedia. Sedangkan sistem pengenalan suara berdasarkan orang yang berbicara dinamakan speaker recognition. Pada makalah ini hanya akan dibahas mengenai Speech Recognition karena kompleksitas algoritma yang diimplementasikan lebih sederhana daripada speaker recognition. Algoritma yang akan diimplementasikan pada bahasan mengenai proses Speech Recognition ini adalah algoritma FFT (Fast Fourier Transform), yaitu algoritma yang cukup efisien dalam pemrosesan sinyal digital (dalam hal ini suara) dalam bentuk diskrit. Algoritma ini mengimplementasikan algoritma Divide and Conquer untuk pemrosesannya. Konsep utama algoritma ini adalah mengubah sinyal suara yang berbasis waktu menjadi berbasis frekuensi dengan membagi masalah menjadi beberapa rupa masalah yang lebih kecil. Kemudian, setiap rupa masalah diselesaikan dengan cara melakukan pencocokan pola digital suara.
1.2 Rumusan Masalah
Adapun rumusan masalah dari makalah ini adalah:
· Apa itu Speech Recognition?
· Bagaimanakah cara kerja Speech Recognition?
· Bagaimanakah implementasi Speech Recognition pada Google Assistant, Siri dan Waze?
1.3 Tujuan Pembahasan
Tujuan pembahasan Speech Recognition dalam makalah ini adalah untuk mempelajari cara kerja salah satu bentuk sistem cerdas dalam perangkat yang dipakai sehari-sehari seperti Google Assistant (Android), Siri (iOS) dan Waze.
BAB II
ISI
2.1 Pengertian Speech Recognition
Speech Recognition atau yang biasa dikenal dengan Automatic Speech Recognition (ASR) merupakan suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Kata-kata yang diucapkan diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka yang kemudian disesuaikan dengan kode-kode tertentu untuk mengidentifikasikan kata-kata tersebut. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan, misalnya penekanan tombol pada telepon genggam yang dilakukan secara otomatis dengan komando suara.
Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan ucapan, yaitu:
1. Kata-kata yang terisolasi: Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata.
2. Kata-kata yang berhubungan: Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat.
3. Kata-kata yang berkelanjutan: Proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural
4. Kata-kata spontan: Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa jeda waktu antar kata.
5. Verifikasi atau identifikasi suara: Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa yang berbicara.
1. Kata-kata yang terisolasi: Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata.
2. Kata-kata yang berhubungan: Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat.
3. Kata-kata yang berkelanjutan: Proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural
4. Kata-kata spontan: Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa jeda waktu antar kata.
5. Verifikasi atau identifikasi suara: Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa yang berbicara.
2.2 Cara Kerja Speech Recognition
Alat pengenal ucapan memiliki empat tahapan dalam prosesnya, yaitu:
1. Tahap penerimaan masukan: sumber suara diterima melalui media perantara.
2. Tahap ekstraksi: penyimpanan masukan yang berupa suara dan sekaligus pembuatan basis data sebagai pola. Proses ekstraksi dilakukan berdasarkan metode Model Markov Tersembunyi atau Hidden Markov Model (HMM), yang merupakan model statistik dari sebuah sistem yang diasumsikan oleh Markov sebagai suatu proses dengan parameter yang tidak diketahui.
1. Tahap penerimaan masukan: sumber suara diterima melalui media perantara.
2. Tahap ekstraksi: penyimpanan masukan yang berupa suara dan sekaligus pembuatan basis data sebagai pola. Proses ekstraksi dilakukan berdasarkan metode Model Markov Tersembunyi atau Hidden Markov Model (HMM), yang merupakan model statistik dari sebuah sistem yang diasumsikan oleh Markov sebagai suatu proses dengan parameter yang tidak diketahui.
3. Tahap pembandingan: Tahap ini merupakan tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada pola. Tahap ini dimulai dengan proses konversi sinyal suara digital hasil dari proses ekstraksi ke dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan pola suara pada basis data. Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilihan ini dilakukan agar proses analisis dapat dilakukan secara paralel.
4. Tahap validasi identitas pengguna: Alat pengenal ucapan yang sudah memiliki sistem verifikasi/identifikasi suara akan melakukan identifikasi orang yang berbicara berdasarkan kata yang diucapkan setelah menerjemahkan suara tersebut menjadi tulisan atau komando.
2.3 Implementasi Speech Recognition pada Google Assistant (Google Now), Siri dan Waze
Google Assistant adalah asisten virtual yang didukung oleh kecerdasan buatan dan dikembangkan oleh Google yang terutama tersedia di perangkat seluler dan perangkat rumah pintar. Tidak seperti Google Now, Google Assistant dapat terlibat dalam percakapan dua arah. Google Assistant awalnya memulai debutnya pada bulan Mei 2016 sebagai bagian dari aplikasi perpesanan Google Allo, dan pembicara yang diaktifkan suara Google Home. Setelah periode eksklusif pada telefon pintar Pixel dan Pixel XL, lalu mulai dikerahkan di perangkat Android lainnya pada bulan Februari 2017,termasuk telefon pintar pihak ketiga dan Android Wear, dan dirilis sebagai aplikasi yang berdiri sendiri pada operasi iOS sistem pada bulan Mei. Di samping pengumuman perangkat pengembangan perangkat lunak pada bulan April 2017, Google Assistant telah, dan sedang, diperluas untuk mendukung berbagai macam perangkat, termasuk mobil. Aplikasi Google Assistant ini terdapat fitur antarmuka telematika yang merubah suara menjadi tulisan. Google Assistant dalam penggunaanya cukup mudah, kita hanya mengatakan “Ok, Google” maka akan muncul kotak voice search, kita tinggal ucapkan apa yang mau kita cari, maka si Google Assistant yang cerdas ini akan menampilkan hasil yang dia dapatkan dari internet ke layar smartphone.
Siri adalah asisten pribadi pintar yang membantu Anda menyelesaikan segala sesuatu cukup dengan memerintahkannya. Dengan Siri, Anda dapat menggunakan suara Anda untuk mengirim pesan, menjadwalkan pertemuan, menelepon, dan banyak lagi. Tetapi Siri tidak seperti perangkat lunak pengenalan suara konvensional yang mengharuskan Anda untuk mengingat kata kunci dan menyebutkan perintah tertentu. Siri mengerti cara berbicara Anda seperti biasa dan Siri menanyakan sesuatu jika memerlukan informasi lebih lanjut untuk menyelesaikan tugas. Dengan Siri, kita dapat memberi peritah melalui suara untuk mengirim pesan, menjadwalkan pertemuan, menelepon, dan banyak lagi. Perintahkan Siri untuk melakukan banyak hal cukup dengan berbicara seperti biasa. Siri dapat mengerti yang kita ucapkan, mengetahui maksud kita, dan bahkan balas berbicara. Untuk menggunakan Siri tinggal tekan terus tombol Utama pada iphone anda. lalu akan akan terdengar bunyi bip cepat sebanyak dua kali dan muncul tulisan “What can I help you with?” (Apa yang bisa saya bantu?) pada layar. Selanjutnya anda dapat memulai dialog dengan Siri, ketuk ikon mikrofon untuk berbicara lagi dengannya. Jika Anda menggunakan iOS 8, Anda dapat menanyakan sesuatu kepada Siri dengan mengucapkan “Hei Siri”. Anda harus mengaktifkan Hey Siri terlebih dulu dengan membuka Pengaturan > Umum > Siri > Izinkan Hey Siri. Selain itu, Anda harus menyambungkan perangkat iOS ke daya untuk menggunakan Hey Siri. Untuk performa terbaik, minimalkan suara bising di sekeliling dan jauhkan penghalang dari mikrofon.
BAB III
PENUTUP
3.1 Kesimpulan
Terdapat sedikit perbedaan antara Voice Recognition dan Speech Recognition. Voice Recognition hanya mengenali identitas pemilik suara sedangkan Speech Recognition mengubah suara menjadi teks. Speech Recognition kini sudah diimplementasikan pada banyak aplikasi, namun yang paling sering dipakai adalah di aplikasi Google Assistant, Siri dan Waze. Dengan Google Assistant, pengguna bisa melakukan pencarian online, membuka aplikasi tertentu, memasang alarm, mencari rute perjalanan tersingkat, dll. Dengan Siri, pengguna bisa membuka aplikasi, memasang pengingat, bahkan bercakap-cakap. Dengan Waze, pengguna dimudahkan dengan adanya Speech Recognition terutama pengguna yang sedang menyetir karena tidak perlu mengetikkan tujuan, cukup dengan berbicara, Waze bisa mencarikan rute tersingkat menuju destinasi. Speech Recognition membuat penggunaan perangkat elektronik menjadi lebih mudah dan praktis. Namun, tentu saja ada beberapa kekurangan Speech Recognition yaitu sulitnya mengeliminasi suara bising di sekitar kita sehingga bisa membuat perangkat kita gagal memahami ucapan kita. Jumlah kata yang dikenali oleh perangkat juga terbatas. Dan aksen kita juga mempengaruhi karena perangkat kita hanya deprogram untuk mengenali beberapa bahasa dan aksen.
3.2 Saran
Penulis menyadari bahwa makalah ini banyak sekali kesalahan dan jauh dari kesempurnaan. Penulis akan memperbaiki makalah ini dengan berpedoman pada banyak sumber yang dapat dipertanggungjawabkan. Maka dari itu penulis mengharapkan kritik dan saran mengenai pembahasan makalah dalam kesimpulan di atas.
Daftar Pustaka
Apolloni, Bruno, Harpri (2003). Neural Nets. Springer-Verlag. hlm. 3. ISBN 3540202277.
Baecker, Ronald M, Jonathan Grudin, William A. X. Buxton, Saul Greenberg (1995). Human-Computer Interaction : Toward the Year 2000 (Second Edition). Morgan Kauffman Publishers, Inc. hlm. 546. ISBN 1558602461.
Benesty, Jacob, M. Mohan Sondhi, dan Yiteng Huang (2008). Handbook of Speech Processing. Springer-Verlag. hlm. 6. ISBN 159904840X.
Ilham Efendi. 2015. https://www.it-jurnal.com/apa-itu-siri/
Jelinek, Frederick (1997). Statistical Methods For Speech Recognition. Massachusetts Institute of Technology. hlm. 17. ISBN 0262100665.
Kompas. 2017. https://tekno.kompas.com/read/2017/07/12/15380097/ganti.pemandu.di.waze.dengan.suara.sendiri.begini.caranya
Kusumadewi, Sri. 2003. Artificial Intelligence (Teknik dan Aplikasinya). Graha Ilmu: Yogyakarta.
Lawrence Thompson. http://www.streetdirectory.com/travel_guide/139545/technology/key_differences_between_speech_recognition_and_voice_recognition.html
Pitowarno, Endro. 2006. Robotika, Desain, Kontrol, dan Kecerdasan Buatan. Penerbit Andi.
Waibel, Alex dan Kai-Fu Lee (1990). Readings in Speech Recognition. Morgan Kauffman Publishers, Inc. hlm. 1 & 267. ISBN 1558601244.
0 Response to " "
Posting Komentar