Tentang Mendapatkan Perhatian Komputer Dan Memulai Percakapan

Dengan meningkatnya asisten virtual berbasis suara selama bertahun-tahun, pemandangan orang berbicara dengan berbagai perangkat listrik di depan umum dan secara pribadi telah menjadi hal yang biasa. Meskipun antarmuka yang digerakkan oleh suara seperti itu sangat berguna untuk berbagai situasi, mereka juga memiliki komplikasi. Salah satunya adalah frase pemicu atau kata-kata bangun yang didengarkan oleh asisten suara saat dalam keadaan siaga. Sama seperti di Star Trek, di mana mengucapkan ‘Komputer’ akan menarik perhatian komputer, demikian pula kita memiliki ‘Siri’, ‘Cortana’, dan serangkaian frasa pemicu khusus yang mengaktifkan antarmuka suara.

Namun, tidak seperti di Star Trek, asisten virtual kami tidak tahu kapan kami benar-benar ingin berinteraksi. Tidak dapat membedakan konteks, mereka akan dengan senang hati menanggapi seseorang di TV yang menyebutkan frasa pemicu mereka. Ini mungkin diikuti oleh pesanan pembelian yang menggelikan atau kerusakan lainnya. Realisasi di sini adalah kompleksitas antarmuka berbasis suara, sementara masih kurang kesadaran diri atau kecerdasan.

Masalah lainnya adalah proses pengenalan suara itu sendiri sangat intensif sumber daya, yang membatasi jumlah pemrosesan yang dapat dilakukan pada perangkat lokal. Ini biasanya mengarah ke asisten suara seperti Siri, Alexa, Cortana, dan lainnya yang memproses rekaman suara di pusat data, dengan implikasi privasi yang jelas.

Sebut saja Namaku

Radio Rex, mainan tahun 1920-an yang menyenangkan untuk tua dan muda (Credit: Emre Sevinç)
Radio Rex, mainan tahun 1920-an yang menyenangkan untuk tua dan muda (Kredit: Emre Sevin)

Gagasan kata pemicu yang mengaktifkan sistem adalah gagasan lama, dengan salah satu contoh praktis pertama yang diketahui berusia sekitar seratus tahun. Ini datang dalam bentuk mainan yang disebut Radio Rex, yang menampilkan anjing robot yang akan duduk di rumah anjing kecilnya sampai namanya dipanggil. Pada saat itu akan melompat keluar untuk menyambut orang yang memanggilnya.

Cara penerapannya sederhana dan agak terbatas berkat teknologi yang tersedia di tahun 1910-an dan 1920-an. Pada dasarnya itu menggunakan energi akustik dari forman yang secara kasar sesuai dengan vokal [eh] dalam ‘Rex’. Seperti dicatat oleh beberapa orang, masalah dengan Radio Rex adalah disetel ke 500 Hz, yang akan menjadi [eh] vokal ketika diucapkan oleh suara laki-laki dewasa (rata-rata).

Ini secara tragis berarti bahwa untuk anak-anak dan wanita Rex biasanya menolak untuk keluar dari rumah anjingnya, kecuali jika mereka menggunakan vokal berbeda yang cocok dengan rentang frekuensi 500 Hz untuk rentang vokal mereka. Bahkan kemudian mereka cenderung mengalami masalah besar lainnya dengan mainan ini, yaitu tekanan akustik yang dibutuhkan. Pada dasarnya ini berarti bahwa beberapa teriakan mungkin diperlukan untuk membuat Rex bergerak.

Yang menarik dari mainan ini adalah bahwa dalam banyak hal ol ‘Rex tidak terlalu berbeda dengan cara kerja Siri dan teman-teman modern. Kata pemicu yang membangunkan mereka dari keadaan siaga kurang ditafsirkan secara kasar, menggunakan mikrofon dan perangkat keras dan perangkat lunak pemrosesan sinyal daripada alat mekanis, tetapi efeknya sama. Dalam mode pencarian pemicu daya rendah, perangkat lunak asisten secara konstan membandingkan format sampel suara yang masuk untuk kecocokan dengan tanda suara dari kata pemicu yang telah ditentukan sebelumnya.

Setelah kecocokan terdeteksi dan mekanisme berjalan, asisten akan keluar dari rumah digitalnya saat beralih ke mode pemrosesan suara penuh. Pada tahap ini asisten yang berdiri sendiri – seperti yang mungkin ditemukan di misalnya mobil yang lebih tua – dapat menggunakan Hidden Markov Model (HMM) sederhana untuk mencoba dan menyatukan maksud pengguna. Model seperti ini umumnya dilatih pada model kosa kata yang cukup sederhana. Model seperti itu akan spesifik untuk bahasa tertentu dan seringkali aksen dan/atau dialek daerah untuk meningkatkan akurasi.

Terlalu Besar Untuk Rumah Anjing

Bagian dalam mainan Radio Rex.  (Kredit: Emre Sevinç)
Bagian dalam mainan Radio Rex. (Kredit: Emre Sevinç)

Meskipun akan menyenangkan untuk menjalankan seluruh rutinitas pemrosesan bahasa alami pada sistem yang sama, faktanya adalah pengenalan ucapan tetap sangat intensif sumber daya. Tidak hanya dalam hal kekuatan pemrosesan, bahkan pendekatan berbasis HMM harus menyaring ribuan jalur probabilistik per ucapan, tetapi juga dalam hal memori. Bergantung pada kosakata asisten, model dalam memori dapat berkisar dari puluhan megabyte hingga beberapa gigabyte atau bahkan terabyte. Ini jelas agak tidak praktis pada gadget canggih, smartphone, atau TV pintar terbaru, oleh karena itu pemrosesan ini umumnya dipindahkan ke pusat data.

Ketika akurasi dianggap lebih sebagai prioritas – seperti dengan asisten Google ketika ditanya pertanyaan yang rumit – pendekatan HMM biasanya dibuang untuk pendekatan Long Short-Term Memory (LSTM) yang lebih baru. Meskipun RNN berbasis LSTM jauh lebih baik dengan frasa yang lebih panjang, mereka juga datang dengan persyaratan pemrosesan dan penggunaan memori yang jauh lebih tinggi.

Dengan state-of-the-art saat ini dalam pengenalan suara bergerak menuju model jaringan saraf yang semakin kompleks, tampaknya tidak mungkin bahwa persyaratan sistem seperti itu akan diambil alih oleh kemajuan teknologi.

Sebagai titik referensi tentang apa yang dapat dilakukan oleh sistem kelas bawah dasar pada tingkat komputer papan tunggal seperti Raspberry Pi dengan pengenalan suara, kita dapat melihat proyek seperti CMU Sphinx, yang dikembangkan di Carnegie Mellon University. Versi yang ditujukan untuk sistem tertanam disebut PocketSphinx, dan seperti versi yang lebih besar menggunakan pendekatan berbasis HMM. Dalam FAQ Spinx disebutkan secara eksplisit bahwa kosakata besar tidak akan berfungsi pada SBC seperti Raspberry Pi karena keterbatasan RAM dan daya CPU pada platform ini.

Namun, jika Anda membatasi kosakata hingga sekitar seribu kata, modelnya mungkin hanya muat di RAM dan pemrosesannya akan cukup cepat untuk muncul secara instan bagi pengguna. Ini bagus jika Anda menginginkan antarmuka berbasis suara hanya memiliki akurasi yang layak, dalam batas data pelatihan, sementara hanya menawarkan interaksi terbatas. Jika tujuannya adalah, katakanlah, memungkinkan pengguna untuk menyalakan atau mematikan beberapa lampu, ini mungkin cukup. Di sisi lain, jika antarmuka ini disebut ‘Siri’ atau ‘Alexa’, ekspektasi untuk antarmuka semacam itu jauh lebih tinggi.

Pada dasarnya, asisten virtual ini seharusnya bertindak seperti mereka memahami bahasa alami, konteks penggunaannya, dan untuk menjawab dengan cara yang konsisten dengan cara rata-rata interaksi manusia yang beradab diharapkan terjadi. Tidak mengherankan, ini adalah tantangan yang sulit untuk dipenuhi. Melepaskan bagian pengenalan ucapan ke pusat data jarak jauh, dan menggunakan sampel suara yang direkam untuk melatih model lebih lanjut adalah konsekuensi wajar dari permintaan ini.

Tidak Ada Kecerdasan, Hanya Tebakan Bagus

Sesuatu yang kita manusia secara alami cukup pandai, dan yang semakin membuat kita kesal selama waktu sekolah kita, disebut ‘penandaan bagian-of-speech’, juga disebut penandaan tata bahasa. Di sinilah kita mengkuantifikasi bagian-bagian dari sebuah frase ke dalam konstituen gramatikalnya, termasuk kata benda, kata kerja, artikel, kata sifat, dan sebagainya. Melakukannya sangat penting untuk memahami sebuah kalimat, karena arti kata dapat berubah secara liar tergantung pada klasifikasi tata bahasanya, terutama dalam bahasa seperti bahasa Inggris dengan penggunaan umum kata benda sebagai kata kerja dan sebaliknya.

Dengan menggunakan penandaan gramatikal kita kemudian dapat memahami arti dari kalimat tersebut. Namun bukan ini yang dilakukan asisten virtual ini. Menggunakan algoritma Viterbi (untuk HMM) atau pendekatan RNN yang setara, sebagai gantinya probabilitas ditentukan dari input yang diberikan sesuai dengan subset tertentu dari model bahasa. Karena sebagian besar dari kita tidak diragukan lagi menyadarinya, ini adalah pendekatan yang terasa hampir ajaib saat berhasil, dan membuat Anda menyadari bahwa Siri sama bodohnya dengan sekantong batu bata saat gagal mendapatkan kecocokan yang sesuai.

Seiring meningkatnya permintaan untuk antarmuka berbasis suara ‘pintar’, para insinyur pasti akan bekerja tanpa lelah untuk menemukan metode yang lebih cerdik guna meningkatkan akurasi sistem saat ini. Kenyataan di masa mendatang akan tampak seperti data suara yang dikirim ke pusat data di mana sistem server yang kuat dapat melakukan penyesuaian kurva probabilitas yang diperlukan, untuk mengetahui bahwa Anda bertanya ‘Hai Google’ di mana kedai es krim terdekat berada. Jangankan bahwa Anda sebenarnya meminta toko sepeda terdekat, tapi itu teknologi untuk Anda.

Bicara Mudah

Mungkin sedikit ironis tentang seluruh bahasa alami dan pengalaman interaksi komputer adalah bahwa sintesis ucapan kurang lebih merupakan masalah yang terpecahkan. Pada awal 1980-an Texas Instruments TMS (dari Speak & Spell ketenaran) dan chip pidato General Instrument SP0256 Linear Predictive Coding (LPC) menggunakan perkiraan yang cukup kasar dari saluran vokal manusia untuk mensintesis suara yang terdengar seperti manusia.

Selama tahun-tahun berselang. LPC menjadi semakin disempurnakan untuk digunakan dalam sintesis ucapan, sementara juga menemukan penggunaan dalam pengkodean dan transmisi ucapan. Dengan menggunakan suara manusia di kehidupan nyata sebagai dasar untuk saluran vokal LPC, asisten virtual juga dapat beralih di antara suara, memungkinkan Siri, Cortana, dll. terdengar sebagai jenis kelamin dan etnis apa pun yang paling menarik bagi pengguna akhir.

Mudah-mudahan dalam beberapa dekade mendatang kita dapat membuat pengenalan suara berfungsi serta sintesis ucapan, dan bahkan mungkin memberi asisten virtual ini sedikit kecerdasan sejati.