MIT Technology Review Penggunaan jaringan saraf tiruan oleh DeepMind untuk melakukan sintesis cara bicara pada akhirnya dapat membuat komputer menjadi bersuara layaknya manusia.
Terakhir kali Anda mendengarkan komputer mengubah teks menjadi suara, boleh jadi terdengar kaku. Divisi machine-learning milik Google, DeepMind, telah mengembangkan sebuah sistem yang dapat menyintesis suara menggunakan inteligensia buatan yang mereka perkirakan akan memperbaiki keadaan.
Memiliki komputer yang dapat menghasilkan suara (manusia) bukanlah ide baru. Mungkin pendekatan yang paling umum dan sederhana adalah menggunakan banyak sekali pilihan-pilihan suara yang telah direkam sebelumnya dari suara seseorang. Dalam sebuah teknik yang bernama sintesis concatenative, suara-suara tersebut digabungkan agar diperoleh suara, kata-kata, dan kalimat yang lebih kompleks. Itulah mengapa banyak sekali suara-suara/kata-kata yang dihasilkan komputer acap kali mengalami ketidaktentuan, perubahan aneh pada intonasi, dan pengucapan yang tersendat.
Pendekatan yang lain adalah menggunakan model matematika untuk menghasilkan kembali suara yang dikenali yang kemudian dikumpulkan menjadi kata-kata dan kalimat. Walaupun hasilnya cenderung lebih baik, namun pendekatan yang biasa disebut dengan pendekatan parametric ini menghasilkan suara seperti robot. Pendekatan berikutnya menggabungkan kedua pendekatan sebelumnya dengan cara “menyulam” menjadi satu kesatuan suara, bukannya membuat keseluruhan gelombang audio dari guratan-guratan suara.
![12-compressor](https://waldst.files.wordpress.com/2016/09/12-compressor.gif)
Inilah pendekatan yang DeepMind lakukan. Jaringan saraf tiruan konvolusional dari WaveNet didapat dengan cara mengumpankan potongan-potongan suara asli manusia, bersamaan dengan fitur-fitur kebahasaan dan fonetik sehingga dapat diidentifikasi pola yang berhubungan keduanya. Pada penggunaannya, sistem ini difungsikan dengan fitur-fitur baru dari suara yang dihasilkan dari kalimat/tulisan, kemudian sistem membuat gelombang suara awal. Sistem melakukannya secara bertahap, pertama menghasilkan sampel gelombang suara baru kemudian melakukan tahap berikutnya. Pada setiap tahapnya sistem akan memanfaatkan informasi sampel yang telah dibuat untuk kelancaran tahap selanjutnya.
![blogpost-fig2-anim-160908-r01](https://waldst.files.wordpress.com/2016/09/blogpost-fig2-anim-160908-r01.gif)
Hasilnya, suara menjadi menawan dan lebih meyakinkan, Anda dapat mendengarkannya sendiri di sini.
Dibandingkan dengan pendekatan concatenative dan parametric, pendekatan ini terdengar lebih seperti suara manusia.
Meskipun begitu, tetap ada yang namanya pengorbanan. Teknik ini membutuhkan tenaga komputasional yang sangat besar. Karena WaveNet harus membuat keseluruhan bentuk gelombang dan harus menggunakan jaringan neuralnya untuk memproses agar dihasilkan 16.000 sampel untuk setiap detik dari audio yang akan dibuat (dan meskipun begitu, suara yang dihasilkan hanya setara dengan kualitas suara yang dikirim melalui panggilan telepon atau VoIP). Menurut seorang sumber dari DeepMind yang mengatakan kepada Financial Times (paywall), kesimpulannya metode ini belum akan digunakan pada produk Google manapun untuk saat ini.
Sudah begitu, hal ini bukanlah satu-satunya masalah kebahasaan yang dihadapi oleh komputer. Menerjemahkan ucapan dan kalimat tertulis juga merupakan hal yang sangat sulit untuk sistem inteligensia buatan. Paling tidak pada saat sekarang ini ketika komputer dapat melakukan hal-hal yang diperlukan untuk menghasilkan pemikiran-pemikiran cerdas atau melakukan hitungan-hitungan rumit, mereka juga mampu untuk mengomunikasikannya kepada kita dengan baik.
Ditulis oleh: Jamie Condliffe
Tulisan asli: Face of a Robot, Voice of an Angel?
Diterjemahkan oleh: Waldst