Berkompetisi dalam dunia AI, tampaknya Meta tidak mau ketinggalan. Baru-baru ini, Meta telah memperkenalkan Voicebox, model generatif text-to-speech yang dijanjikan dapat melakukan apa yang dilakukan oleh ChatGPT dan Dall-E untuk generasi teks dan gambar.
Voicebox adalah generator output teks seperti GPT atau Dall-E, tetapi alih-alih menciptakan prosa atau gambar, ia menghasilkan klip audio. Penasaran mengenai detailnya? Simak hingga akhir!
Voicebox didefinisikan oleh Meta sebagai “model flow-matching non-autoregressive yang dilatih untuk mengisi suara, diberi konteks audio dan teks.” Model ini telah dilatih pada lebih dari 50.000 jam audio yang tidak difilter.
Meta menggunakan pidato yang direkam dan transkrip dari sejumlah buku audio domain publik yang ditulis dalam bahasa Inggris, Prancis, Spanyol, Jerman, Polandia, dan Portugis. Set data yang beragam ini memungkinkan sistem untuk menghasilkan suara yang lebih mirip percakapan, terlepas dari bahasa yang digunakan oleh setiap pihak.
Baca juga: LVMH Gandeng Epic Games untuk Pengalaman Imersif yang Mengubah Dunia Fashion
Menurut para peneliti Voicebox,
“Hasil kami menunjukkan bahwa model pengenalan suara yang dilatih pada suara sintetis yang dihasilkan Voicebox berkinerja hampir sama baiknya dengan model yang dilatih pada suara nyata.”
Menurut laporan, sistem ini pertama kali diajarkan untuk memprediksi segmen pidato berdasarkan segmen di sekitarnya serta transkrip bagian tersebut.
“Setelah belajar mengisi suara dari konteks, model ini kemudian dapat menerapkannya di seluruh tugas generasi suara, termasuk menghasilkan bagian di tengah rekaman audio tanpa harus menciptakan kembali seluruh input,” jelas peneliti Meta.
Voicebox juga dilaporkan mampu mengedit klip audio secara aktif, menghilangkan kebisingan dari pidato dan bahkan mengganti kata-kata yang salah ucap.
“Seseorang bisa mengidentifikasi segmen mentah dari pidato yang terganggu oleh kebisingan (seperti anjing yang menggonggong), memotongnya, dan menginstruksikan model untuk meregenerasi segmen tersebut,” kata para peneliti.
Teknik pelatihan text-to-speech baru yang dinamakan Flow Matching oleh Meta membuat Voicebox tidak memerlukan banyak materi sumber seperti generator text-to-speech lainnya. Hasil benchmark menunjukkan bahwa AI Meta mengungguli model terkini dalam hal kejelasan (tingkat kesalahan kata 1,9% vs 5,9%) dan “kesamaan audio” (skor komposit 0,681 vs 0,580 SOA), semuanya beroperasi hingga 20 kali lebih cepat dari sistem TTS terbaik saat ini.
Voicebox memiliki potensi untuk digunakan dalam berbagai aplikasi, mulai dari alat bantu untuk pasien dengan kerusakan pita suara, karakter non-pemain dalam game, hingga asisten digital. Namun, aplikasi ini masih dalam tahap penelitian dan belum dirilis ke publik.
Meski demikian, Meta telah merilis serangkaian contoh audio dan makalah penelitian awal untuk memberikan gambaran tentang bagaimana teknologi ini bekerja. Dengan kemampuannya untuk menghasilkan suara yang lebih alami dan beragam, Voicebox dapat membuka peluang baru dalam bidang text-to-speech.
Baca juga: Polygon dan Ready Games Berkolaborasi Luncurkan Alat Canggih untuk Game Web3
Tidak hanya itu, Meta juga menyadari potensi penyalahgunaan teknologi ini. Oleh karena itu, mereka telah mengembangkan alat untuk membedakan antara suara asli dan suara yang dihasilkan oleh Voicebox. Ini adalah langkah penting untuk memastikan bahwa teknologi ini digunakan dengan cara yang etis dan bertanggung jawab.
Ikuti kami di Google News untuk mendapatkan berita-berita terbaru seputar crypto. Nyalakan notifikasi agar tidak ketinggalan beritanya.
Referensi: