Apa itu Kotak Suara? AI Penghasil Ucapan Multibahasa Meta

October 22, 2023
DiMeta Teknologi

click fraud protection

AI baru Meta, Voicebox, dapat menghasilkan ucapan dari perintah teks, mencocokkan audio dari sampel pendek untuk meniru suara nyata, dan mengedit kebisingan latar belakang.

Meta telah memperkenalkan model AI baru yang disebut Voicebox yang dapat menghasilkan ucapan dalam berbagai bahasa dan dialek, dan bertindak 'seperti penghapus untuk mengedit audio’ untuk membersihkan rekaman yang mungkin rusak karena kebisingan latar belakang atau kesalahan bicara. Perusahaan telah mencurahkan segalanya ke dalam AI, dengan rencana untuk mengintegrasikan teknologi tersebut ke seluruh ekosistem aplikasi sosialnya. Pada bulan Mei, Meta membagikan demonstrasi sebuah Model AI disebut ImageBind yang dapat menghasilkan hasil menggunakan beberapa jenis data sekaligus, seperti audio, gambar, dan teks.

Voicebox adalah model AI generatif untuk ucapan. Di sebuah postingan blog, Meta menunjukkan bagaimana mengubah perintah teks menjadi audio lisan dalam berbagai suara dan gaya bicara. Menurut perusahaan, sampel audio pendek dapat dimasukkan dan hasilnya cocok dengan suara tersebut. Saat ini ia mampu membaca teks dalam enam bahasa – Inggris, Prancis, Jerman, Spanyol, Polandia, dan Portugis – dan dapat menerima perintah dari satu bahasa dan mengucapkannya dengan lantang dalam bahasa lain. Voicebox masih dalam tahap penelitian, tetapi CEO Meta Mark Zuckerberg sudah mengatakan “

mungkin model generatif ucapan yang paling serbaguna di luar sana.”

Untuk Apa Voicebox AI Dapat Digunakan

Dalam salah satu contoh kemampuan pengeditan audionya, Meta menggunakan Voicebox untuk mengedit suara gonggongan anjing dari sampel rekaman ucapan. Alat ini tidak hanya menghilangkan kebisingan latar belakang, tetapi juga bisa meregenerasi komponen lisan yang terpengaruh untuk hasil yang mulus. Jika seseorang tersandung pada kata-katanya dalam rekaman, Kotak Suara dapat digunakan untuk menukar versi yang telah diperbaiki tanpa benar-benar mengharuskan ucapan tersebut direkam ulang. Meta mengatakan alat tersebut dapat meniru gaya berbicara seseorang hanya dengan menggunakan audio referensi selama dua detik.

“Jenis teknologi ini dapat digunakan di masa depan untuk membantu pembuat konten mengedit trek audio dengan mudah, dan memungkinkan tunanetra orang untuk mendengar pesan tertulis dari teman melalui suara mereka, dan memungkinkan orang untuk berbicara bahasa asing apa pun dalam bahasa mereka sendiri suara,” catatan postingan blog. Meta juga mengatakan Voicebox dapat digunakan untuk meningkatkan suara asisten virtual dan NPC videogame (karakter non-pemain), membantu mereka terdengar lebih realistis. Dengan kemampuan penerjemahannya, ini juga dapat membantu orang berkomunikasi meskipun terdapat kendala bahasa.

Namun, terdapat kekhawatiran yang jelas terkait dengan model AI yang berpotensi meniru suara bicara seseorang. Jadi, meskipun Meta sering menjadikan proyek penelitian AI-nya menjadi sumber terbuka, Meta tidak merilis kode untuk Voicebox secara publik. Sebaliknya, kita hanya perlu menunggu dan melihat apa yang terjadi Meta telah menyiapkannya untuk itu.

Sumber: Meta 1, 2