Ses Kutusu Nedir? Meta'nın Çok Dilli Konuşma Üreten Yapay Zekası

click fraud protection

Meta'nın yeni yapay zekası Voicebox, metin komutlarından konuşma üretebiliyor, gerçek sesleri taklit etmek için kısa örneklerden sesleri eşleştirebiliyor ve arka plan gürültüsünü düzenleyebiliyor.

Meta Çok sayıda dil ve lehçede konuşma oluşturabilen ve hareket edebilen Voicebox adlı yeni bir yapay zeka modelini tanıttı.ses düzenleme için silgi gibiAksi takdirde arka plan gürültüsü veya konuşma hataları nedeniyle bozulacak kayıtları temizlemek için. Şirket, teknolojiyi sosyal uygulamalar ekosistemine entegre etme planlarıyla birlikte her şeyi yapay zekaya aktarıyor. Mayıs ayında Meta, bir ImageBind adı verilen yapay zeka modeli Ses, görüntü ve metin gibi birden fazla veri türünü aynı anda kullanarak sonuçlar üretebilen.

Voicebox konuşma için üretken bir yapay zeka modelidir. İçinde Blog yazısı, Meta, metin istemlerini çeşitli seslerde ve konuşma tarzlarında konuşulan sese nasıl dönüştürebileceğini gösteriyor. Şirkete göre kısa bir ses örneği beslenebiliyor ve sonuçlarda bu ses eşleştirilebiliyor. Şu anda altı dilde (İngilizce, Fransızca, Almanca, İspanyolca, Lehçe ve Portekizce) metin okuyabiliyor ve bir dilden komutları alıp bunları başka bir dilde yüksek sesle konuşabiliyor. Voicebox hâlâ araştırma aşamasında ancak Meta CEO'su Mark Zuckerberg şimdiden şunu söylüyor: "

muhtemelen piyasadaki en çok yönlü konuşma üretme modeli.”

Voicebox AI Ne İçin Kullanılabilir?

Ses düzenleme yeteneklerinin bir örneğinde Meta, kaydedilmiş bir konuşma örneğinden havlayan bir köpeğin sesini düzenlemek için Voicebox'ı kullanıyor. Araç yalnızca arka plandaki gürültüyü ortadan kaldırmakla kalmaz, aynı zamanda etkilenen konuşulan bileşenleri yeniden oluştur Sorunsuz sonuçlar için. Birisi bir kayıtta sözlerini bulursa, Voicebox, konuşmanın gerçekten yeniden kaydedilmesine gerek kalmadan düzeltilmiş bir versiyona geçiş yapmak için kullanılabilir. Meta, aracın yalnızca iki saniyelik referans ses kullanarak bir kişinin konuşma tarzını taklit edebileceğini söylüyor.

Bu tür bir teknoloji gelecekte içerik oluşturucuların ses parçalarını kolayca düzenlemesine, görme engellilerin izin vermesine yardımcı olmak için kullanılabilir. insanların arkadaşlarından gelen yazılı mesajları kendi sesleriyle duymaları ve herhangi bir yabancı dili kendi dillerinde konuşmalarına olanak sağlanması ses”Blog gönderisi notları. Meta ayrıca Voicebox'un sanal asistanların seslerini iyileştirmek için kullanılabileceğini ve video oyunu NPC'leri (oyuncu olmayan karakterler)daha gerçekçi görünmelerine yardımcı oluyor. Çeviri yetenekleri sayesinde insanların dil engellerini aşarak iletişim kurmalarına da yardımcı olabilir.

Bununla birlikte, bir kişinin konuşma sesini potansiyel olarak taklit edebilecek bir yapay zeka modeliyle birlikte gelen bariz endişeler de var. Dolayısıyla Meta, yapay zeka araştırma projelerini sıklıkla açık kaynak haline getirse de Voicebox'ın kodunu herkese açık olarak yayınlamıyor. Bunun yerine bekleyip ne olacağını görmemiz gerekecek Meta bunun için deposu var.

Kaynak: Meta 1, 2