Microsoft'un VALL-E Yapay Zekası, 3 Saniyelik Bir Ses Örneği Kullanarak Sesinizi Taklit Edebilir
Tom Cruise'un dünyayı kurtarmak için hareket halindeyken bir kötü adamın sesini taklit ettiğini hatırlıyor musunuz? Microsoft'un VALL-E'sinin sizin gibi konuşmaya başlaması için sadece 3 saniyelik bir klibe ihtiyacı var.
Oradakiler Microsoft yarattık AITıpkı onlar gibi konuşmaya başlamadan önce bir insanın sesini sadece üç saniye duyması gereken VALL-E adlı tabanlı ses sentez modeli. Artık Microsoft, özellikle 2023'te en son yapay zeka teknolojisine yabancı değil. Tüm dünya hakkında bilgi sahibi bilgili bir kişi gibi konuşabilen, sohbetten keyif alan, sohbete dayalı yapay zeka olan Chat GPT'yi hatırlıyor musunuz? ChatGPT, yalnızca Microsoft'un Azure sunucularında çalışıyor ve doğal dil modeli, Bing arama ve Office uygulama paketi gibi ürünleri güçlendiriyor. Outlook'a tek satırlık basit bir istemle resmi bir izin e-postası yazmasını söylediğinizi hayal edin!
Microsoft'un ChatGPT'nin yaratıcısına 10 milyar dolar akıttığı her yerde konuşulurken, uzmanları da işlerin ses yönüyle yakından ilgileniyor. Sonuç
VALL-E Korkutucu Derecede İyi
VALL-E “ara temsiller olarak ses codec kodlarını ilk kullanan ve bağlam içi öğrenme yeteneğini ortaya çıkaran” Arkasındaki ekip yazıyor Araştırma kağıdı VALL-E'nin aynı türden bağlama dayalı öğrenme yetenekleri sunduğu OpenAI'nin ChatGPT platformu olarak. Ancak VALL-E'nin en büyük zaferi, ne kadar çabuk öğrenebileceği değil, sunduğu konuşma doğallığı ve referans insan sesine ne kadar ürkütücü bir şekilde benzemesidir. Diğer bir başarı da ekibin akustik ortam bakımı olarak adlandırdığı şeydir. Özetle, eğitim örneği sesinde arka planda herhangi bir yankılanma varsa, program tarafından oluşturulan sentezlenmiş konuşma da bu ses özelliklerine sahip olacaktır.
Ama gerçekten endişe verici olan - ve gerçek konuşmayı bir VALL-E ezberinden ayırmayı zorlaştıracak bir şey - duyguların akılda tutulmasıdır. Araştırma makalesi şunu belirtiyor: “VALL-E, istemdeki duyguyu sıfır çekim ayarında koruyabilir.” Duyguları kavramak için, bir kişinin doğal konuşmalarına yansıyan beş temel duyguya odaklanan EmoV-DB adlı bir veri kümesine dayanıyor. VALL-E, kendi ses kliplerini oluştururken, orijinal istemde tanımlanabilir olan aynı duyguyu kopyalayabilir. Ancak VALL-E mükemmel değil ve hala birkaç teknik sınırlama var. Örneğin, kelimeler bazen tekrarlanabilir veya anlaşılmaz bir şekilde ortaya çıkabilir. Artı, 60 saatlik ses değerinde veri eğitimi çok gibi gelebilir, ancak özellikle farklı vurgular ve tonlar düşünüldüğünde, yine de yeterince çeşitli değildir.
Microsoft'un teknolojisi etkileyici. Aslında korkutucu derecede etkileyici ve ekip kötüye kullanım olasılığının farkında. Araştırma makalesi şunu belirtiyor: kötü oyuncular kullanabilir bilgisi olmadan başka bir kişiyi taklit etmek veya taklit etmek için. Dolandırıcılar böyle bir teknolojiyi ele geçirdiğinde kıyamet kopar. Ayrıca ChatGPT, DALL-E ve Stable Diffusion gibi diğer popüler yapay zeka araçlarının aksine neden VALL-E'nin oynanacak genel bir sürümünün olmadığını da açıklıyor. Neyse ki, araştırma makalesi, VALL-E tarafından üretilen birinden gerçek konuşmayı algılayabilen bir model oluşturmanın mümkün olduğundan bahsediyor. Şimdilik, Microsoft VALL-E'nin halka açık bir versiyonunu piyasaya sürmeyi planlayıp planlamadığını veya ne zaman planladığını söylemedi.
Kaynak: GitHub, arXiv, Steven Tey/Twitter