Microsoft'un VALL-E Yapay Zekası, 3 Saniyelik Bir Ses Örneği Kullanarak Sesinizi Taklit Edebilir

click fraud protection

Tom Cruise'un dünyayı kurtarmak için hareket halindeyken bir kötü adamın sesini taklit ettiğini hatırlıyor musunuz? Microsoft'un VALL-E'sinin sizin gibi konuşmaya başlaması için sadece 3 saniyelik bir klibe ihtiyacı var.

Oradakiler Microsoft yarattık AITıpkı onlar gibi konuşmaya başlamadan önce bir insanın sesini sadece üç saniye duyması gereken VALL-E adlı tabanlı ses sentez modeli. Artık Microsoft, özellikle 2023'te en son yapay zeka teknolojisine yabancı değil. Tüm dünya hakkında bilgi sahibi bilgili bir kişi gibi konuşabilen, sohbetten keyif alan, sohbete dayalı yapay zeka olan Chat GPT'yi hatırlıyor musunuz? ChatGPT, yalnızca Microsoft'un Azure sunucularında çalışıyor ve doğal dil modeli, Bing arama ve Office uygulama paketi gibi ürünleri güçlendiriyor. Outlook'a tek satırlık basit bir istemle resmi bir izin e-postası yazmasını söylediğinizi hayal edin!

Microsoft'un ChatGPT'nin yaratıcısına 10 milyar dolar akıttığı her yerde konuşulurken, uzmanları da işlerin ses yönüyle yakından ilgileniyor. Sonuç

VALL-E, bir kişinin sesinin yalnızca üç saniyelik bir ses klibine ihtiyaç duyan bir metinden konuşmaya modeli ürkütücü derecede benzer bir sentetik ses oluşturmak için, kendisine metin istemleri şeklinde beslenen her şeyi söyleyerek. Böyle bir yeniliğin potansiyeli çok büyük. Gandhi'nin VALL-E'yi eğittikten sonra kitabını ender ses kliplerinden birini kullanarak okuduğunu hayal edin. VALL-E, yalnızca konuşulan sözcüklerden değil, aynı zamanda benzersiz şekilde telaffuz edilme biçimlerinden ve cümlelerin ton akışından da öğrenen, nöral codec dil modeli adı verilen bir tekniğe dayanır.

VALL-E Korkutucu Derecede İyi

Resim: DALL-E 2 

VALL-E “ara temsiller olarak ses codec kodlarını ilk kullanan ve bağlam içi öğrenme yeteneğini ortaya çıkaran” Arkasındaki ekip yazıyor Araştırma kağıdı VALL-E'nin aynı türden bağlama dayalı öğrenme yetenekleri sunduğu OpenAI'nin ChatGPT platformu olarak. Ancak VALL-E'nin en büyük zaferi, ne kadar çabuk öğrenebileceği değil, sunduğu konuşma doğallığı ve referans insan sesine ne kadar ürkütücü bir şekilde benzemesidir. Diğer bir başarı da ekibin akustik ortam bakımı olarak adlandırdığı şeydir. Özetle, eğitim örneği sesinde arka planda herhangi bir yankılanma varsa, program tarafından oluşturulan sentezlenmiş konuşma da bu ses özelliklerine sahip olacaktır.

Ama gerçekten endişe verici olan - ve gerçek konuşmayı bir VALL-E ezberinden ayırmayı zorlaştıracak bir şey - duyguların akılda tutulmasıdır. Araştırma makalesi şunu belirtiyor: “VALL-E, istemdeki duyguyu sıfır çekim ayarında koruyabilir.” Duyguları kavramak için, bir kişinin doğal konuşmalarına yansıyan beş temel duyguya odaklanan EmoV-DB adlı bir veri kümesine dayanıyor. VALL-E, kendi ses kliplerini oluştururken, orijinal istemde tanımlanabilir olan aynı duyguyu kopyalayabilir. Ancak VALL-E mükemmel değil ve hala birkaç teknik sınırlama var. Örneğin, kelimeler bazen tekrarlanabilir veya anlaşılmaz bir şekilde ortaya çıkabilir. Artı, 60 saatlik ses değerinde veri eğitimi çok gibi gelebilir, ancak özellikle farklı vurgular ve tonlar düşünüldüğünde, yine de yeterince çeşitli değildir.

Microsoft'un teknolojisi etkileyici. Aslında korkutucu derecede etkileyici ve ekip kötüye kullanım olasılığının farkında. Araştırma makalesi şunu belirtiyor: kötü oyuncular kullanabilir bilgisi olmadan başka bir kişiyi taklit etmek veya taklit etmek için. Dolandırıcılar böyle bir teknolojiyi ele geçirdiğinde kıyamet kopar. Ayrıca ChatGPT, DALL-E ve Stable Diffusion gibi diğer popüler yapay zeka araçlarının aksine neden VALL-E'nin oynanacak genel bir sürümünün olmadığını da açıklıyor. Neyse ki, araştırma makalesi, VALL-E tarafından üretilen birinden gerçek konuşmayı algılayabilen bir model oluşturmanın mümkün olduğundan bahsediyor. Şimdilik, Microsoft VALL-E'nin halka açık bir versiyonunu piyasaya sürmeyi planlayıp planlamadığını veya ne zaman planladığını söylemedi.

Kaynak: GitHub, arXiv, Steven Tey/Twitter