يمكن لـ VALL-E AI من Microsoft تقليد صوتك باستخدام عينة صوتية مدتها 3 ثوانٍ

click fraud protection

هل تتذكر توم كروز وهو يقلد صوت الشرير أثناء الطيران لإنقاذ العالم؟ يحتاج VALL-E من Microsoft إلى مقطع مدته 3 ثوانٍ لبدء التحدث مثلك.

الناس أكثر من مايكروسوفت خلقت منظمة العفو الدوليةنموذج توليف صوتي قائم على الصوت يسمى VALL-E يحتاج إلى سماع صوت الإنسان لمدة ثلاث ثوانٍ فقط قبل أن يبدأ التحدث مثلهم تمامًا. الآن ، Microsoft ليست غريبة على تقنيات الذكاء الاصطناعي المتطورة ، خاصة في عام 2023. هل تتذكر Chat GPT ، الذكاء الاصطناعي للمحادثة السعيدة الذي يمكنه التحدث مثل شخص متعلم لديه معرفة بالعالم بأسره؟ حسنًا ، يتم تشغيل ChatGPT حصريًا على خوادم Microsoft Azure ، وسيأتي نموذج اللغة الطبيعية الخاص بها لزيادة شحن المنتجات مثل بحث Bing ومجموعة تطبيقات Office. تخيل إخبار Outlook لكتابة إجازة رسمية بالبريد الإلكتروني مع موجه غير رسمي من سطر واحد!

في حين أن الحديث عن قيام Microsoft بضخ 10 مليارات دولار في منشئ ChatGPT منتشر في كل مكان ، فإن خبرائها يولون اهتمامًا وثيقًا للجانب الصوتي للأشياء. النتيجه هي فال- إي، نموذج لتحويل النص إلى كلام يحتاج إلى مقطع صوتي مدته ثلاث ثوانٍ فقط من صوت الشخص لإنشاء صوت اصطناعي مشابه بشكل مخيف

، قائلا كل ما يتم تغذيته في شكل مطالبات نصية. إن إمكانات مثل هذا الابتكار ضخمة. تخيل أنك تستمع إلى غاندي وهو يتلو كتابه بعد تدريب VALL-E باستخدام أحد مقاطعه الصوتية النادرة. يعتمد VALL-E على تقنية تسمى نموذج لغة الترميز العصبي ، والتي لا تتعلم فقط من الكلمات التي يتم التحدث بها ، ولكن أيضًا الطريقة الفريدة التي يتم نطقها بها والتدفق اللوني للجمل.

VALL-E جيد بشكل مخيف

الصورة: DALL-E 2 

VALL-E هو "أول من استخدم رموز الترميز الصوتية كعروض وسيطة ، وظهرت القدرة على التعلم في السياق في. " الفريق الذي يقف وراءه يكتب في ورقة ابحاث أن VALL-E تقدم نفس النوع من قدرات التعلم المعتمدة على السياق كمنصة ChatGPT الخاصة بـ OpenAI. ومع ذلك ، فإن أكبر انتصار لـ VALL-E ليس في السرعة التي يمكن أن تتعلم بها ، ولكن في طبيعتها الكلامية التي تقدمها ومدى تشابهها بشكل مخيف مع الصوت البشري المرجعي. إنجاز آخر هو ما يسميه الفريق صيانة البيئة الصوتية. باختصار ، إذا كان لعينة التدريب الصوتي أي شكل من أشكال الصدى يحدث في الخلفية ، فإن الكلام المركب الذي تم إنشاؤه بواسطة البرنامج سيكون له تلك الخصائص الصوتية أيضًا.

ولكن ما يثير القلق حقًا - والشيء الذي سيجعل من الصعب فصل الكلام الحقيقي عن تلاوة VALL-E - هو الاحتفاظ بالعواطف. تشير الورقة البحثية إلى أن "يمكن لـ VALL-E الحفاظ على العاطفة في موجه الأوامر عند وضع تسديدة صفرية.” لفهم المشاعر، فهو يعتمد على مجموعة بيانات تسمى EmoV-DB ، والتي تركز على خمسة مشاعر أساسية تنعكس في المحادثات الطبيعية للشخص. أثناء إنشاء مقاطع الصوت الخاصة به ، يكون VALL-E قادرًا على نسخ نفس المشاعر التي تم التعرف عليها في الموجه الأصلي. لكن VALL-E ليس مثاليًا ، ولا تزال هناك بعض القيود الفنية. على سبيل المثال ، يمكن أحيانًا تكرار الكلمات أو الظهور بشكل غير مفهوم. بالإضافة إلى ذلك ، قد يبدو تدريب البيانات الذي يستحق 60 ساعة من الصوت كثيرًا ، لكنه لا يزال غير متنوع بشكل كافٍ ، خاصةً عند النظر في اللهجات والنغمات المختلفة.

تقنية Microsoft مثيرة للإعجاب. في الواقع ، إنه أمر مخيف ومثير للإعجاب ، ويعترف الفريق بإمكانية إساءة الاستخدام. ورقة البحث تلاحظ ذلك يمكن للجهات السيئة استخدامه لانتحال أو انتحال شخصية شخص آخر دون علمه. ينهار كل شيء عندما يضع المحتالون أيديهم على التكنولوجيا من هذا القبيل. يشرح أيضًا سبب عدم وجود إصدار عام من VALL-E للعب به ، على عكس أدوات الذكاء الاصطناعي الشائعة الأخرى مثل ChatGPT و DALL-E و Stable Diffusion ، من بين أشياء أخرى. لحسن الحظ ، تشير الورقة البحثية إلى أن بناء نموذج يمكنه اكتشاف الكلام الحقيقي من واحد تم إنشاؤه بواسطة VALL-E أمر ممكن. في الوقت الراهن، مايكروسوفت لم تذكر ما إذا كانت تخطط لإصدار نسخة عامة من VALL-E أو متى.

مصدر: جيثب, arXiv, ستيفن تاي / تويتر