كيف تأمل Meta في دفع الذكاء الاصطناعي إلى المستوى التالي من خلال ImageBind مفتوح المصدر

click fraud protection

أعلنت Meta عن نموذج جديد للذكاء الاصطناعي مفتوح المصدر يسمى ImageBind يهدف إلى محاكاة الطريقة التي يتعلم بها البشر بشكل أفضل من خلال الرجوع إلى أنواع متعددة من البيانات.

ميتايدعي أن نموذج AI الجديد مفتوح المصدر ، ImageBind ، هو خطوة نحو الأنظمة التي تحاكي بشكل أفضل طريقة البشر التعلم ، ورسم الروابط بين أنواع متعددة من البيانات في وقت واحد بشكل مشابه لكيفية اعتماد البشر على العديد حواس. ازداد الاهتمام العام بالذكاء الاصطناعي التوليدي في السنوات الأخيرة مع ظهور مولدات تحويل النص إلى صورة مثل DALL-E من OpenAI ونماذج المحادثة مثل ChatGPT. يتم تدريب هذه الأنظمة باستخدام مجموعات بيانات ضخمة من نوع معين من المواد ، مثل الصور أو النصوص ، حتى يتمكنوا في النهاية من تعلم كيفية إنتاجها بأنفسهم.

مع ImageBind، Meta يهدف إلى التيسير تطوير نماذج الذكاء الاصطناعي يمكنه استيعاب الصورة الأكبر. أخذ المزيد "كلي"في التعلم الآلي ، يمكنه ربط ستة أنواع مختلفة من البيانات: النص ، والمرئي (الصورة / الفيديو) ، والصوت ، والعمق ، ودرجة الحرارة ، والحركة. تتيح القدرة على رسم اتصالات بين المزيد من أنواع البيانات لنموذج الذكاء الاصطناعي القيام بمهام أكثر تعقيدًا - وتحقيق نتائج أكثر تعقيدًا. يمكن استخدام ImageBind لإنشاء مرئيات بناءً على مقاطع صوتية والعكس صحيح ، وفقًا لـ Meta ، أو إضافة عناصر بيئية للحصول على تجربة غامرة أكثر.

وفقًا لميتا ، "تزود ImageBind الآلات بفهم شامل يربط الأشياء في الصورة بكيفية صوتها وشكلها ثلاثي الأبعاد ومدى دفئها أو برودتها وكيفية تحركها.تتمتع نماذج الذكاء الاصطناعي الحالية بنطاق أكثر محدودية. يمكنهم تعلم ، على سبيل المثال ، اكتشاف الأنماط في مجموعات بيانات الصور لتوليد صور أصلية من المطالبات النصية ، ولكن ما تتخيله Meta يذهب إلى أبعد من ذلك بكثير.

يقول Meta إنه يمكن تحويل الصور الثابتة إلى مشاهد متحركة باستخدام المطالبات الصوتية ، أو يمكن استخدام النموذج كـ "طريقة غنية لاستكشاف الذكريات"من خلال السماح لأي شخص بالبحث عن رسائله ومكتبات الوسائط الخاصة به عن أحداث أو محادثات معينة باستخدام الرسائل النصية والصوتية والمطالبات بالصور. يمكن أن يستغرق شيء مثل الحقيقة المختلطة إلى مستوى جديد. يمكن أن تجلب الإصدارات المستقبلية أنواعًا أكثر من البيانات لتعزيز قدراتها بشكل أكبر ، مثل "اللمس والكلام والشم وإشارات الرنين المغناطيسي الوظيفي للدماغ" ل "تمكين نماذج أكثر ثراءً للذكاء الاصطناعي تتمحور حول الإنسان.”

لا يزال ImageBind في مهده ، على الرغم من ذلك ، و ميتا يدعو الباحثون الآخرين لاستكشاف نموذج الذكاء الاصطناعي مفتوح المصدر والبناء عليه. نشر الفريق ورقة بحثية جنبًا إلى جنب مع منشور المدونة توضح بالتفصيل البحث ، والكود متاح على جيثب.

مصدر: ميتا, جيثب