Meta, Açık Kaynaklı ImageBind İle Yapay Zekayı Bir Sonraki Seviyeye İtmeyi Nasıl Umut Ediyor?

May 12, 2023
İçindeMeta Teknoloji Yapay Zeka

click fraud protection

Meta, birden fazla veri türüne atıfta bulunarak insanların öğrenme şeklini daha iyi taklit etmeyi amaçlayan ImageBind adlı yeni, açık kaynaklı bir AI modelini duyurdu.

Metayeni açık kaynaklı yapay zeka modeli ImageBind'in, insanları daha iyi taklit eden sistemlere doğru bir adım olduğunu iddia ediyor İnsanların çoklu veri türlerine güvenmesine benzer şekilde, birden çok veri türü arasında aynı anda bağlantılar kurarak öğrenin. duyular. OpenAI'nin DALL-E'si gibi metinden görüntüye oluşturucuların ve ChatGPT gibi konuşma modellerinin yükselişiyle son yıllarda üretici yapay zekaya yönelik ana akım ilgi patladı. Bu sistemler, resimler veya metin gibi belirli türdeki materyallerin devasa veri kümeleri kullanılarak eğitilir, böylece sonunda kendi veri setlerini üretmeyi öğrenebilirler.

İle GörüntüBind, Meta kolaylaştırmayı amaçlar AI modellerinin geliştirilmesi büyük resmi kavrayabilen. daha fazla alarak"bütünsel” makine öğrenimine yönelik bir yaklaşımla, altı farklı veri türünü birbirine bağlayabilir: metin, görsel (resim/video), ses, derinlik, sıcaklık ve hareket. Daha fazla veri türü arasında bağlantı kurma yeteneği, yapay zeka modelinin daha karmaşık görevleri üstlenmesine ve daha karmaşık sonuçlar üretmesine olanak tanır. ImageBind, Meta'ya göre ses kliplerine dayalı görseller oluşturmak için kullanılabilir ve bunun tersi de geçerlidir veya daha sürükleyici bir deneyim için çevresel öğeler ekleyebilir.

Meta'ya göre, “ImageBind, makinelere fotoğraftaki nesneleri nasıl ses çıkaracakları, 3B şekilleri, ne kadar sıcak veya soğuk oldukları ve nasıl hareket ettikleri ile bağlayan bütünsel bir anlayışla donatıyor.” Mevcut AI modellerinin kapsamı daha sınırlıdır. Örneğin, metin istemlerinden orijinal görüntüler oluşturmak için görüntü veri kümelerindeki kalıpları tespit etmeyi öğrenebilirler, ancak Meta'nın öngördüğü şey çok daha ileri gider.

Meta, statik görüntülerin sesli komutlar kullanılarak animasyonlu sahnelere dönüştürülebileceğini veya modelin şu şekilde kullanılabileceğini söylüyor:anıları keşfetmenin zengin bir yolu” bir kişinin metin, ses ve görüntü istemlerini kullanarak belirli olaylar veya konuşmalar için mesajlarını ve medya kitaplıklarını aramasına izin vererek. alabilir karma gerçeklik gibi bir şey yeni bir seviyeye. Gelecekteki sürümler, yeteneklerini daha da ileriye taşımak için daha da fazla veri türü getirebilir, örneğin "dokunma, konuşma, koku ve beyin fMRI sinyalleri" ile "daha zengin insan merkezli AI modellerini etkinleştirin.”

ImageBind henüz emekleme aşamasında ve Meta Araştırmacılar, başkalarını açık kaynaklı yapay zeka modelini keşfetmeye ve onun üzerine inşa etmeye davet ediyor. Ekip, blog gönderisinin yanında araştırmayı detaylandıran bir makale yayınladı ve kod şu adreste mevcut: GitHub.

Kaynak: Meta, GitHub