Bagaimana Meta Berharap Untuk Mendorong AI Ke Level Berikutnya Dengan ImageBind Sumber Terbukanya

click fraud protection

Meta telah mengumumkan model AI sumber terbuka baru yang disebut ImageBind yang bertujuan untuk meniru cara manusia belajar dengan lebih baik dengan mereferensikan berbagai jenis data.

Metamengklaim model AI sumber terbuka barunya, ImageBind, adalah langkah menuju sistem yang meniru cara manusia dengan lebih baik belajar, menggambar koneksi antara beberapa jenis data sekaligus mirip dengan bagaimana manusia mengandalkan banyak indra. Ketertarikan arus utama pada AI generatif telah meledak dalam beberapa tahun terakhir dengan munculnya generator teks-ke-gambar seperti DALL-E OpenAI dan model percakapan seperti ChatGPT. Sistem ini dilatih menggunakan kumpulan data masif dari jenis materi tertentu, seperti gambar atau teks, sehingga pada akhirnya mereka dapat belajar memproduksinya sendiri.

Dengan ImageBind, Meta bertujuan untuk memfasilitasi pengembangan model AI yang dapat menangkap gambaran yang lebih besar. Mengambil lebih “menyeluruh” pendekatan pembelajaran mesin, ini dapat menghubungkan enam jenis data yang berbeda: teks, visual (gambar/video), audio, kedalaman, suhu, dan gerakan. Kemampuan untuk menarik koneksi antara lebih banyak jenis data memungkinkan model AI untuk melakukan tugas yang lebih kompleks — dan menghasilkan hasil yang lebih kompleks. ImageBind dapat digunakan untuk menghasilkan visual berdasarkan klip audio dan sebaliknya, menurut Meta, atau menambahkan elemen lingkungan untuk pengalaman yang lebih imersif.

Menurut Meta, “ImageBind melengkapi mesin dengan pemahaman holistik yang menghubungkan objek dalam foto dengan bunyinya, bentuk 3Dnya, seberapa hangat atau dinginnya, dan bagaimana gerakannya.Model AI saat ini memiliki cakupan yang lebih terbatas. Mereka dapat belajar, misalnya, menemukan pola dalam kumpulan data gambar untuk menghasilkan gambar asli dari petunjuk teks, tetapi apa yang Meta bayangkan lebih jauh.

Gambar statis dapat diubah menjadi adegan animasi menggunakan petunjuk audio, kata Meta, atau modelnya dapat digunakan sebagai "cara yang kaya untuk mengeksplorasi kenangan” dengan mengizinkan seseorang untuk mencari pesan dan perpustakaan media mereka untuk acara atau percakapan tertentu menggunakan perintah teks, audio, dan gambar. Itu bisa memakan waktu sesuatu seperti realitas campuran ke tingkat yang baru. Versi mendatang dapat menghadirkan lebih banyak jenis data untuk mendorong kemampuannya lebih jauh, seperti “sentuhan, ucapan, penciuman, dan sinyal fMRI otak" ke "memungkinkan model AI yang berpusat pada manusia yang lebih kaya.”

ImageBind masih dalam masa pertumbuhan, dan Meta peneliti mengundang orang lain untuk menjelajahi model AI sumber terbuka dan mengembangkannya. Tim telah menerbitkan makalah di samping posting blog yang merinci penelitian, dan kodenya tersedia di GitHub.

Sumber: Meta, GitHub