Wie Meta mit seinem Open-Source-ImageBind die KI auf die nächste Stufe heben will

May 12, 2023
ImMeta Technik Künstliche Intelligenz

click fraud protection

Meta hat ein neues Open-Source-KI-Modell namens ImageBind angekündigt, das darauf abzielt, die Art und Weise, wie Menschen lernen, durch Referenzierung mehrerer Datentypen besser nachzuahmen.

Metabehauptet, sein neues Open-Source-KI-Modell ImageBind sei ein Schritt hin zu Systemen, die die Art und Weise des Menschen besser nachahmen Lernen Sie, indem Sie Verbindungen zwischen mehreren Arten von Daten gleichzeitig herstellen, ähnlich wie Menschen sich auf mehrere Arten verlassen Sinne. Das Mainstream-Interesse an generativer KI ist in den letzten Jahren mit dem Aufkommen von Text-zu-Bild-Generatoren wie DALL-E von OpenAI und Konversationsmodellen wie ChatGPT explodiert. Diese Systeme werden anhand riesiger Datensätze einer bestimmten Art von Material, wie Bildern oder Text, trainiert, damit sie letztendlich lernen können, ihr eigenes Material zu erstellen.

Mit ImageBind, Meta zielt darauf ab, zu erleichtern die Entwicklung von KI-Modellen die das große Ganze erfassen können. Nehmen Sie sich noch mehr „

ganzheitlichMit diesem Ansatz des maschinellen Lernens können sechs verschiedene Arten von Daten verknüpft werden: Text, visuelle Daten (Bild/Video), Audio, Tiefe, Temperatur und Bewegung. Durch die Fähigkeit, Verbindungen zwischen mehr Datentypen herzustellen, kann das KI-Modell komplexere Aufgaben übernehmen – und komplexere Ergebnisse liefern. ImageBind könnte laut Meta dazu verwendet werden, visuelle Darstellungen auf der Grundlage von Audioclips zu generieren und umgekehrt, oder Umgebungselemente für ein noch intensiveres Erlebnis hinzuzufügen.

Laut Meta: „ImageBind stattet Maschinen mit einem ganzheitlichen Verständnis aus, das Objekte auf einem Foto mit ihrem Klang, ihrer 3D-Form, ihrer Wärme oder Kälte und ihrer Bewegung verknüpft.„Aktuelle KI-Modelle haben einen begrenzteren Umfang. Sie können beispielsweise lernen, Muster in Bilddatensätzen zu erkennen, um daraus wiederum Originalbilder aus Textaufforderungen zu generieren, aber die Vision von Meta geht noch viel weiter.

Statische Bilder könnten mithilfe von Audioansagen in animierte Szenen umgewandelt werden, sagt Meta, oder das Modell könnte als „eine reichhaltige Möglichkeit, Erinnerungen zu erkunden” indem es einer Person ermöglicht, mithilfe von Text-, Audio- und Bildaufforderungen nach ihren Nachrichten und Medienbibliotheken für bestimmte Ereignisse oder Gespräche zu suchen. Es könnte dauern so etwas wie Mixed-Reality auf ein neues Level. Zukünftige Versionen könnten noch mehr Arten von Daten einbringen, um seine Fähigkeiten weiter zu erweitern, wie zum Beispiel „Berührungs-, Sprach-, Geruchs- und fMRT-Signale des Gehirns" Zu "Ermöglichen Sie umfassendere, auf den Menschen ausgerichtete KI-Modelle.”

ImageBind steckt jedoch noch in den Kinderschuhen und die Meta Forscher laden andere ein, das Open-Source-KI-Modell zu erkunden und darauf aufzubauen. Das Team hat neben dem Blog-Beitrag ein Papier veröffentlicht, in dem die Forschung detailliert beschrieben wird. Der Code ist auf verfügbar GitHub.

Quelle: Meta, GitHub