Como a Meta espera levar a IA ao próximo nível com seu ImageBind de código aberto

click fraud protection

A Meta anunciou um novo modelo de IA de código aberto chamado ImageBind, que visa imitar melhor a maneira como os humanos aprendem, referenciando vários tipos de dados.

metaafirma que seu novo modelo de IA de código aberto, ImageBind, é um passo em direção a sistemas que imitam melhor a maneira como os humanos aprender, estabelecendo conexões entre vários tipos de dados ao mesmo tempo, de forma semelhante à forma como os humanos dependem de vários sentidos. O interesse geral na IA generativa explodiu nos últimos anos com o surgimento de geradores de texto para imagem como o DALL-E da OpenAI e modelos de conversação como o ChatGPT. Esses sistemas são treinados usando enormes conjuntos de dados de um determinado tipo de material, como imagens ou texto, para que possam aprender a produzir seus próprios.

Com ImageBind, Meta visa facilitar o desenvolvimento de modelos de IA que pode compreender a imagem maior. Tomando mais “holística” abordagem de aprendizado de máquina, ele pode vincular seis tipos diferentes de dados: texto, visual (imagem/vídeo), áudio, profundidade, temperatura e movimento. A capacidade de estabelecer conexões entre mais tipos de dados permite que o modelo de IA assuma tarefas mais complexas – e produza resultados mais complexos. O ImageBind pode ser usado para gerar visuais com base em clipes de áudio e vice-versa, de acordo com Meta, ou adicionar elementos ambientais para uma experiência mais imersiva.

Segundo Meta, “O ImageBind equipa as máquinas com uma compreensão holística que conecta objetos em uma foto com como eles soarão, sua forma 3D, quão quentes ou frios eles são e como eles se movem.” Os modelos atuais de IA têm um escopo mais limitado. Eles podem aprender, por exemplo, a identificar padrões em conjuntos de dados de imagem para, por sua vez, gerar imagens originais a partir de prompts de texto, mas o que Meta prevê vai muito além.

Imagens estáticas podem ser transformadas em cenas animadas usando prompts de áudio, diz Meta, ou o modelo pode ser usado como “uma maneira rica de explorar memórias” permitindo que uma pessoa pesquise suas mensagens e bibliotecas de mídia para eventos ou conversas específicas usando prompts de texto, áudio e imagem. pode demorar algo como realidade mista para um novo nível. Versões futuras podem trazer ainda mais tipos de dados para aumentar ainda mais seus recursos, como “sinais de fMRI de toque, fala, cheiro e cérebro" para "permitem modelos de IA centrados no ser humano mais ricos.”

ImageBind ainda está em sua infância, porém, e o meta os pesquisadores estão convidando outras pessoas para explorar o modelo de IA de código aberto e construí-lo. A equipe publicou um artigo ao lado da postagem do blog detalhando a pesquisa, e o código está disponível em GitHub.

Fonte: meta, GitHub