O Facebook está treinando IA em visão de primeira pessoa. É inteligente e alarmante

click fraud protection

Facebook anunciou um novo projeto de pesquisa chamado Ego4D que visa treinar modelos de IA usando vídeos capturados de um perspectiva humana e, em seguida, fornecer orientação usando pistas de realidade aumentada, acessando o registro do passado gravações. O mais recente projeto de pesquisa centrado em IA do gigante da mídia social coloca a tecnologia de visão computacional na frente e no centro, que já está em uso para alguns extensão para produtos como o Google Lens e um punhado de outras ferramentas de compras em que uma imagem é estudada para obter listagens semelhantes de comércio eletrônico plataformas.

A empresa recentemente detalhou seu trabalho em novos Pesquisa visual com tecnologia de IA e ferramentas de descoberta de produtos isso vai impulsionar a experiência de compra no Instagram. Mais adiante, ele exibirá listas on-line de itens de vestuário com um simples toque na foto de uma pessoa. O sistema interno de reconhecimento de produto é tão avançado que exibirá produtos relevantes mesmo para consultas vagas baseadas em texto, como “encontre uma camisa com padrão de bolinhas semelhante” em suas plataformas. Mas todos esses sistemas de reconhecimento de objetos são predominantemente baseados em um sistema de visão computacional treinado em fotos e vídeos capturados de uma perspectiva de terceira pessoa.

O Facebook está dando um passo adiante, mudando a perspectiva dos dados de treinamento dos bastidores para direto no meio da ação com uma perspectiva de primeira pessoa como parte de seu Ego4D AI projeto. As possibilidades parecem ser infinitamente benéficas e um pouco assustadoras também. Para coletar os dados de treinamento, o Facebook fez parceria com 13 instituições em nove países que recrutaram mais de 700 participantes para registrar mais de 2.200 horas de filmagens em primeira pessoa documentando as atividades do dia a dia, como fazer compras, lavar utensílios e tocar bateria, para citar um alguns. O objetivo é capturar as atividades e também avaliar o cenário da própria perspectiva de uma pessoa, bem como a ação registrada por Óculos de sol Ray-Ban Stories do Facebook.

O primeiro vislumbre do metaverso com RA no centro

A empresa está chamando isso de percepção egocêntrica, daí o nome Ego4D. O vídeo foi transcrito e anotado para descrever tudo no quadro, desde um objeto até a ação, a fim de criar um conjunto de dados que pesquisadores de todo o mundo podem usar para desenvolver sistemas de visão computacional e catalisar uma nova onda de desenvolvimento de IA. Wendy's recentemente fez parceria com o Google Cloud para criar um sistema de visão computacional que monitorará a cozinha e alerte o cozinheiro quando for a hora de virar hambúrgueres. No entanto, o projeto Ego4D do Facebook dá um toque de AR aos recursos de IA que vão muito além da análise e realmente entram no reino das ações dos usuários de previsão.

Para fazer isso, o Facebook conjurou um conjunto de cinco benchmarks que uma percepção egocêntrica da IA ​​deve atingir. O primeiro é a memória episódica, que funciona da mesma forma que a memória humana. Por exemplo, quando os usuários esquecem onde colocaram o controle remoto da TV, a IA acessará os vídeos anteriores em primeira pessoa para verificar onde os usuários os deixaram e os guiará até o local usando dicas de RA um pouco como o Apple Maps. O segundo benchmark é a previsão, que prevê o que o usuário está prestes a fazer e fornece o alerta necessário. Portanto, se um usuário já tiver adicionado pimenta ao curry e, novamente, alcançar a garrafa de pimenta em pó, o A IA reconhecerá a ação iminente e alertará instantaneamente os usuários de que o ingrediente já foi adicionado.

Estamos anunciando # Ego4D, um projeto ambicioso de longo prazo que embarcamos com 13 universidades em 9 países para aprimorar a percepção em primeira pessoa. Este trabalho irá catalisar pesquisas para construir assistentes de IA, robôs e outras inovações futuras mais úteis. https://t.co/oJSxptBo52pic.twitter.com/PaxP4n53C5

- Facebook AI (@facebookai) 14 de outubro de 2021

Da mesma forma, o 'Manipulação de mãos e objetos' benchmark quer que a IA lembre-se de uma sequência correta de eventos, algo que os alunos acharão útil, pois as dicas de RA mostrarão a eles as etapas em um vídeo de treinamento gravado. O quarto ponto de referência é a interação social, enquanto o quinto - e o mais alarmante - é diarização audiovisual. Este envolve salvar um registro de áudio (e possivelmente também baseado em texto) do que uma pessoa na visão da câmera estava dizendo. Os usuários podem fazer perguntas à IA, como o que a pessoa ABC disse durante o intervalo para o café em um determinado dia. O Facebook ainda não detalhou as salvaguardas para os cenários de invasão de privacidade aparentemente massiva para seu projeto. o As histórias de Ray-Ban já foram analisadas por causa de sua capacidade de entrar no modo full creep. E com uma IA tão inteligente quanto Ego4D, haverá muito mais preocupações relacionadas à privacidade.

Do lado positivo, o projeto Ego4D dá um vislumbre muito claro de o que o Facebook quer alcançar com o metaverso, pelo menos quando se trata de ajudar os usuários em seu dia a dia. E a forte aplicação de realidade aumentada para atingir esses objetivos é um sinal de que o Facebook vai all-in com AR e wearables mais avançados estão definitivamente a caminho. Mas a maior questão é se os usuários se sentirão confortáveis ​​com Facebook ter um acesso mais pessoal às suas vidas por meio de vídeos em primeira pessoa, devido ao passado incerto da empresa com escândalos relacionados à privacidade.

Fonte: Facebook

FTC pronta para agir em relação a avaliações falsas, alerta centenas de empresas

Sobre o autor