Facebook trenira AI u pogledu iz prvog lica. Pametno je i alarmantno

November 29, 2021
UTehnika Facebook

click fraud protection

Facebook najavio je novi istraživački projekt pod nazivom Ego4D koji ima za cilj trenirati AI modele koristeći videozapise snimljene s ljudska perspektiva, a zatim pružanje smjernica korištenjem znakova proširene stvarnosti pristupom dnevniku prošlosti snimke. Najnoviji istraživački projekt giganta društvenih medija usmjeren na umjetnu inteligenciju stavlja tehnologiju računalnog vida u prvi plan iu središte, koja je nekima već u upotrebi opseg za proizvode kao što je Google Lens i pregršt drugih alata za kupovinu gdje se slika proučava kako bi se slični oglasi izvukli iz e-trgovine platforme.

Tvrtka je nedavno detaljno opisala svoj rad na novom Alati za vizualno pretraživanje i otkrivanje proizvoda s AI-om to će poboljšati iskustvo kupovine na Instagramu. Usput će izvući online popise odjevnih predmeta jednostavnim dodirom fotografije osobe. In-house sustav za prepoznavanje proizvoda toliko je napredan da će izvući relevantne proizvode čak i za nejasne upite temeljene na tekstu kao što je "pronađi košulju sa sličnim točkastim uzorkom" na svojim platformama. Ali svi ti sustavi za prepoznavanje objekata uglavnom se temelje na sustavu računalnog vida koji je obučen na fotografijama i video zapisima snimljenim iz perspektive treće osobe.

Facebook ide korak dalje mijenjajući perspektivu podataka o treningu sa strane na ravno u sredinu radnje s perspektivom iz prvog lica kao dijelom svog Ego4D AI projekt. Čini se da su mogućnosti beskrajno korisne, a također i pomalo zastrašujuće. Kako bi prikupio podatke o obuci, Facebook se udružio s 13 institucija u devet zemalja koje su regrutirale preko 700 sudionika kako bi snimili više više od 2200 sati snimaka iz prvog lica koji dokumentiraju svakodnevne aktivnosti kao što su kupovina namirnica, pranje posuđa i sviranje bubnjeva. nekoliko. Cilj je uhvatiti aktivnosti i također procijeniti scenarij iz vlastite perspektive, slično kao radnja koju je snimio Facebookove vlastite sunčane naočale Ray-Ban Stories.

Prvi uvid u metaverzum s AR-om u središtu

Tvrtka to naziva egocentričnom percepcijom, pa otuda i naziv Ego4D. Videozapis je transkribiran i označen kako bi se opisao sve u kadru, od objekta do radnje, kako bi se stvorio skup podataka koji istraživači diljem svijeta mogu koristiti za razvoj sustava računalnog vida i kataliziranje novog vala razvoja umjetne inteligencije. Wendy se nedavno udružila s Google Cloudom kako bi stvorila jedan takav sustav računalnog vida koji će nadzirati kuhinju i upozori kuhara kad je vrijeme za okretanje hamburgera. Međutim, Facebookov Ego4D projekt stavlja AR zaokret na one mogućnosti umjetne inteligencije koje nadilaze analizu i zapravo zakoračuju u područje predviđanja radnji korisnika.

Da bi to učinio, Facebook je osmislio skup od pet mjerila koje AI mora postići egocentričnom percepcijom. Prva je epizodna memorija, koja funkcionira na isti način kao i ljudska memorija. Na primjer, kada korisnici zaborave gdje su stavili daljinski upravljač za TV, AI će pristupiti prošlim videozapisima iz prvog lica kako bi provjerio gdje su ga korisnici ostavili, a zatim će ih voditi prema mjestu pomoću AR znakova nešto kao Apple Maps. Drugo mjerilo je predviđanje, koje predviđa što će korisnik učiniti i daje potrebno upozorenje. Dakle, ako je korisnik već dodao papar u svoj curry i ponovno posegne za bocom paprike u prahu, AI će prepoznati nadolazeću akciju i odmah će upozoriti korisnike da je sastojak već bio dodano.

objavljujemo #Ego4D, ambiciozni dugoročni projekt koji smo započeli s 13 sveučilišta u 9 zemalja kako bismo unaprijedili percepciju iz prvog lica. Ovaj rad će katalizirati istraživanje za izgradnju korisnijih AI pomoćnika, robota i drugih budućih inovacija. https://t.co/oJSxptBo52pic.twitter.com/PaxP4n53C5
— Facebook AI (@facebookai) 14. listopada 2021

Slično, 'manipulacija rukama i predmetom' Benchmark želi da AI zapamti ispravan slijed događaja, nešto što će učenicima biti od pomoći jer će im AR znakovi pokazati korake u snimljenom videozapisu treninga. Četvrto mjerilo je društvena interakcija, dok je peto — i najalarmantnije — jest audiovizualna dijarizacija. Ovaj uključuje spremanje audio zapisa (i možda i tekstualnog) zapisnika onoga što je osoba u pogledu kamere govorila. Korisnici tada mogu postavljati pitanja umjetnoj inteligenciji kao što je što je osoba ABC rekla tijekom pauze za kavu određenog dana. Facebook još nije detaljno opisao mjere zaštite za naizgled masivne scenarije upada u privatnost za svoj projekt. The Ray-Ban Priče su već bile pod lupom zbog njihove sposobnosti potpunog puzanja. A s AI pametnim kao što je Ego4D, bit će puno više briga u vezi s privatnošću.

S pozitivne strane, projekt Ego4D daje vrlo jasan uvid u to što Facebook želi postići metaverzom, barem kada je riječ o pomoći korisnicima u svakodnevnom životu. A teška primjena proširene stvarnosti za postizanje tih ciljeva znak je da će Facebook krenuti all-in na AR i da su napredniji nosivi uređaji definitivno u pripremi. Ali najveće je pitanje hoće li se korisnici osjećati ugodno Facebook imaju osobniji pristup njihovim životima putem videa u prvom licu, s obzirom na skandale vezane za privatnost tvrtke.

Izvor: Facebook

FTC je spreman poduzeti mjere u vezi s lažnim recenzijama, upozorava 100 tvrtki

O autoru