Facebook træner kunstig intelligens i førstepersonsvisning. Det er smart og alarmerende

November 29, 2021
ITeknologi Facebook

click fraud protection

Facebook har annonceret et nyt forskningsprojekt kaldet Ego4D, der har til formål at træne AI-modeller ved hjælp af videoer optaget fra en menneskeligt perspektiv og derefter give vejledning ved hjælp af augmented reality-signaler ved at få adgang til fortidens log optagelser. Den sociale mediegigants seneste AI-centrerede forskningsprojekt sætter computervisionsteknologi i centrum, som allerede er i brug for nogle omfang for produkter som Google Lens og en håndfuld andre shoppingværktøjer, hvor et billede studeres for at trække lignende annoncer fra e-handel platforme.

Virksomheden har for nylig detaljeret sit arbejde med nye AI-drevne visuelle søge- og produktopdagelsesværktøjer der vil booste shoppingoplevelsen på Instagram. Nede ad vejen vil den hente online-lister over tøjgenstande ved blot at trykke på en persons billede. Det interne produktgenkendelsessystem er så avanceret, at det vil trække relevante produkter frem selv for vage tekstbaserede forespørgsler såsom "find en skjorte med lignende prikkede mønster" på sine platforme. Men alle disse objektgenkendelsessystemer er overvejende baseret på et computersynssystem trænet på fotos og videoer taget fra et tredjepersons perspektiv.

Facebook går et skridt videre ved at ændre perspektivet for træningsdata fra sidelinjen til lige ind i midten af handlingen med et førstepersonsperspektiv som en del af sin Ego4D AI projekt. Mulighederne ser ud til at være uendelige gavnlige og også lidt skræmmende. For at indsamle træningsdata samarbejdede Facebook med 13 institutioner i ni lande, der rekrutterede over 700 deltagere til at optage flere end 2.200 timers førstepersons-optagelser, der dokumenterer daglige aktiviteter såsom indkøb af dagligvarer, vaskeredskaber og trommer for at nævne en få. Målet er at fange aktiviteterne og også vurdere scenariet fra en persons eget perspektiv, ligesom handlingen registreret af Facebooks egne Ray-Ban Stories-solbriller.

Det første glimt af Metaverse med AR i centrum

Virksomheden kalder det egocentrisk opfattelse, deraf navnet Ego4D. Videoen blev transskriberet og kommenteret for at beskrive alt i rammen fra et objekt til handlingen for at skabe en datasæt, som forskere over hele verden kan bruge til at udvikle computervisionssystemer og katalysere en ny bølge af AI-udvikling. Wendy's samarbejdede for nylig med Google Cloud for at skabe et sådant computervisionssystem, der vil overvåge køkkenet og advare kokken, når det er tid til at vende burgere. Facebooks Ego4D-projekt sætter imidlertid et AR-spin på de AI-kapaciteter, der går langt ud over analyse og faktisk træder ind i området med at forudsige brugernes handlinger.

For at gøre det har Facebook fremtryllet et sæt af fem benchmarks, som en egocentrisk opfattelse AI skal opnå. Den første er episodisk hukommelse, som fungerer på samme måde som menneskelig hukommelse. For eksempel, når brugere glemmer, hvor de placerede fjernbetjeningen til fjernsynet, vil AI få adgang til tidligere førstepersonsvideoer for at kontrollere, hvor brugerne har forladt den, og vil derefter guide dem mod stedet ved hjælp af AR-signaler lidt ligesom Apple Maps. Det andet benchmark er forecasting, som forudsiger, hvad brugeren er ved at gøre, og giver den nødvendige advarsel. Så hvis en bruger allerede har tilføjet peber til deres karry og igen rækker ud efter peberpulverflasken, AI vil genkende den forestående handling og vil øjeblikkeligt advare brugerne om, at ingrediensen allerede har været tilføjet.

Vi annoncerer #Ego4D, et ambitiøst langsigtet projekt, vi har påbegyndt med 13 universiteter i 9 lande for at fremme førstepersonsopfattelsen. Dette arbejde vil katalysere forskning for at bygge flere nyttige AI-assistenter, robotter og andre fremtidige innovationer. https://t.co/oJSxptBo52pic.twitter.com/PaxP4n53C5
— Facebook AI (@facebookai) 14. oktober 2021

Tilsvarende 'hånd- og objektmanipulation' benchmark vil have AI til at huske en korrekt rækkefølge af hændelser, noget som eleverne vil finde nyttigt, da AR-signaler vil vise dem trinene i en optaget træningsvideo. Det fjerde benchmark er social interaktion, mens det femte - og mest alarmerende - er det audiovisuel diarisering. Denne indebærer at gemme en lyd (og muligvis også tekstbaseret) log over, hvad en person i kameraets udsigt sagde. Brugere kan derefter stille AI-spørgsmålene, såsom hvilken person ABC sagde under deres kaffepause på en bestemt dag. Facebook har endnu ikke beskrevet sikkerhedsforanstaltningerne for de tilsyneladende massive scenarier for indtrængen af privatlivets fred for sit projekt. Det Ray-Ban Stories er allerede blevet undersøgt på grund af deres evne til at gå i fuld krybningstilstand. Og med en AI så smart som Ego4D, vil der være mange flere privatlivsrelaterede bekymringer.

På den positive side giver Ego4D-projektet et meget klart glimt af hvad Facebook ønsker at opnå med metaverset, i hvert fald når det kommer til at hjælpe brugere i deres daglige liv. Og den tunge anvendelse af augmented reality for at nå disse mål er et tegn på, at Facebook vil gå all-in på AR, og mere avancerede wearables er bestemt i pipelinen. Men det største spørgsmål er, om brugerne vil være fortrolige med Facebook have mere personlig adgang til deres liv via førstepersonsvideoer, givet virksomhedens sketchy fortid med privatlivsrelaterede skandaler.

Kilde: Facebook

FTC er klar til at handle over falske anmeldelser, advarer 100-vis af virksomheder

Om forfatteren