Facebook trener kunstig intelligens i førstepersonsvisning. Det er smart og alarmerende

click fraud protection

Facebook har annonsert et nytt forskningsprosjekt kalt Ego4D som tar sikte på å trene AI-modeller ved å bruke videoer tatt fra en menneskelig perspektiv og deretter gi veiledning ved å bruke augmented reality-signaler ved å få tilgang til fortidens logg opptak. Den sosiale mediegigantens siste AI-sentriske forskningsprosjekt setter datasynsteknologi i sentrum, som allerede er i bruk for noen omfang for produkter som Google Lens og en håndfull andre shoppingverktøy der et bilde studeres for å trekke lignende oppføringer fra e-handel plattformer.

Selskapet har nylig detaljert sitt arbeid med nye AI-drevne verktøy for visuelt søk og produktoppdagelse som vil øke handleopplevelsen på Instagram. Nedover veien vil den hente opp nettlister over klesgjenstander ved å trykke på en persons bilde. Det interne produktgjenkjenningssystemet er så avansert at det vil trekke frem relevante produkter selv for vage tekstbaserte spørsmål som "finn en skjorte med lignende prikkemønster" på plattformene. Men alle disse objektgjenkjenningssystemene er hovedsakelig basert på et datasynssystem trent på bilder og videoer tatt fra et tredjepersonsperspektiv.

Facebook går et skritt videre ved å endre perspektivet til treningsdata fra sidelinjen til rett inn i midten av handlingen med et førstepersonsperspektiv som en del av sin Ego4D AI prosjekt. Mulighetene ser ut til å være uendelige fordelaktige, og litt skumle også. For å samle treningsdataene samarbeidet Facebook med 13 institusjoner i ni land som rekrutterte over 700 deltakere for å registrere flere enn 2200 timer med førstepersonsopptak som dokumenterer daglige aktiviteter som matinnkjøp, vaskeutstyr og trommer for å nevne en få. Målet er å fange opp aktivitetene og også vurdere scenariet fra en persons eget perspektiv, omtrent som handlingen registrert av Facebooks egne Ray-Ban Stories-solbriller.

Det første glimtet av Metaverse med AR i sentrum

Selskapet kaller det egosentrisk persepsjon, derav navnet Ego4D. Videoen ble transkribert og kommentert for å beskrive alt i rammen fra et objekt til handlingen, for å lage en datasett som forskere over hele verden kan bruke til å utvikle datasynssystemer og katalysere en ny bølge av AI-utvikling. Wendy's har nylig samarbeidet med Google Cloud for å lage et slikt datasynssystem som vil overvåke kjøkkenet og varsle kokken når det er på tide å snu burgere. Imidlertid setter Facebooks Ego4D-prosjekt et AR-spinn på de AI-egenskapene som går langt utover analyse og faktisk går inn i riket med å forutsi brukernes handlinger.

For å gjøre det har Facebook fremmanet et sett med fem referanser som en egosentrisk oppfatning AI må oppnå. Den første er episodisk hukommelse, som fungerer på samme måte som menneskelig hukommelse. For eksempel, når brukere glemmer hvor de plasserte TV-fjernkontrollen, vil AI få tilgang til tidligere førstepersonsvideoer for å sjekke hvor brukerne forlot den, og vil deretter lede dem mot stedet ved hjelp av AR-signaler litt som Apple Maps. Den andre referansen er prognose, som forutsier hva brukeren er i ferd med å gjøre og gir nødvendig varsling. Så hvis en bruker allerede har tilsatt pepper til karrien sin, og igjen strekker seg etter pepperpulverflasken, AI vil gjenkjenne den forestående handlingen og vil umiddelbart varsle brukere om at ingrediensen allerede har vært la til.

Vi kunngjør #Ego4D, et ambisiøst langsiktig prosjekt vi har startet med 13 universiteter i 9 land for å fremme førstepersons oppfatning. Dette arbeidet vil katalysere forskning for å bygge flere nyttige AI-assistenter, roboter og andre fremtidige innovasjoner. https://t.co/oJSxptBo52pic.twitter.com/PaxP4n53C5

— Facebook AI (@facebookai) 14. oktober 2021

På samme måte «hånd- og gjenstandsmanipulasjon» benchmark vil at AI skal huske en riktig hendelsesforløp, noe som elevene vil finne nyttig ettersom AR-signaler vil vise dem trinnene i en innspilt treningsvideo. Den fjerde målestokken er sosial interaksjon, mens den femte – og mest alarmerende – er det audiovisuell diarisering. Denne innebærer å lagre en lyd (og muligens også tekstbasert) logg over hva en person i kameraets syn sa. Brukere kan deretter stille AI-spørsmål som hva personen ABC sa under kaffepausen på en bestemt dag. Facebook har ikke detaljert sikkerhetstiltakene til de tilsynelatende massive scenariene for personverninnbrudd for prosjektet sitt ennå. De Ray-Ban Stories har allerede blitt undersøkt på grunn av deres evne til å gå i full krypmodus. Og med en AI så smart som Ego4D, vil det være mye mer personvernrelaterte bekymringer.

På den positive siden gir Ego4D-prosjektet et veldig tydelig glimt av hva Facebook ønsker å oppnå med metaverset, i hvert fall når det gjelder å hjelpe brukere i deres daglige liv. Og den tunge bruken av utvidet virkelighet for å oppnå disse målene er et tegn på at Facebook vil gå all-in på AR og mer avanserte wearables er definitivt i pipelinen. Men det største spørsmålet er om brukerne vil være komfortable med Facebook å ha mer personlig tilgang til livene deres via førstepersonsvideoer, gitt selskapets sketchy fortid med personvernrelaterte skandaler.

Kilde: Facebook

FTC er klar til å ta grep over falske anmeldelser, advarer hundrevis av selskaper

Om forfatteren