Facebook trénuje AI z pohľadu prvej osoby. Je to inteligentné a alarmujúce

click fraud protection

Facebook oznámila nový výskumný projekt s názvom Ego4D, ktorého cieľom je trénovať modely AI pomocou videí zachytených z a ľudskú perspektívu a potom poskytovanie vedenia pomocou podnetov rozšírenej reality prístupom k denníku minulosti nahrávky. Najnovší výskumný projekt giganta sociálnych médií zameraný na AI stavia do popredia technológiu počítačového videnia, ktorú už niektorí používajú. rozsah pre produkty, ako je Google Lens a niekoľko ďalších nákupných nástrojov, kde sa študuje obrázok s cieľom získať podobné záznamy z elektronického obchodu platformy.

Spoločnosť nedávno podrobne opísala svoju prácu na novom Nástroje vizuálneho vyhľadávania a zisťovania produktov poháňané AI ktoré zvýšia zážitok z nakupovania na Instagrame. Po ceste zobrazí online zoznamy odevov jednoduchým klepnutím na fotografiu osoby. Interný systém rozpoznávania produktov je taký pokročilý, že na svojich platformách nájde relevantné produkty aj pri nejasných textových dopytoch, ako napríklad „nájdite tričko s podobným bodkovaným vzorom“. Všetky tieto systémy rozpoznávania objektov sú však prevažne založené na systéme počítačového videnia trénovaného na fotografiách a videách zachytených z pohľadu tretej osoby.

Facebook ide o krok ďalej tým, že v rámci svojej Ego4D AI mení perspektívu tréningových dát z postrannej čiary priamo do stredu akcie s pohľadom prvej osoby. projektu. Možnosti sa zdajú byť nekonečne prospešné a tiež trochu strašidelné. Na zhromažďovanie údajov o školeniach sa Facebook spojil s 13 inštitúciami v deviatich krajinách, ktoré prijali viac ako 700 účastníkov, aby zaznamenali viac. viac ako 2 200 hodín záberov z pohľadu prvej osoby, ktoré dokumentujú každodenné činnosti, ako je nakupovanie potravín, umývanie riadu a hra na bubny. málo. Cieľom je zachytiť aktivity a tiež posúdiť scenár z vlastnej perspektívy osoby, podobne ako akciu, ktorú zaznamenal Vlastné slnečné okuliare Ray-Ban Stories od Facebooku.

Prvý pohľad na Metaverse s AR v strede

Spoločnosť to nazýva egocentrické vnímanie, preto názov Ego4D. Video bolo prepísané a anotované tak, aby opísalo všetko v rámci od objektu po akciu, aby sa vytvoril dátový súbor, ktorý môžu výskumníci na celom svete použiť na vývoj systémov počítačového videnia a podnietiť novú vlnu vývoja AI. Wendy’s nedávno uzavrela partnerstvo so službou Google Cloud, aby vytvorila jeden takýto systém počítačového videnia, ktorý bude monitorovať kuchyňu a upozornite kuchára, keď je čas obrátiť hamburgery. Projekt Ego4D od Facebooku však posúva AR možnosti AI, ktoré ďaleko presahujú rámec analýzy a skutočne vstupujú do oblasti predpovedania akcií používateľov.

Na tento účel Facebook vykúzlil súbor piatich benchmarkov, ktoré musí egocentrické vnímanie AI dosiahnuť. Prvým je epizodická pamäť, ktorá funguje rovnako ako ľudská pamäť. Napríklad, keď používatelia zabudnú, kam umiestnili diaľkové ovládanie televízora, AI získa prístup k predchádzajúcim videám z pohľadu prvej osoby, aby skontroloval, kde ho používatelia nechali, a potom ich navedie na miesto pomocou signálov AR. niečo ako Apple Maps. Druhým benchmarkom je prognóza, ktorá predpovedá, čo sa používateľ chystá urobiť, a poskytuje potrebné upozornenie. Ak teda používateľ už pridal korenie do svojho kari a opäť siahne po fľaške s korením, AI rozpozná blížiacu sa akciu a okamžite upozorní používateľov, že prísada už bola pridané.

oznamujeme #Ego4D, ambiciózny dlhodobý projekt, do ktorého sme sa pustili s 13 univerzitami v 9 krajinách, aby sme zlepšili vnímanie z pohľadu prvej osoby. Táto práca bude katalyzátorom výskumu na vytvorenie užitočnejších asistentov AI, robotov a ďalších budúcich inovácií. https://t.co/oJSxptBo52pic.twitter.com/PaxP4n53C5

— Facebook AI (@facebookai) 14. október 2021

Podobne, „manipulácia rúk a predmetov“ benchmark chce, aby si AI zapamätala správnu postupnosť udalostí, čo bude študentom užitočné, pretože AR narážky im ukážu kroky v nahranom tréningovom videu. Štvrtým meradlom je sociálna interakcia, zatiaľ čo piatym – a nanajvýš alarmujúcim – je audiovizuálna diarizácia. Toto zahŕňa uloženie zvukového (a možno aj textového) záznamu toho, čo hovorila osoba v zábere kamery. Používatelia potom môžu umelej inteligencii položiť otázky, ako napríklad to, čo povedal človek ABC počas prestávky na kávu v konkrétny deň. Facebook zatiaľ nešpecifikoval bezpečnostné opatrenia pre zdanlivo masívne scenáre narušenia súkromia pre svoj projekt. The Ray-Ban Stories sa už dostali pod drobnohľad kvôli ich schopnosti prejsť do režimu plného plazenia. A s AI tak inteligentnou ako Ego4D bude oveľa viac starostí súvisiacich so súkromím.

Pozitívne je, že projekt Ego4D poskytuje veľmi jasný pohľad čo chce Facebook dosiahnuť metaverzou, aspoň pokiaľ ide o pomoc používateľom v ich každodennom živote. A intenzívne používanie rozšírenej reality na dosiahnutie týchto cieľov je znakom toho, že Facebook pôjde naplno do AR a pokročilejšie nositeľné zariadenia sú určite v pláne. Najväčšou otázkou však je, či s tým budú používatelia spokojní Facebook mať osobnejší prístup k svojim životom prostredníctvom videí z pohľadu prvej osoby, vzhľadom na útržkovú minulosť spoločnosti so škandálmi súvisiacimi s ochranou súkromia.

Zdroj: Facebook

FTC je pripravená konať v súvislosti s falošnými recenziami, varuje 100 spoločností

O autorovi