Facebook trénuje AI v pohledu první osoby. Je to chytré a alarmující

click fraud protection

Facebook oznámila nový výzkumný projekt nazvaný Ego4D, jehož cílem je trénovat modely umělé inteligence pomocí videí zachycených z a lidská perspektiva a poté poskytování vedení pomocí podnětů rozšířené reality přístupem k protokolu minulosti nahrávek. Nejnovější výzkumný projekt tohoto giganta sociálních médií zaměřený na umělou inteligenci staví technologii počítačového vidění do popředí zájmu, kterou již někteří používají. rozsah pro produkty, jako je Google Lens a několik dalších nákupních nástrojů, kde je obrázek studován za účelem získání podobných záznamů z elektronického obchodu platformy.

Společnost nedávno podrobně popsala svou práci na nových Nástroje pro vizuální vyhledávání a zjišťování produktů využívající umělou inteligenci které zlepší zážitek z nakupování na Instagramu. Po cestě vyvolá online seznam položek oblečení pouhým klepnutím na fotografii osoby. Interní systém rozpoznávání produktů je tak pokročilý, že na svých platformách zobrazí relevantní produkty i pro vágní textové dotazy, jako je „najít košili s podobným vzorem puntíků“. Ale všechny tyto systémy rozpoznávání objektů jsou převážně založeny na systému počítačového vidění trénovaného na fotografiích a videích zachycených z pohledu třetí osoby.

Facebook jde ještě o krok dále tím, že v rámci své Ego4D AI mění perspektivu tréninkových dat z postranní čáry přímo do středu dění s pohledem první osoby. projekt. Možnosti se zdají být nekonečně přínosné a také trochu děsivé. Aby Facebook shromáždil školicí data, spojil se s 13 institucemi v devíti zemích, které naverbovaly více než 700 účastníků, aby zaznamenali více více než 2 200 hodin záběrů z pohledu první osoby, které dokumentují každodenní činnosti, jako je nakupování potravin, mytí nádobí a hra na bubny. málo. Cílem je zachytit aktivity a také posoudit scénář z vlastní perspektivy člověka, podobně jako akci, kterou zaznamenal Vlastní sluneční brýle Ray-Ban Stories od Facebooku.

První pohled na Metaverse s AR ve středu

Společnost to nazývá egocentrické vnímání, odtud název Ego4D. Video bylo přepsáno a okomentováno tak, aby popisovalo vše v záběru od objektu po akci, aby se vytvořil datový soubor, který mohou výzkumníci z celého světa použít k vývoji systémů počítačového vidění a katalyzovat novou vlnu vývoje umělé inteligence. Wendy’s nedávno uzavřela partnerství s Google Cloud, aby vytvořila jeden takový systém počítačového vidění, který bude monitorovat kuchyň a upozornit kuchaře, když je čas otočit hamburgery. Projekt Ego4D společnosti Facebook však vnáší do AR rotaci těch schopností AI, které jdou daleko za rámec analýzy a ve skutečnosti vstupují do oblasti předpovídání akcí uživatelů.

Aby toho dosáhl, Facebook vykouzlil sadu pěti měřítek, kterých musí egocentrické vnímání AI dosáhnout. První z nich je epizodická paměť, která funguje stejně jako lidská paměť. Když například uživatelé zapomenou, kam umístili dálkové ovládání televizoru, umělá inteligence zpřístupní minulá videa z pohledu první osoby, aby zkontrolovala, kde jej uživatelé nechali, a poté je navede na místo pomocí podnětů AR. něco jako Apple Maps. Druhým měřítkem je předpovídání, které předpovídá, co se uživatel chystá udělat, a poskytuje potřebnou výstrahu. Pokud tedy uživatel již přidal pepř do svého kari a znovu sáhne po lahvičce s pepřovým práškem, AI rozpozná blížící se akci a okamžitě upozorní uživatele, že přísada již byla přidal.

oznamujeme #Ego4D, ambiciózní dlouhodobý projekt, do kterého jsme se pustili se 13 univerzitami v 9 zemích, abychom zlepšili vnímání z pohledu první osoby. Tato práce bude katalyzátorem výzkumu k vytvoření užitečnějších asistentů AI, robotů a dalších budoucích inovací. https://t.co/oJSxptBo52pic.twitter.com/PaxP4n53C5

— Facebook AI (@facebookai) 14. října 2021

Podobně, "manipulace rukou a předmětů" benchmark chce, aby si umělá inteligence pamatovala správnou sekvenci událostí, což je něco, co studenti považují za užitečné, protože AR narážky jim ukáží kroky v nahraném tréninkovém videu. Čtvrtým měřítkem je sociální interakce, zatímco pátým – a nejvíce alarmujícím – je audiovizuální diaizace. Ten zahrnuje uložení zvukového (a možná i textového) protokolu toho, co říkala osoba v záběru kamery. Uživatelé pak mohou AI klást otázky, jako například co řekl člověk ABC během přestávky na kávu v konkrétní den. Facebook zatím nepopsal bezpečnostní opatření pro zdánlivě masivní scénáře narušení soukromí pro svůj projekt. The Ray-Ban Stories se již dostaly pod drobnohled kvůli jejich schopnosti přejít do režimu plného plížení. A s AI tak chytrou, jako je Ego4D, bude mnohem více starostí s ochranou soukromí.

Pozitivní je, že projekt Ego4D poskytuje velmi jasný pohled čeho chce Facebook metaverzí dosáhnout, alespoň pokud jde o pomoc uživatelům v jejich každodenním životě. A intenzivní používání rozšířené reality k dosažení těchto cílů je známkou toho, že Facebook půjde naplno do AR a pokročilejší nositelná zařízení jsou rozhodně v plánu. Největší otázkou však je, zda s tím budou uživatelé spokojeni Facebook mít osobnější přístup k jejich životům prostřednictvím videí z pohledu první osoby, vzhledem k útržkovité minulosti společnosti se skandály souvisejícími s ochranou soukromí.

Zdroj: Facebook

FTC je připravena zasáhnout kvůli falešným recenzím, varuje 100 společností

O autorovi