Facebook chce, aby stroje viděly svět našimi očima

MIT Technology Review | Envato





Že stroje dokážou rozpoznat, co vidí na fotkách a videích, považujeme za samozřejmé. Ta schopnost spočívá na velké soubory dat, jako je ImageNet , ručně spravovaná sbírka milionů fotografií používaných k výcviku většiny nejlepších modelů rozpoznávání obrazu za poslední desetiletí.

Obrázky v těchto souborech dat však zobrazují svět upravených objektů – obrazovou galerii, která nezachycuje nepořádek každodenního života, jak jej lidé prožívají. Přimět stroje, aby viděly věci jako my, bude mít zcela nový přístup. A laboratoř umělé inteligence Facebooku se chce ujmout vedení.

Je to nastartování projektu, tzv Ego4D , vytvářet AI, které dokážou porozumět scénám a činnostem z pohledu první osoby – jak věci vypadají zúčastněným lidem, spíše než přihlížejícím. Představte si pohybově rozmazané záběry GoPro pořízené v centru akce, namísto dobře zarámovaných scén pořízených někým na vedlejší koleji. Facebook chce, aby Ego4D udělal pro video z první osoby to, co ImageNet udělal pro fotografie.



Proč Facebook používá Ray-Ban k uplatnění nároku na naše tváře

K vybudování metaverze potřebuje Facebook, abychom si zvykli na chytré brýle.

V posledních dvou letech společnost Facebook AI Research (FAIR) spolupracovala s 13 univerzitami po celém světě na sestavení dosud největší datové sady videí z pohledu první osoby – konkrétně pro trénování hloubkových modelů rozpoznávání obrazu. Umělá inteligence vycvičená na datovém souboru bude lepší v ovládání robotů, kteří komunikují s lidmi, nebo při interpretaci obrázků z chytrých brýlí. Stroje nám budou moci pomáhat v našem každodenním životě, pouze pokud budou světu skutečně rozumět našimi očima, říká Kristen Grauman z FAIR, která projekt vede.

Taková technologie by mohla podporovat lidi, kteří potřebují pomoc v domácnosti, nebo vést lidi k úkolům, které se učí dokončit. Video v tomto souboru dat je mnohem bližší tomu, jak lidé pozorují svět, říká Michael Ryoo, výzkumník počítačového vidění z Google Brain a Stony Brook University v New Yorku, který se nepodílí na Ego4D.



Ale potenciální zneužití jsou jasná a znepokojující. Výzkum financuje Facebook, gigant sociálních sítí, z něhož byl nedávno obviněn americký Senát dávat zisky nad blahobyt lidí —jak potvrdila MIT Technology Review vlastní vyšetřování .

Obchodním modelem Facebooku a dalších společností Big Tech je vymačkat co nejvíce dat z chování lidí na internetu a prodat je inzerentům. Umělá inteligence nastíněná v projektu by mohla rozšířit tento dosah na každodenní offline chování lidí, odhalit, jaké předměty jsou kolem vašeho domova, jaké aktivity jste si užili, s kým jste trávili čas a dokonce i to, kde se váš pohled zdržel – bezprecedentní množství osobních informací.

Je třeba zapracovat na ochraně soukromí, když to přenesete ze světa průzkumného výzkumu do něčeho, co je produktem, říká Grauman. Tato práce by mohla být dokonce inspirována tímto projektem.



FACEBOOK

Největší předchozí soubor dat videa z pohledu první osoby sestává ze 100 hodin záběrů lidí v kuchyni. Datový soubor Ego4D se skládá z 3 025 hodin videa zaznamenaného 855 lidmi na 73 různých místech v devíti zemích (USA, Velká Británie, Indie, Japonsko, Itálie, Singapur, Saúdská Arábie, Kolumbie a Rwanda).

Účastníci byli různého věku a původu; někteří byli rekrutováni pro své vizuálně zajímavé povolání, jako byli pekaři, mechanici, tesaři a krajináři.

Předchozí soubory dat se obvykle skládaly z napůl napsaných videoklipů o délce pouhých několika sekund. V případě Ego4D měli účastníci na hlavě nasazené kamery až 10 hodin v kuse a zachycovali video z první osoby s nespisovnými denními aktivitami, včetně chůze po ulici, čtení, praní prádla, nakupování, hraní s domácími mazlíčky, hraní deskových her a interakci s ostatními lidmi. Některé záběry zahrnují také zvuk, údaje o tom, kam se zaměřil pohled účastníků, a různé pohledy na stejnou scénu. Je to první soubor dat svého druhu, říká Ryoo.



FAIR také zahájil řadu výzev, o kterých doufá, že zaměří úsilí ostatních výzkumníků na vývoj tohoto druhu AI. Tým předpokládá algoritmy zabudované do chytrých brýlí, jako je např Facebook nedávno oznámil Ray-Bans , které zaznamenávají a zaznamenávají každodenní životy nositelů. Znamená to, že aplikace metaverse s rozšířenou nebo virtuální realitou by teoreticky mohly odpovídat na otázky jako Kde jsou moje klíče od auta? aneb Co jsem jedl a vedle koho jsem seděl při svém prvním letu do Francie? Asistenti rozšířené reality by mohli pochopit, co se snažíte udělat, a nabídnout pokyny nebo užitečné sociální podněty.

Je to sci-fi, ale blíž, než si myslíte, říká Grauman. Velké datové soubory urychlují výzkum. ImageNet dosáhla v krátké době velkého pokroku, říká. To samé můžeme očekávat u Ego4D, ovšem pro pohledy na svět z první osoby namísto internetových obrázků.

Jakmile byly záběry shromážděny, pracovníci crowdsourcingu ve Rwandě strávili celkem 250 000 hodin sledováním tisíců videoklipů a psaním milionů vět, které popisují natočené scény a činnosti. Tyto anotace budou použity k trénování AI, aby pochopily, co sledují.

Soubory dat s chybami narušují náš pocit, jak dobrá AI skutečně je

Naše chápání pokroku ve strojovém učení bylo podbarveno chybnými testovacími daty.

Kde tato technologie skončí a jak rychle se vyvine, se teprve uvidí. FAIR plánuje soutěž na základě svých výzev v červnu 2022. Je také důležité poznamenat, že FAIR, výzkumná laboratoř, není totéž jako Facebook, mediální megalodon. Ve skutečnosti to říkají zasvěcení Facebook ignoroval technické opravy, se kterými přišel FAIR pro své toxické algoritmy . Facebook ale výzkum platí a je nefér předstírat, že společnost nemá o jeho aplikaci velký zájem.

Sam Gregory z Witness, organizace pro lidská práva, která se specializuje na video technologie, říká, že tato technologie by mohla být užitečná pro kolemjdoucí dokumentující protesty nebo zneužívání policie. Ale myslí si, že tyto výhody jsou převáženy obavami z komerčních aplikací. Poznamenává, že je možné identifikovat jednotlivce podle toho, jak drží videokameru. Údaje z pohledu by byly ještě více odhalující: Je to velmi silný ukazatel zájmu, říká. Jak budou data pohledu uložena? Komu bude přístupný? Jak může být zpracován a použit?

Reputace a hlavní obchodní model Facebooku jsou hodně alarmující, říká Rory Mir z Electronic Frontier Foundation. V tuto chvíli si mnozí uvědomují špatné výsledky Facebooku v oblasti ochrany osobních údajů a jejich používání sledování k ovlivnění uživatelů – jak k udržení uživatelů závislých, tak k prodeji tohoto vlivu svým platícím zákazníkům, inzerentům. Pokud jde o rozšířenou a virtuální realitu, Facebook hledá konkurenční výhodu, říká Mir: Rozšíření množství a typů dat, která shromažďuje, je zásadní.

Když byl Facebook dotázán na své plány, byl nepřekvapivě málomluvný: Ego4D je čistě výzkum, který má podporovat pokroky v širší vědecké komunitě, říká mluvčí. O aplikacích produktů nebo komerčním využití dnes nemáme co sdílet.

skrýt