Reverzní inženýrství mozku

Maggie je a velmi chytrá opice, říká Tim Buschman, postgraduální student v neurovědecké laboratoři profesora Earla Millera. Maggie není vidět – je v biologickém bezpečnostním krytu, který ji má chránit před lidskými zárodky – ale známky její inteligence proudí přes dva monitory před Buschmanem. Posledních sedm let pracovala Maggie pro oddělení mozkových a kognitivních věd (BCS) MIT. Tři hodiny denně hraje makak počítačové hry, které jsou (obvykle) navrženy tak, aby vyžadovaly, aby generoval abstraktní reprezentace a pak tyto abstrakce použil jako nástroje. Dokonce i já mám s tím problém, říká Buschman a přikyvuje na hru, která zahrnuje klasifikaci logických operací. Ale Maggie je ve hře, plácá se přes problémy, trvá asi půl sekundy na každý a má asi čtyři z pěti správně.





Ilustrace David Plunkert

Hra Maggie leží na průsečíku umělé inteligence (AI) a neurovědy. Pod vedením Buschmana a Michelle Machon, další postgraduální studentky, přispívá k výzkumu toho, jak se mozek učí a konstruuje logická pravidla a jak je jeho plnění těchto úkolů srovnatelné s výkonem umělých neuronových sítí používaných v AI.

Před čtyřiceti lety byla myšlenka, že by se neurověda a umělá inteligence mohly sblížit v laboratořích, jako je Millerova, téměř nemyslitelná. Tehdy tyto dvě disciplíny fungovaly na délku paže. Zatímco se neurověda soustředila na odhalování a popis detailů neuroanatomie a nervové aktivity, AI se snažila vyvinout nezávislou, nebiologickou cestu k inteligenci. (Historicky technologie opravdu nepotřebovala tak otrocky kopírovat přírodu; letadla nelétají jako ptáci a auta nejezdí jako koně.) A zdálo se, že právě AI postupuje mnohem rychleji. Neurověda nevěděla téměř nic o tom, co je mozek, natož o tom, jak funguje, zatímco každý, kdo měl špetku rozumu, věřil, že den, kdy počítače budou moci dělat vše, co lidé dělají (a dělat to lépe), je na dohled. V roce 1962 byl o tom přesvědčen sám prezident Kennedy, který prohlásil automatizaci (nebo, jak se tehdy často říkalo, kybernaci) za hlavní domácí výzvu 60. let, protože hrozilo, že vyřadí lidi z práce.



Expres AI ale něco vykolejilo. Přestože počítače mohly být vyrobeny tak, aby zvládaly jednoduché objekty v kontrolovaném prostředí, naprosto selhaly při rozpoznávání složitých objektů v přirozeném světě. Mikrofon dokázal rozlišit úrovně zvuku, ale neshrnul to, co bylo řečeno; manipulátor mohl zvednout čistý nový předmět ležící v uspořádaném poli, ale ne špinavý starý ležící na neuspořádané hromadě. (V inspirovaném příkladu Marvina Minského by také nemohlo vložit polštář do povlaku na polštář.) Dnes se mnohem více obáváme konkurence lidí v zámoří než konkurence strojů.

Zatímco pokrok AI byl pomalejší, než se očekávalo, neurověda se stala mnohem sofistikovanější v chápání toho, jak mozek funguje. Nikde to není zjevnější než ve 37 laboratořích BCS Complex MIT. Skupiny zde mapují nervové dráhy většiny vyšších kognitivních funkcí (a jejich poruch), včetně učení, paměti, organizace komplexního sekvenčního chování, utváření a ukládání návyků, mentálních představ, řízení a kontroly čísel, definice cílů a plánování, zpracování pojmů a přesvědčení a schopnost porozumět tomu, co si ostatní myslí. Potenciální dopad tohoto výzkumu může být obrovský. Objevte, jak funguje mozek – přesně tak jak to funguje, jak víme, jak funguje motor – by přepsal téměř každý text v knihovně. Jen pro začátek by to znamenalo revoluci v trestním soudnictví, vzdělávání, marketingu, rodičovství a léčbě mentálních dysfunkcí všeho druhu. (Earl Miller doufá, že výzkum provedený v jeho laboratoři pomůže při vývoji terapií poruch učení.)

Takový pokrok je jedním z důvodů, proč se kdysi jasná hranice mezi neurovědou a umělou inteligencí začíná na MIT rozmazávat – a to nejen v Millerově laboratoři. Výzkum vize, který v ústavu probíhá, také ukazuje, jak tyto dvě disciplíny začínají spolupracovat. Tyto obory vyrostly odděleně, říká James DiCarlo, odborný asistent neurovědy, ale už dlouho oddělené nebudou. V současnosti výzkumníci AI s velkým zájmem sledují pokrok v neurovědě a myšlenku obrácení
inženýrství mozku už není tak nepravděpodobné, jak se kdysi zdálo.



Porozumění rozpoznávání objektů

Velká část práce v DiCarlově laboratoři se týká rozpoznávání objektů, což nám umožňuje identifikovat předmět (například krávu) v mnoha různých prezentacích (krávy daleko, krávy při pohledu shora, krávy za úsvitu, kráva v náklaďáku) aniž bychom si jej spletli s podobnými předměty (jako je řekněme kůň). DiCarlo a postgraduální student David Cox zveřejnili výzkum loni v srpnu Příroda Neuroscience která se soustředila na jednu ze základních otázek o rozpoznávání objektů: do jaké míry náš úspěch v rozpoznávání objektů závisí na pevně zapojených, vrozených obvodech a jak moc na naučených dovednostech?

DiCarlo a Cox provedli každý ze svých experimentů na tuctu lidí, po jedné osobě. Subjekty seděly před zařízením, které mohlo zobrazovat obrázky objektů a sledovat směr pohledu subjektů. Objekty byly vytvořeny počítačem a vypadaly nejasně jako antropomorfizovaná zvířata, ale byly navrženy tak, aby je subjekty neznaly. Objekt by se objevil v jedné ze tří pozic na obrazovce a subjekt by k němu přirozeně přesunul svůj pohled. U určitých objektů by však výzkumníci nahradili nové objekty, zatímco subjekty pohybovaly očima. Řekněme například, že předmět, který vypadal jako přikrčený, s živýma ušima, byl představen napravo na obrazovce, zatímco se objekt zaměřoval na střed. Když se pohled subjektu posunul směrem k podřepnému a energickému, výzkumníci nahradili objekt objektem, který vypadal o něco tenčí, s povislejšíma ušima. Vzhledem k tomu, že lidé jsou během posunů pohledu skutečně slepí, subjekty si výměny nevšimly. Ale jejich mozky ano.



Po hodině nebo dvou vystavení různým objektům, z nichž některé byly důsledně vyměněny, když se objevily v určitých pozicích, byly subjektům předloženy dvojice objektů v různých pozicích na obrazovce a byly požádány, aby je porovnaly. Dalo by se očekávat, že subjekty bez větších potíží předměty rozliší. A tak to udělali, kromě případů, kdy byly objekty vyměněny – a nyní se znovu objevovaly na stejných pozicích, kde k výměnám došlo. Subjekty měly tendenci tyto předměty zaměňovat: to znamená, že s větší pravděpodobností soudili, že squat a energický v jedné poloze a tenký a svěšený v jiné jsou jedním a tím samým předmětem. DiCarlo si myslí, že takové chyby ukazují, že mechanismy mozku pro rozpoznání stejného předmětu na různých místech závisí na normální vizuální zkušenosti napříč prostorem a časem. Zjištění naznačuje, že i základní vlastnosti rozpoznávání objektů lze rozvíjet prostřednictvím vizuální zkušenosti s naším světem, říká. DiCarlo a jeho tým provádějí podobné experimenty na zvířatech, aby prozkoumali vzorce neuronální aktivity, které jsou základem rozpoznávání objektů. (Dobrý příklad tohoto výzkumu byl publikován ve vydání ze 4. listopadu 2005 Věda časopis. DiCarlo a tři spolupracovníci zaznamenali a analyzovali aktivitu stovek neuronů v mozcích makaků. Podařilo se jim prokázat, že vysoce spolehlivé informace o identitě a kategorii objektu byly obsaženy dokonce v hrstce neuronů.)

Rozpoznávání objektů bylo jedním z hlavních cílů a zároveň velkým zklamáním tradiční umělé inteligence. Zatímco strojové vidění je skutečným průmyslem, jeho úspěchy byly v úzce definovaných aplikacích za přísně kontrolovaných podmínek, jako je dekódování poznávacích značek, identifikace otisků prstů, rozpoznávání tištěných znaků a kontrola produktů (například identifikace spálených bramborových lupínků, aby je bylo možné sfouknout z montážní linky). Každý systém strojového vidění vidí pouze určitý druh objektu; například stroj, který čte SPZ, by nebyl schopen identifikovat otisky prstů a naopak. Přestože dnešní technologie může být dost dobrá na to, aby nám poskytla stroje, které rozpoznají cokoli, většina pracovních míst ve většině průmyslových odvětví – montáž, údržba, zdravotní péče, doprava, zabezpečení – vyžaduje více všestrannosti. Pracovníci musí být schopni rozeznat kladivo, šroubovák a klíč, a to navzdory rozdílům v osvětlení, orientaci předmětů a okolnímu nepořádku. Neschopnost postavit stroje, které to dokážou, je obzvláště frustrující vzhledem k tomu, že ptáci jako vrány a malí savci jako krysy běžně vykazují úroveň dovedností v obecném povědomí, která je daleko za hranicemi současné technologie. Je něco na tom, že nemůžeme vyrábět stroje tak chytré jako my, co utěšuje naši ješitnost; ale neschopnost udělat z něj chytrého jako holuba je prostě trapné.

Výzkumníci umělé inteligence tedy léta pracovali na problému spojování vizuálních vzorců s významy nebo identitami. Toto je jedna z oblastí, kde se umělá inteligence a neurověda vzájemně přibližují: neurověda pracuje na úloze mozku při rozpoznávání objektů, umělá inteligence na obecné logice toho, co by každý systém musel udělat, aby vyřešil stejný problém. Po desetiletích jsou téměř na dosah. DiCarlo uvažuje, zda by nebylo načase pokřtít novou disciplínu, která čerpá z obou oblastí, jako je biologicky inspirované strojové vidění.



Žádná univerzita se k této křižovatce neblíží rychleji než MIT, kde je spolupráce inženýrství a vědy institucionálním posláním. A to, říká DiCarlo, je jedním z důvodů, proč přišel na MIT: očekává, že revoluce nastane zde.

Okamžité rozpoznání modelování

Nápadnou ilustraci DiCarlova názoru lze nalézt v laboratořích Tomase Poggia. Poggio, spoluředitel Centra pro biologické a výpočetní učení MIT, pracuje na vizi již čtyři desetiletí, nejprve v Institutu Maxe Plancka v Tübingenu v Německu, poté v laboratoři umělé inteligence MIT (která se stala laboratoří Computer Science and Artificial Intelligence Lab) a nyní na katedře mozkových a kognitivních věd. (Poggio spolupracoval s DiCarlo na experimentech s makaky popsanými v Věda .) Většinu této doby řídil Poggio jednu výzkumnou skupinu v neurovědě a jednu v oblasti strojového vidění a neviděl žádný důvod, proč je spojovat. Věděli jsme toho tak málo, říká. Vždy jsem si myslel, že je chyba očekávat od neurovědy mnoho. Ale nedávné výsledky projektu, který provedli postdoktorand Thomas Serre a Aude Oliva, odborná asistentka kognitivní neurovědy v BCS, z něj udělaly konvertitu.

Poggioova laboratoř se v současné době zaměřuje na typ rozpoznávání objektů nazývaný okamžité rozpoznání. Tento jev byl poprvé popsán v roce 1969 v článku lektorky MIT Mary Potter (nyní profesorka psychologie na BCS) a její výzkumné asistentky Ellen Levy. Okamžité rozpoznání je nejrychlejší známá forma rozpoznání. Subjekt v klasickém experimentu s okamžitým rozpoznáním se posadí před displej a požádá o stisknutí jedné ze dvou kláves v reakci na každý snímek v sérii, v závislosti na tom, zda obsahuje zvíře nebo ne. Aby se zajistilo, že pohled na jeden obrázek náhodně nepomůže subjektům naučit se, jak se dívat na ostatní, vybírají výzkumníci obrázky, které se velmi liší: mnoho druhů v mnoha různých pozicích a perspektivách, zasazených do široké škály pozadí. Fotografie přicházejí a odcházejí během několika desetin sekundy. Na začátku studie nemusí mít subjekt téměř žádné povědomí o tom, že by se mu zobrazil obrázek, natožpak, aby rozpoznal, co na něm je. Přesto je překvapivé, že lidé klepají na správné klávesy častěji než ne. Cvičením se neustále zlepšují – a uvědomují si vzhled obrázků. Na začátku je však něco v mozku schopno rozpoznat a kategorizovat objekty dříve, než si subjekt vůbec uvědomí, že něco vidí.

Okamžité rozpoznání je pro výzkumníky důležité, protože je to nejjednodušší možný případ obecného rozpoznání objektů. Stává se to příliš rychle na to, aby zahrnovalo nábor velkého množství neuronů nebo intenzivní zpracování informací nebo odesílání a přijímání impulsů na více než zlomek centimetru. Informace z očních pohybů, klíčový prvek v jiných druzích rozpoznávání (jako v DiCarlově díle), nemohou hrát žádnou roli. Přesto se nějakým způsobem stisknou ty správné klávesy (většinou), což znamená, že omezená forma univerzálního rozpoznávání objektů musí být možná s použitím relativně malého počtu neuronů organizovaných relativně jednoduchým způsobem.

Stavíme na práci, kterou Poggio udělal s Maxem Riesenhuberem, PhD '00, poté postgraduálním studentem na MIT a nyní profesorem na Georgetownské univerzitě, Serre, Poggio a dalších v Poggio's
skupina vyvinula teorii o části zrakové kůry, která je hlavně zodpovědná za okamžité rozpoznání. Jejich přístup k vizuálnímu zpracování byl v mnoha ohledech odlišný od přístupu inženýra strojového vidění. Například většina programů pro strojové vidění obsahuje jeden procesor, který provádí řadu instrukcí v po sobě jdoucím pořadí, což je architektura známá jako sériové zpracování. Na druhé straně mozek používá paralelní zpracování, přístup, ve kterém je problém rozdělen na mnoho částí, z nichž každý je řešen samostatně vlastním procesorem, načež jsou výsledky kombinovány nebo integrovány, aby se získal jediný obecný výsledek – řekněme, vnímání krávy. Teoreticky by inženýři mohli používat paralelní zpracování pro programy strojového vidění (a někteří to zkusili), ale v praxi je málokdy zřejmé, jak rozložit problém způsobem, který umožňuje bezproblémovou rekombinaci hotových kusů.

Biologické vidění řeší tento problém několika různými způsoby. Jedním z nich je podle Poggiovy skupiny zorganizovat zpracování kolem dvou jednoduchých operací a poté tyto operace uspořádaným způsobem střídat přes vrstvy neuronů. Vrstva A může filtrovat základní vstupy z optického nervu; vrstva B by integrovala výsledky z mnoha buněk ve vrstvě A; C by filtroval vstupy z B; D by integrovalo výsledky z C; a tak dále, možná tucetkrát. Jak signál stoupá vrstvami, výstupy paralelizovaných procesorů se postupně spojují, objevuje se identita a odpadá šum.

Serre a Poggio použili tuto techniku ​​vrstvení, aby umožnili jejich modelu provádět paralelní zpracování. Dalším trikem, který si vypůjčili z biologie, bylo zvýšení počtu spojení spojujících jejich základní spínací jednotky. Spínací jednotky v konvenčních počítačích mají velmi málo připojení, obvykle kolem tří; neurony, základní spínací jednotky mozku, mají tisíce nebo dokonce desetitisíce. Serre a Poggio vybavili logické spínače ve svém modelu biologicky přijatelným stupněm konektivity. V případech, kdy věda ještě nebyla známa, učinili předpoklady na základě svých širších zkušeností s neuroanatomií.

Aby otestovali svou teorii, Serre a Poggio vyvinuli počítačový program pro okamžité rozpoznání, který analyzuje digitální obrazy. Když jsou soubory digitálních obrázků vloženy do programu, prochází je několika střídajícími se vrstvami filtračních a integračních buněk a trénuje se tak, aby identifikoval a klasifikoval obrázky. Klíčem je pomalé budování složitosti, říká Serre. Příliš rychlé zavádění inteligence je velká chyba. Počáteční úsilí o umělou inteligenci se možná snažilo vynulovat identitu příliš rychle a vyhazovat informace, které byly zásadní pro získání správné odpovědi.

Přístup Serreho a Poggia byl velkolepým úspěchem. Z neurovědeckého hlediska se ukázalo, že některé z jejich předpokladů předpovídají skutečné rysy, jako je přítomnost buněk (nazývejte je OR buňky), které vybírají nejsilnější nebo nejkonzistentnější signál ze skupiny vstupů a kopírují jej do svých vlastních. výstupní vlákna. (Představte si skupinu tří neuronů, A, B a C, které všechny vysílají signály do OR neuronu X. Pokud by tyto signály byly na úrovních síly 1, 2 a 3, X by potlačilo A a B a zkopírovalo by signál C do svého Pokud by byly síly 3, 2 a 1, místo toho by to zkopírovalo signál A a potlačilo by signály B a C.)

Výsledky byly stejně dramatické z pohledu AI. Když lidské subjekty a program okamžitého rozpoznání Serre a Poggio provedli test přítomnosti/nepřítomnosti zvířat, počítač dopadl stejně dobře jako lidé – a lépe než nejlepší dostupné programy pro strojové vidění. (Ve skutečnosti dostal správnou odpověď v 82 procentech případů, zatímco u lidí to bylo v průměru jen 80 procent.) Je to téměř jistě poprvé, kdy Všeobecné -Vision program fungoval stejně jako lidé.

Slibné výsledky mají Poggio a Serre myšlení k okamžitému uznání. Poggio tuší, že model by se mohl stejně dobře aplikovat na sluchové vnímání. Serre předkládá ještě odvážnější spekulaci: že obecné rozpoznávání objektů je základním stavebním kamenem poznání. Možná proto říkáme, že vidím, když chceme naznačit, že něčemu rozumíme.

Ačkoli rozšíření jejich teorie v těchto nových směrech bude vyžadovat určitou práci, model Serre a Poggio se již začal šířit prostřednictvím komunit AI a neurověd na MIT. Postgraduální student elektrotechniky Stan Bileschi nedávno dokončil doktorát, který aplikoval model na rozpoznávání scén, což je odvození úsudků vyššího řádu – je to farma! – z rozpoznání samostatných objektů – stodola, kráva, plot z dělených kolejnic. Bileschi věří, že obecná analýza scény bude zásadní pro mnoho reálných aplikací strojového vidění – například dohled.

Okamžité rozpoznání je základem celkového vizuálního rozpoznání, říká Poggio, ale není to všechno. Existuje mnoho úrovní uznání a okamžité rozpoznání je jednou z nejjednodušších. V závislosti na kontextu může být předmět identifikován jako hračka, panenka, Barbie, odraz americké kultury, žena, reprezentace dívky s podivnou poruchou růstu a tak dále. Podobně v šachových problémech může rozpoznání správného tahu trvat sekundy, minuty nebo hodiny, v závislosti na konfiguraci figurek. Pravděpodobně, jak jsou problémy těžší, jejich řešení vyžaduje nábor vyšších úrovní mozkových funkcí – a to vyžaduje čas.

Model okamžitého rozpoznání by mohl vyřešit problémy se zrakem, které bránily vývoji užitečných údržbářských a konstrukčních robotů. Nebo bychom mohli zjistit, že aby byli skutečně užiteční, musí být takoví roboti schopni rozpoznat jak anomálie v krajině, tak jejich příčiny. Tento typ uznání je jednoznačně vyššího řádu.

Dalším krokem je vytvoření modelů rozpoznávání, které získávají stále více zdrojů, a proto vyžadují více času na zpracování. Víme, jak lze model změnit, aby zahrnoval čas, říká Serre. To by nás mohlo přiblížit k přemýšlení – jen možná.

skrýt