211service.com
Biologicky inspirované systémy vidění
Neurovědci z MIT vyvinuli počítačový model, který napodobuje systém lidského vidění, aby přesně detekoval a rozpoznával objekty na rušné pouliční scéně, jako jsou auta a motocykly.

Rozpoznání objektů ve scéně, jako je zde znázorněné auto na scéně ulice, může být pro počítače problém. Model toho, jak mozek zpracovává vizuální informace, nabízí úspěšný přístup.
Takové biologicky inspirované systémy vidění by mohly být brzy použity v sledovacích systémech nebo v chytrých senzorech, které mohou řidiče varovat před chodci a jinými překážkami. Může také pomoci při vývoji takzvaných vizuálních vyhledávačů, říká Thomas Serre , neurolog ve společnosti Centrum pro biologické a počítačové učení v McGovern Institute for Brain Research na MIT, který se na projektu podílel.
Vědci se už roky zajímají o kopírování systémů biologického vidění, jednoduše proto, že jsou tak dobré, říká David Hogg, odborník na počítačové vidění z Leeds University ve Spojeném království. Toto je velmi úspěšný příklad [napodobování biologického vidění], říká.
Naučit počítač klasifikovat objekty se ukázalo mnohem těžší, než se původně očekávalo, říká Serre, který pracoval s Tomaso Poggio , spoluředitel centra. Na jedné straně, k rozpoznání určitého typu objektu, jako je auto, potřebuje počítač šablonu nebo výpočetní reprezentaci specifickou pro tento konkrétní objekt. Taková šablona umožňuje počítači odlišit auto od předmětů v jiných třídách – neauta. Přesto musí být tato reprezentace dostatečně flexibilní, aby zahrnovala všechny typy automobilů – bez ohledu na to, jak se liší vzhledem – v různých úhlech, pozicích a pozicích a za různých světelných podmínek.
Chcete být schopni rozpoznat objekt kdekoli v zorném poli, bez ohledu na to, kde se nachází a bez ohledu na jeho velikost, říká Serre. Pokud však analyzujete obrázky pouze podle jejich vzorů světlých a tmavých pixelů, pak dva portréty různých lidí mohou vypadat podobněji než dva obrázky stejné osoby pořízené z různých úhlů.
Nejúčinnější metodou, jak tyto problémy obejít, je trénovat algoritmus učení na sadě obrázků a umožnit mu extrahovat vlastnosti, které mají společné; dvě kola vyrovnaná s vozovkou by mohla signalizovat například auto. Serre a Poggio věří, že systém lidského vidění používá podobný přístup, ale takový, který závisí na hierarchii po sobě jdoucích vrstev ve zrakové kůře. První vrstvy kůry detekují jednodušší rysy objektu, jako jsou hrany, a vyšší vrstvy tyto informace integrují do našeho vnímání objektu jako celku.
Aby ověřili svou teorii, Serre a Poggio spolupracovali se Stanley Bileschi, také na MIT, a Liorem Wolfem, členem katedry informatiky na Tel Avivské univerzitě v Izraeli, na vytvoření počítačového modelu obsahujícího 10 milionů výpočetních jednotek, z nichž každá byla navržena tak, aby se chovala. jako shluky neuronů ve zrakové kůře. Stejně jako v kortexu jsou shluky organizovány do vrstev.
Když se model poprvé naučí vidět, některé jednotky podobné buňkám extrahují základní prvky ze scény, jako jsou orientované hrany, analýzou velmi malých skupin pixelů. Tyto neurony jsou typicky jako dírky, které se dívají na malou část zorného pole, říká Serre. Složitější jednotky jsou schopny zachytit větší část obrazu a rozpoznat prvky bez ohledu na jejich velikost nebo polohu. Pokud například jednoduché jednotky detekují svislé a vodorovné okraje, složitější jednotka může tuto informaci použít k detekci rohu.
S každou další vrstvou jsou z obrazu extrahovány stále složitější prvky. Stejně tak vztahy mezi prvky, jako je vzdálenost mezi dvěma částmi objektu nebo různé úhly, pod kterými jsou tyto dvě části orientovány. Tato informace umožňuje systému rozpoznat stejný objekt pod různými úhly.
Bylo pro nás překvapením, když jsme tento model aplikovali na vizuální úkoly v reálném světě a dobře konkuroval nejlepším systémům, říká Serre. V některých testech jejich model skutečně úspěšně rozpoznal objekty v průměru více než 95 procent času. Čím více obrázků je systém natrénován, tím přesněji funguje.
Možná bychom se neměli divit, říká David Lowe , odborník na počítačové vidění a rozpoznávání objektů na University of British Colombia ve Vancouveru. Lidské vidění je mnohem lepší v rozpoznávání než kterýkoli z našich současných počítačových systémů, takže jakékoli rady, jak postupovat z biologie, budou pravděpodobně velmi užitečné.
V současné době je systém navržen tak, aby analyzoval pouze statické snímky. Ale to je velmi v souladu s tím, jak funguje systém lidského vidění, říká Serre. Vstupy do zrakové kůry jsou sdíleny systémem, který se zabývá tvary a texturami, zatímco samostatný systém se zabývá pohybem, říká. Tým nyní pracuje na začlenění paralelního systému pro práci s videem.