Lepší a přesnější vyhledávání obrázků

Výzkumníci z Kalifornské univerzity v San Diegu (UCSD) vyvinuli novou metodu vyhledávání obrázků, o které tvrdí, že výrazně překonává stávající přístupy, pokud jde o přesnost a efektivitu. Přístup výzkumníků modifikuje typickou metodu strojového učení používanou k trénování počítačů, aby rozpoznávaly obrázky, říká Nuno Vasconcelos, profesor elektrotechniky a počítačového inženýrství na UCSD. Výsledkem je vyhledávač, který obrázky automaticky označí názvy objektů na nich, jako je ředkev, deštník nebo plavec. A protože tento přístup používá slova k označení a klasifikaci částí obrázků, hodí se dobře pro typické vyhledávání klíčových slov, které lidé provádějí na webu, říká Vasconcelos.





Hledání fotek : Nový algoritmus vyvinutý na UCSD, který k obrázkům přidává slovní značky, může zvýšit přesnost a efektivitu vyhledávání obrázků. Výše uvedeným prvkům z obrázku je přiřazena pravděpodobnost, že patří do určitých kategorií, jako je voda nebo osoba.

V současné době může být vyhledávání obrázků na internetu pomocí klíčových slov hit-or-miss. Důvodem je, že většina vyhledávání na základě obrázků používá metadata – text, jako je název souboru, datum nebo jiné základní informace spojené s obrázkem – které mohou být neúplné, neužitečné pro vyhledávání klíčových slov nebo mohou zcela chybět. Počítačoví vědci pracují na lepších způsobech, jak identifikovat obrázky a umožnit jejich vyhledávání více než deset let, ale přimět stroje, aby šly nad rámec metadat a určovaly, jaké objekty jsou na obrázku, je těžký problém a většina dosavadních snah má pouze byl středně úspěšný.

I když výzkum UCSD problém zcela nevyřeší, zlepšuje výkon a efektivitu pro určitý přístup, říká Vasconcelos, a identifikuje některá omezení ve způsobu, jakým lidé problém řešili.



Přístup, který vědci řešili, se nazývá obsahově založený a zahrnuje popis objektů na obrázku pomocí analýzy prvků, jako je barva, textura a linie. Tyto objekty mohou být reprezentovány sadami prvků a poté porovnány se sadami extrahovanými z jiných obrázků. Sady funkcí jsou popsány svými statistikami a počítač vyhledává statisticky pravděpodobné shody.

Multimédia

  • Vyhledávání obrázků

Nový výzkum je založen na tomto přístupu, ale přidává mezikrok, říká Pedro Moreno, výzkumný inženýr Google, který na projektu pracoval. Moreno vysvětluje, že tento nový krok poskytuje sémantický štítek nebo slovní štítek, který popisuje objekty na obrázcích, místo toho, aby se spoléhal pouze na sady čísel.

Zvažte například odeslání obrázku psa na trávníku. Objekty na obrázcích jsou analyzovány a porovnávány s výsledky pro známé kategorie objektů, jako jsou psi, kočky nebo ryby. Poté počítač provede statistickou analýzu, která dává pravděpodobnost, že obrázek odpovídá těmto kategoriím. Systém může ohodnotit obrázek s 60procentní pravděpodobností, že hlavním objektem je pes, as 20procentní pravděpodobností, že je to kočka nebo ryba. Počítač tedy usoudí, že obrázek s největší pravděpodobností obsahuje obrázek psa. Klíčovou myšlenkou je reprezentovat obrazy v tomto sémantickém prostoru, říká Moreno. Zdá se, že to výrazně zlepšuje výkon.



Systém výzkumníků získal své odborné znalosti tím, že byl vystaven tisícům obrázků, které zahrnovaly objekty, jako jsou hory, květiny, lidé, voda a tygři, a také sémantické značky, které těmto objektům odpovídaly. Poté výzkumníci testovali, jak dobře si systém vedl, tím, že jej vystavili novým obrázkům, které obsahovaly objekty, které ještě nebyly označeny. Ve srovnání s lidským popisem scény si systém vedl dobře: obrázek tygra ve vysoké trávě přiměl systém najít kočku, tygra, rostliny, list a trávu. Popisek vytvořený lidmi obsahoval kočku, tygra, les a trávu. A když výzkumníci porovnali značky svého systému s typičtějšími přístupy založenými na obsahu, zjistili, že si vedl lépe asi o 40 procent. Jinými slovy, produkoval méně slov, která nebyla na obrázek použitelná.

Larry Zitnick, výzkumník v oblasti vyhledávání obrázků ve společnosti Microsoft, říká, že tento výzkum posouvá hranice vyhledávání založeného na obsahu, aby zjistil, jak dobře může fungovat. Dělají to, že analyzují, jak daleko můžeme zajít na základě [hledání objektů na obrázku], a to je opravdu dobré, pokud jde o překonání hranice. Má také podezření, že tento přístup by mohl dobře fungovat pro velké soubory obrázků, jako jsou ty na internetu.

Zitnick dodává, že výsledky UCSD by mohly být skvělé pro určité typy jednoduchého vyhledávání objektů v obrázcích. Nefungovalo by to však pro jiná vyhledávání, jako je rozlišení budovy hlavního města USA od budovy státního kapitolu v Lincolnu, NE. Vizuální problémy jsou velmi obtížné a nemyslím si, že jedno řešení vše vyřeší, říká Zitnick.



Přístup výzkumníků by však mohl být užitečný, pokud by byl začleněn do stávajícího vyhledávacího softwaru, říká Chuck Rosenberg, softwarový inženýr Google, který pracuje na vyhledávání obrázků. Pokud by byl tento přístup začleněn do vyhledávání na počítači, mohl by lidem umožnit vyhledávat obrázky na základě podobnosti vzhledu. Ale lidem by to nutně nepomohlo najít obrázky založené na obskurnějších pojmech, jako je štěstí. Například Rosenberg říká, že bych mohl chtít fotku šťastné rodiny na večerní procházce, kterou bych si dal na kartičku, kterou dělám. Aby počítač skutečně našel tento obrázek pouze na základě obsahu obrázku… je mimo současné technologie.

Vasconcelos z UCSD má podezření, že bude trvat více než pět let, než budou počítače schopny na obrázcích identifikovat složitější pojmy, jako je štěstí. Ale to neznamená, že současný výzkum nebude do té doby užitečný, říká. Očekává se, že [technologie] je spíše jako pomůcka, ne jako odpověď.

skrýt