211service.com
Přesnější vyhledávání videí
Startup sídlící v Bostonu EveryZing spustila vyhledávač, který doufá, že změní způsob, jakým lidé vyhledávají audio a video online. EveryZing, dříve známý jako PodZinger, vyhledávač podcastů, využívá řečové systémy vyvinuté technologickou společností BBN který dokáže převést mluvená slova na prohledávatelný text s přesností asi 80 procent. To předčí ostatní komerčně dostupné systémy, říká generální ředitel společnosti EveryZing Tom Wilde.

Zvukové podněty: Nový vyhledávač videa a zvuku dokáže převést zvuk na textový přepis s 80procentní přesností. To stačí k zobrazení úryvků přepisu, nasměrování uživatelů na místo v souboru, kde se vyskytuje hledaný výraz, a shrnutí klíčových pojmů.
Tato vysoká přesnost umožňuje nové možnosti vyhledávání, říká Wilde, jako je schopnost poskytovat celé přepisy videa a zvuku a schopnost nasměrovat lidi na přesné místo v souboru, kde je vysloveno slovo nebo fráze. Tato technologie také společnosti umožní poskytovat cílené reklamy spojené s konkrétním obsahem, podobně jako Google poskytuje reklamy založené na textu webové stránky.
Velkou výzvou [v online videu a zvuku] … je neprůhlednost mediálního obsahu, říká Wilde. Je extrémně obtížné zjistit, jaký rozsah obsahu je uvnitř videa nebo zvukového klipu. Problém, který chceme vyřešit, je podle něj objevitelnost multimédií ve vyhledávání na webu. EveryZing to dělá extrahováním obsahu multimediálních souborů a výstupem textu, aby mohl využít již existující nástroje pro vyhledávání textu vyvinuté společnostmi jako Google a Yahoo.
Web exploduje multimédii z YouTube, podcasty, televizními zprávami a pořady National Public Radio. Je však stále obtížné vyhledat Baracka Obamu a získat všechny instance na webu, kde je uvedeno jeho jméno. Názvy klipů a značky, které jim lidé přiřadí, obvykle neobsahují dostatek informací, aby poskytovaly užitečné výsledky vyhledávání. A to je důvod, proč několik společností v posledních několika letech zkoumá použití zvukového obsahu jako průvodce. Například vyhledávač videí Blinkx používá technologii rozpoznávání řeči, aby prohledala relevantní obsah na celém webu a shromáždila jej na jednom webu, podobně jako Google agreguje webové stránky. (Viz Surfování v televizi na internetu.)
Obchodní cíle společnosti EveryZing se liší od cílů společnosti Blinkx, říká Wilde, a má podezření, že se tyto dva přístupy mohou vzájemně doplňovat. Jde nám o merchandising obsahu, ne o trollování webu, říká. Společnost EveryZing (která, stejně jako Blinkx, poskytuje vyhledávací portál pro webové surfaře) chce především spolupracovat s poskytovateli obsahu, aby bylo možné jejich multimédia vyhledávat. Společnost chce například převést veškerý audio a video obsah na ABC.com na text s možností vyhledávání, přičemž k tomuto textu přidá časová razítka (stejně jako již existující text se skrytými titulky), takže člověk může okamžitě přejít na konkrétní slovo v klip.
Kromě toho, na rozdíl od současné technologie Blinkx, technologie BBN umožňuje společnosti EveryZing extrahovat koncepty na vysoké úrovni, které původně nemusely být hledány. Pokud by někdo hledal například Baracka Obamu, EveryZing mohl v klipu nabídnout i další klíčová slova, jako je rally.
Myšlenka použití zvukových přepisů k vyhledávání multimédií existuje ve výzkumných laboratořích po desetiletí a základní výzkum v oblasti rozpoznávání řeči sahá ještě dříve. Velká část klíčové práce se uskutečnila na BBN, MIT, Carnegie Mellon University, IBM a SRI International. V roce 1995 měl Carnegie Mellon funkční ukázku podobného systému vyhledávání videa, říká Richard Stern , profesor elektrotechniky a výpočetní techniky na univerzitě. Tento systém, tzv Infomedia , podnítil další výzkum v této oblasti, říká, a byl předchůdcem moderního přístupu BBN k analýze videa.
Základní technologie společnosti EveryZing se skládá ze dvou základních technologií od BBN se sídlem v Bostonu. Základní systém převodu řeči na text, nazvaný Byblos, byl za posledních pět let financován z peněz na výzkum ve výši 50 milionů dolarů na základě řady vládních grantů, říká Wilde. Pomocí pravděpodobnostních algoritmů strojového učení trvá systému jednu minutu, než převede každou minutu zvukového obsahu na text.
Druhou částí technologie, říká Wilde, jsou algoritmy, které zpracovávají obsah textu. Technologie přirozeného jazyka BBN obsahuje obrovské zásoby frází a slov pro kontext, což pomáhá dávat smysl videu. Například segment zpráv o zdraví může používat jazyk, který je specifický pro lékařskou oblast. V tomto případě by systém byl schopen rozpoznat určitá nejasná slova. Porozumění významu textu je mocný nástroj, říká Wilde, protože umožňuje společnosti EveryZing poskytovat uživatelům koncepty na vysoké úrovni, aby mohli své vyhledávání doladit. A co je důležité, umožňuje společnosti spárovat cílené reklamy se správným obsahem.
Nastal správný čas pro vyhledávač videí s těmito schopnostmi, říká Stern z Carnegie Mellon. Video je podle něj mnohem působivější a zábavnější médium než jen prostý text, a nyní je toho tolik dostupné na internetu. Dodává, že 80procentní přesnost BBN je opravdu docela výkon a měla by být dostatečná pro vyhledávání troves obsahu online.
I když je technologie dobrá, není dokonalá, říká Wilde z EveryZing. Přesnost klesá, když je přítomna hudba na pozadí a když mluví více lidí najednou. Ale pro trh infotainmentu a zpráv, na který se společnost právě teď zaměřuje, by tato technologie měla nabídnout výrazné zlepšení oproti tomu, co je aktuálně dostupné, říká. Myslím, že se za pár let ohlédneme zpět a řekneme: ‚Samozřejmě obsah multimediálních souborů musí být prohledávatelný,‘ říká Wilde. Bylo by to, jako by bylo možné webové stránky vyhledávat pouze podle názvu a značky.