Vyhledávání video přednášek

Výzkumníci z MIT vydali nástroj pro vyhledávání videa a zvuku, který řeší jeden z nejnáročnějších problémů v oboru: jak rozdělit zdlouhavou akademickou přednášku na zvládnutelné kousky, určit umístění klíčových slov a nasměrovat na ně uživatele. Minulý měsíc oznámeno MIT Prohlížeč přednášek webové stránky poskytují široké veřejnosti podrobný přístup k více než 200 přednáškám veřejně dostupným prostřednictvím univerzity OpenCourseWare iniciativa. Vyhledávač využívá desítky let výzkumu rozpoznávání řeči na MIT a dalších institucích, aby převedl zvuk na text a umožnil jej vyhledávat.





Při pohledu na přednášky: MIT nabízí nástroj pro vyhledávání videa, který dokáže určit klíčová slova v audio a video přednáškách. Výsledkem hledání exoskeletu a benzínu je tento videoklip. Automatizovaný přepis přednášky se objeví pod videem.

Prohlížeč přednášek přichází v době, kdy stále více univerzit, včetně Carnegie Mellon University a University of California, Berkeley, zveřejňuje online videa a podcasty přednášek. I když je tento obsah užitečný, nalezení konkrétních informací v rámci přednášek může být obtížné a frustrující studenty, kteří jsou zvyklí najít to, co potřebují, za méně než sekundu pomocí Googlu.

Toto je rostoucí problém pro univerzity po celé zemi, protože je snazší nahrávat přednášky ve třídě, říká Jim Glass, vědecký pracovník na MIT. Je to opravdová výzva vědět, jak je šířit a usnadnit studentům přístup k částem přednášky, které by je mohly zajímat. Je to jako hledat jehlu v kupce sena.



Základní prvky prohlížeče přednášek se pohybují po výzkumných laboratořích na MIT a místech, jako je např BBN Technologies v Bostonu, Carnegie Mellon, Mezinárodní SRI v Palo Alto, CA a University of Southern California již více než 30 let. Jejich úsilí vytvořilo software, který je konečně dost dobrý na to, aby si našel cestu k průměrnému člověku, říká Premkumar Natarajan, vědec z BBN. Jsou to asi tři desetiletí práce, kde se řešilo mnoho zásadních problémů, říká. Tato technologie je nyní dostatečně vyspělá, protože v komunitě stále roste pocit, že je čas [testovat aplikace v reálném světě]. V laboratoři jsme udělali, co jsme mohli.

Hrstka společností, jako jsou online vyhledávače zvuku a videa Blinkx a EveryZing (která má licencovanou technologii od BBN) využívají software, který převádí audio řeč na text s možností vyhledávání. (Viz Surfování v televizi na internetu a Přesnější vyhledávání videí.) Výzkumníci z MIT však čelili zvláštním problémům s akademickými přednáškami. Za prvé, mnoho lektorů není rodilými mluvčími angličtiny, což činí automatický přepis složitým pro systémy trénované na akcenty v americké angličtině. Za druhé, slova oblíbená na vědeckých přednáškách mohou být poněkud nejasná. Konečně, říká Regina Barzilayová , profesor informatiky na MIT, přednášky mají velmi málo rozeznatelnou strukturu, takže je obtížné je rozdělit a uspořádat pro snadné vyhledávání. Aktuální přechody jsou velmi jemné, říká. Přednášky nejsou organizovány jako normální text.

K vyřešení těchto problémů výzkumníci nejprve nakonfigurovali software, který převádí zvuk na text. Trénovali software, aby porozuměl konkrétním akcentům pomocí přesných přepisů krátkých úryvků nahrané řeči. Aby softwaru pomohli identifikovat neobvyklá slova – cokoli od drosophily po integrály s uzavřenou smyčkou – poskytli mu výzkumníci další data, jako je text z knih a poznámky z přednášek, které softwaru pomáhají přesně přepsat až čtyři z pěti slov. Pokud je systém používán s nerodilým anglickým mluvčím, jehož přízvuk a slovní zásobu nebyl naučen rozpoznávat, přesnost může klesnout až na 50 procent. (Takto nízká přesnost by nebyla užitečná pro přímý přepis, ale stále může být užitečná pro vyhledávání klíčových slov.)



Dalším krokem, vysvětluje Barzilay, je přidat strukturu do přepsaných slov. Již byl k dispozici software, který dokázal rozdělit dlouhé řetězce vět do konceptů na vysoké úrovni, ale zjistila, že to s přednáškami nestačí. Její skupina si tedy navrhla vlastní. Jedním z klíčových rozdílů, říká, je to, že během přednášky mluvíte svobodně; blouzníš a mumláš.

Pro uspořádání přepsaného textu vytvořila její skupina software, který text rozděluje na části, které často korespondují s jednotlivými větami. Software umístí tyto bloky do síťové struktury; části, které mají podobná slova nebo byly vysloveny v čase blízko sebe, jsou umístěny blíže k sobě v síti. Relativní vzdálenost částí v síti umožňuje softwaru rozhodnout, které věty patří ke každému tématu nebo podtématu přednášky.

Výsledkem je podle ní koherentní přepis. Když člověk hledá klíčové slovo, prohlížeč nabídne výsledky ve formě video nebo audio časové osy, která je rozdělena do sekcí. Část přednášky, která obsahuje klíčové slovo, je zvýrazněna; pod ním jsou úryvky textu, které obklopují každý výskyt klíčového slova. Když se video přehrává, prohlížeč pod ním zobrazuje přepsaný text.



Barzilay říká, že prohlížeč v současné době zaznamenává průměrně 21 000 návštěv denně, a přestože se ukazuje jako populární, stále je na čem pracovat. Během několika příštích měsíců její tým přidá funkci, která k přednáškám automaticky připojí osnovu textu, aby uživatelé mohli přejít na požadovanou sekci. Dále vědci poskytnou uživatelům možnost provádět opravy přepisu stejným způsobem, jakým přispívají lidé Wikipedie. I když se taková vylepšení zdají přímočará, představují technické problémy, říká Barzilay. Není to triviální záležitost, protože chcete rozhraní, které není zdlouhavé, a musíte opravu šířit během přednášky a dalších přednášek. Říká, že zapojení lidí do přepisovací smyčky by mohlo zlepšit přesnost systému o několik procentních bodů, čímž by se uživatelská zkušenost ještě zlepšila.

skrýt