Počítače, které mluví vaším jazykem

Chci letět z Bostonu do Milwaukeenext
Sobotní formální sestry
narozeniny a nechci se zastavit
Chicago a nechci
zaplatit více než čtyři sta dolarů
a párty začíná ve tři hodiny
je potřeba to dostat předtím.





Řekněte to hezky lidskému agentovi letecké společnosti a on nebo ona vaše slova rychle rozplete a najde lety, které splňují vaše kritéria. Řekněte to však na automatickou rezervační linku letecké společnosti a pravděpodobně dostanete pouze veselý digitální hlasový tón, omlouvám se, to jsem nezachytil.

Neobviňujte hlas. I za předpokladu, že počítače letecké společnosti překonaly zkomolená slova, hluk v pozadí a bostonský přízvuk, aby převedly požadavek na přesný text, žádný jazykový systém nemá takovou výpočetní sílu, aby dal smysl vašim cenovým a směrovacím omezením, ignorujte irelevantnosti, jako je skutečnost, že sobota má vaše sestra narozeniny a pochopte, že pokud párty začíná v 15:00, nemáte zájem o lety, které přilétají do Milwaukee ve 16:00.

Pokud počítače mohl porozumět takovým rutinním žádostem v přirozeném jazyce a reagovat na ně, výsledky by byly oboustranně výhodné: letecké společnosti by nemusely najímat tolik agentů a spotřebitelé by se nemuseli potýkat se zmatky dotykových rozhraní, která je zuřivě opouštějí. klepání na tlačítko 0, marně se snaží dostat k živému operátorovi.



Futuristé si takový svět představovali minimálně od roku 1968, kdy 2001: Vesmírná odysea HAL 9000 se stal archetypálním hlasově interaktivním počítačem. Akademičtí a podnikoví výzkumníci, které zaujala naprostá chladnost této myšlenky, se stejně dlouho zabývali systémy pro rozpoznávání lidské řeči a reakce na ni. Ale technologie se neuchytí, protože jsou skvělé: potřebují obchodní imperativ. U jazykového zpracování jsou to enormní náklady na živé služby zákazníkům, které konečně vytlačují technologie z laboratoře. Stromy s jednoduchým stisknutím nebo řekněme jedním telefonem rychle míří do šrotu, protože společnosti jako Nuance Communications a SpeechWorks spojují dříve konkurenční strategie do softwaru, který vyvozuje záměr z přirozeně vyřčených nebo písemných požadavků lidí. Velké letecké společnosti, banky a společnosti zabývající se spotřebním zbožím již systémy používají, a přestože tato technologie ještě nemůže zdržet konec konverzace, pomáhá volajícím s jednoduchými otázkami vyhnout se dlouhým frontám a uvolňuje lidské agenty, aby se vypořádali s složitější požadavky.

Tato vylepšení vytvořila systémy přirozeného jazyka pro prudký růst: 43 procent severoamerických společností buď zakoupilo interaktivní software pro hlasovou odezvu pro svá call centra, nebo provádějí pilotní studie, uvádí Forrester Research, společnost zabývající se technologickou analýzou. Jak říká Steve McClure, viceprezident ve skupině pro výzkum softwaru ve firmě IDC, která se zabývá analýzou trhu, s tím, jak stále více společností vyměňuje své staré nabídky telefonů s dotykovým tónem, dnešní trh s hlasovými aplikacemi založenými na telefonu v hodnotě 500 milionů dolarů vzroste do roku 2007 na 3,5 miliardy dolarů. Na konci roku 2002 například společnost Bell Canada nainstalovala systém hlasové odezvy za 4,5 milionu dolarů, který postavila společnost Nuance se sídlem v Menlo Park v Kalifornii. Na základě výsledků, které vidíme, bude skutečná návratnost investic trvat jen asi 10 měsíců, říká Belinda Banks, přidružená ředitelka péče o zákazníky Bell Canada. Celkově společnost očekává, že jen letos ušetří 5,3 milionu dolarů na nákladech na služby zákazníkům.

A to je pouze první fáze zavádění systémů pro zpracování jazyků. Společnosti jako Nuance a Boston’s SpeechWorks, dva lídři na trhu v oblasti interaktivních systémů hlasové odezvy, jsou úspěšní částečně proto, že přizpůsobili své technologie pro úzké oblasti – jako jsou cestovní informace – kde jsou slovní zásoby a pojmy, které musí ovládat, omezené. I když takové systémy přebírají výklenek zákaznických služeb, ostatní společnosti stále pokračují ve výzvě skutečného porozumění přirozenému jazyku. Pokud výzkumné úsilí v IBM a Palo Alto Research Center (PARC), například, přinese ovoce, počítače mohou být brzy schopny interpretovat téměř jakoukoli konverzaci nebo získat téměř jakékoli informace, které uživatel webu chce, i když jsou uzamčeny v video soubor nebo cizí jazyk otevírající trhy všude tam, kde lidé hledají znalosti prostřednictvím počítačových sítí. Předpovídá McClure od IDC, Zatímco GUI [grafické uživatelské rozhraní] bylo rozhraním pro devadesátá léta, NUI, neboli přirozené uživatelské rozhraní, bude rozhraním pro toto desetiletí.



Řekni, co?

Vybudování skutečně interaktivního systému zákaznických služeb, jako je systém Nuance, vyžaduje řešení každého z hlavních problémů zpracování přirozeného jazyka: přesnou transformaci lidské řeči na strojově čitelný text; analyzovat slovní zásobu a strukturu textu s cílem získat význam; generování rozumné reakce; a odpovídá lidsky znějícím hlasem.



Vědci z MIT, Carnegie Mellon University a dalších univerzit, stejně jako výzkumníci ze společností jako IBM, AT&T a Stanford Research Institute (nyní SRI International), se po desetiletí potýkali s první částí problému: otáčením mluveného slova. v něco, s čím mohou počítače pracovat. První praktické produkty přišly na počátku 90. let ve formě spotřebitelských programů pro rozpoznávání řeči – jako je IBM’s Voice Type – které sice diktovaly, ale nutily uživatele, aby se po každém slově zastavili, což omezovalo přijetí. V polovině 90. let tato technologie pokročila a vedla k diktovacím systémům, jako jsou NaturallySpeaking Dragon Systems a ViaVoice od IBM, které dokážou přepisovat nepřerušovanou řeč s přesností až 99 procent.

Přibližně ve stejnou dobu se několik vědců odtrhlo od akademických a firemních laboratoří a vytvořili startupy zaměřené na řešení ještě složitějších problémů – a větších potenciálních trhů – druhé oblasti zpracování jazyka, nazývané porozumění jazyku. Jsou to z velké části pokroky v této oblasti, které připravily pole pro jeho skutečný růstový spurt. Podle hlavního technologického ředitele SpeechWorks Michaela Phillipse, bývalého vědeckého pracovníka z Laboratoře výpočetní techniky MIT, tyto pokroky spočívají na dvou důležitých zjištěních. Prvním bylo, že nemá smysl sahat na Měsíc – desetiletí starý sen o systémech schopných obecné konverzace podobné HAL. Existuje mýtus, že lidé chtějí mluvit se stroji stejným způsobem, jakým mluví s lidmi, říká Phillips. Lidé chtějí efektivní, přátelský a užitečný stroj – ne něco, co se je snaží oklamat, aby si mysleli, že konverzují s člověkem. Tento předpoklad značně zjednodušuje práci při budování a výcviku systému přirozeného jazyka.

Druhým zjištěním bylo, že nadešel čas spojit filozofie, které dlouho zastávaly soupeřící frakce v komunitě zpracovávající jazyk. Jedna filozofie v podstatě říká, že porozumění řeči je věcí rozeznání její gramatické struktury, zatímco druhá zastává názor, že statistická analýza – porovnávání slov nebo frází s historickou databází příkladů řeči – je účinnějším nástrojem pro uhodnutí významu věty. Hybridní systémy, které používají obě metody, jak se startupy naučily, jsou přesnější než oba přístupy samostatně.



Ale tento poznatek nepřišel přes noc. Na MIT Phillips pomohl vyvinout experimentální software, který dokázal rozpoznat řeč a na základě porozumění gramatice dát smysl požadavku a logicky odpovědět. Stejně jako jiné systémy založené na gramatice rozdělil větu na její syntaktické složky, jako je předmět, sloveso a předmět. Systém pak tyto komponenty uspořádal do stromových diagramů, které reprezentovaly sémantický obsah věty nebo vnitřní logiku – kdo, co komu a kdy udělal. Tento software byl omezen na to, aby uživatelům pomáhal s navigací v Cambridge, MA, vysvětluje Phillips. Řekli byste: Kde je nejbližší restaurace?‘ a ono by řeklo: Jakou restauraci chcete?‘ Řekli byste, čínská,‘ a našlo by vám to místo.

Krátce poté, co Phillips v roce 1994 získal licenci na technologii od MIT a odešel založit SpeechWorks, on i výzkumníci z konkurenční Nuance viděli, že jedna z jejich cílových aplikací, řízení hovorů, vyžaduje něco víc. Existují společnosti, které mají 300 různých 800 čísel, vysvětluje Phillips. Zákazník nerozumí struktuře organizace – jen ví, jaký má problém. Správná věc je položit otázku, například: Co máš za problém?‘ Ale ve srovnání s žádostí o blízkou čínskou restauraci jsou takové otázky nebezpečně otevřené.

Problém je ještě těžší, když uvážíme, že nejednoznačnost velké části lidské řeči – pomyslete na frázi, jakou viděl dívku s dalekohledem – znamená, že mnoho požadavků je otevřených různým výkladům. Existuje tolik různých způsobů, jak by někdo mohl mluvit se systémem, že snaha pokrýt to všechno v gramatikách je neúnosná, říká John Shea, viceprezident pro marketing a produktový management ve společnosti Nuance.

SpeechWorks konečně našel funkční řešení v roce 2000, kdy spojil software MIT s technologií statistického zpracování jazyků vyvinutou v AT&T Labs-Research ve Florham Park, NJ. Systém AT&T je postaven na databázi běžných fragmentů vět získaných z desítek tisíc zaznamenaných telefonních hovorů zahrnujících komunikaci mezi člověkem a strojem. Každý fragment v databázi je skórován pro svou statistickou asociaci s určitým tématem a podle toho klasifikován. Fragment, jako jsou například hovory, které jsem neuskutečnil, by mohl silně korelovat s dotazem na fakturaci s neznámým číslem a systém by hovor přesměroval na agenta, který by mohl připsat na účet volajícího. Pokud si systém není jistý svým výběrem, požádá volajícího o další informace pomocí technologie syntézy řeči. Podle společnosti AT&T systém nakonec správně směruje více než 90 procent hovorů – což je mnohem vyšší úspěšnost, než jaké zažívají volající, když se sami pohybují ve staromódních telefonních stromech.

Společnost Nuance vyvinula podobný systém, založený na technologii od SRI, který může k extrakci významu z řeči volajícího používat buď gramatické nebo statistické metody, nebo obojí. Používáme různé přístupy v závislosti na potřebách zákazníka, říká Felix Gofman, manažer produktového marketingu ve společnosti Nuance. Můžete kombinovat. Ve specifické oblasti, jako je bankovnictví, budou témata a slovní zásoba dotazů volajících omezena a systém může fungovat pouze s předdefinovanými seznamy toho, co by zákazníci mohli říkat. U nových nebo širších oborů, jako je například objednávání telefonních služeb, systém ukládá každou otázku, kterou slyší, do databáze, poté pomocí statistických technik porovnává nové otázky se starými položkami při hledání pravděpodobných shod, čímž zvyšuje přesnost v průběhu času.

Technologie call centra SpeechWorks je používána takovými různými podniky, jako je Office Depot, US Postal Service, Thrifty Car Rental a United Airlines. Ale společnost, která tlačí technologii nejblíže jejím limitům, je Amtrak. Cestující, kteří volají do automatizovaného telefonního systému Amtrak, mohou nejen získat jízdní řády vlaků, ale také rezervovat rezervace a účtovat jízdenky na své kreditní karty. Když jsme vyrazili, primárním cílem bylo zvýšit míru spokojenosti zákazníků, říká Matt Hardison, šéf prodeje, distribuce a zákaznických služeb železnice. Ale jako bonus říká, že úspory na mzdových nákladech splatily Amtraku investici 4 miliony dolarů do technologie během 18 měsíců.

Nuance má mezitím velké zákazníky ve finančním a telekomunikačním průmyslu, včetně Schwab, Sprint PCS a Bell Canada. British Airways sdělily společnosti, že po nasazení systémů pro rozpoznávání řeči Nuance v loňském roce její průměrné náklady na zákaznický hovor klesly z 3,00 USD na 0,16 USD. A podle Bell Canada’s Banks si 40 procent zákazníků zvyklo při procházení stromem tónových telefonů společnosti vynulovat nebo požádat o živého operátora. Mezi implementací systému v prosinci 2002 a březnem 2003 toto číslo kleslo na 15 procent, říká Banks.

Hlubší porozumění

Přes všechen svůj úspěch však tyto systémy v žádném případě skutečně nerozumí tomu, co slyší. Zabývají se pouze pravidly gramatiky, pravděpodobnostmi a uloženými příklady. Ve skutečnosti vynikají právě proto, že jejich tvůrci se odvrátili od hledání systému dostatečně inteligentního na to, aby přečetli a shrnuli knihu nebo udrželi obecnou konverzaci.

Jiní badatelé si však zachovávají širší pohled na možnosti zpracování v přirozeném jazyce. Stejně jako Ron Kaplan, výzkumný pracovník z PARC, který vyvinul většinu základních gramatických teorií stojících za mnoha dnešními systémy přirozeného jazyka, vytvářejí software, který si dokáže poradit s mnohem větší rozmanitostí vstupů – od novinových článků po neuspořádanou masu multimédií. informace na webu. Kaplan je kritický k tomu, co nazývá mělké metody používané pro specializované aplikace, jako je řízení hovorů. Ve srovnání s alternativou - udržování nákladného personálu lidských agentů zákaznických služeb - ve skutečnosti nejsou špatné, říká. Ale ve srovnání s tím, co byste chtěli, smrdí. Efektivnější rozhraní v přirozeném jazyce, říká Kaplan, by odstranilo potřebu pečlivě přizpůsobovat systémy a umožnilo uživatelům svobodně mluvit nebo psát.

Dva problémy bránící této vizi podle Kaplana spočívají v tom, že databáze jazykových vzorků, z nichž jednodušší systémy čerpají, jsou příliš malé a statistické algoritmy, které používají, jsou navrženy tak, aby eliminovaly nejednoznačnost ve většině toho, co lidé říkají, a že se do nich vracejí co nejrychleji. možné v nejpravděpodobnějším významu. Kaplan se domnívá, že pokud se tato nejednoznačnost odstraní příliš brzy, může dojít ke ztrátě správného významu výroku, zejména dlouhého nebo složitého souvětí. Poslední dekádu tedy strávil prací na gramaticky řízeném systému zvaném Xerox Linguistic Environment, který se ve skutečnosti snaží zachovat dvojznačnost. Systém analyzuje promluvu do všech možných větných diagramů povolených podle sady 314 pravidel upravujících vztahy mezi různými částmi řeči (výzkumníci PARC sestavovali pravidla ručně po dobu tří let). Například složitá věta se 40 nebo více slovy může být interpretována až 1000 různými způsoby.

Analýza gramatiky systému je tak důkladná, že správně zachycuje v průměru 75 procent logických vztahů ve větě – což je ve skutečnosti velmi vysoká hodnota ve srovnání s tím, co dělá většina statistických metod, říká Kaplan. Tato míra přesnosti může být zvýšena na přibližně 80 procent, pokud software využije těchto statistických metod a porovná každou možnou interpretaci s podobnými diagramy ve školené databázi – v případě softwaru PARC, což je úložiště stovek tisíc přesných diagramů nakreslených vět. z Wall Street Journal články.

Kaplan plánuje nejprve spustit systém na obrovské digitální znalostní bázi Xeroxu o technikách oprav kopírek, kterou neustále konzultují a aktualizují terénní technici společnosti. Tam porovná tisíce jednotlivých záznamů, aby odstranil nadbytečnost a rozpory. Je možné, že mnoho techniků objevilo stejné řešení běžného problému, jako je výměna bubnu kopírky, vysvětluje Kaplan. Získáte spoustu záznamů, které říkají totéž, jen různými způsoby. Automatické vyhledání a odstranění takové redundance, dodává, může pomoci technikům strávit méně času tříděním možností. Software by se také mohl časem stát jádrem pokročilého systému pro překlad dokumentů do různých jazyků – což je úkol zvláště sužovaný nejednoznačností ( viz Překladatelská výzva ).

Než však počítač porozumí nebo přeloží uložené informace vyjádřené v přirozeném jazyce, musí je najít. To je s rozšiřováním digitálního vesmíru stále obtížnější – a proto IBM sleduje ambiciózní projekt využití zpracování v přirozeném jazyce při správě nestrukturovaných informací, množství digitálního textu, obrázků, videa a zvuku uloženého v počítačových sítích. Velká část podnikání IBM spočívá na jejím databázovém produktu DB2, ale tradiční databáze může získávat pouze informace, které již byly uspořádány a indexovány. IBM chce firemním uživatelům a spotřebitelům poskytnout okamžitý přístup k neindexovaným datům, která se potácí na milionech pevných disků po celém světě, a efektivně tak rozšířit svou dominanci ve správě strukturovaných dat do oblasti nestrukturovaných informací. Aby toho dosáhla, společnost sleduje iniciativu navrženou ke sloučení různých přístupů ke zpracování jazyků do výkonného softwaru, který dokáže inteligentně vyhledávat, organizovat a překládat všechna tato data. Projekt nazvaný Unstructured Information Management Architecture by mohl nastartovat podnikání společnosti až do doby internetu. Jak jdou sázky na výzkum, jsou to velké sázky, říká Alfred Spector, senior viceprezident divize.

Překladatelský software a další produkty využívající novou architekturu jsou stále ve fázi prototypu. Ale nakonec, říká David Ferrucci, hlavní softwarový architekt projektu, architektura pomůže IBM vybudovat systémy, které získávají nejnovější informace, které uživatel chce, z jakéhokoli digitálního zdroje, v jakémkoli jazyce, a dodávají je v organizované formě. Podle Giga Information Group v Cambridge, MA již americké společnosti utrácejí 900 milionů dolarů ročně za podnikové informační portály, které pomáhají zaměstnancům najít záznamy, které potřebují, a příležitosti pro IBM a další společnosti vyvíjející software pro správu nestrukturovaných informací se budou jen znásobovat. že se informace hromadí. Nyní existuje jasný obchodní důvod pro práci s nestrukturovanými daty, uzavírá Spector.

Pokud snaha vyrovnat se s nejednoznačností, nestrukturovanými informacemi a dalšími složitostmi jazyka bude úspěšná, možná se nakonec přestaneme chovat k počítačům jako k batolatům a zjednodušíme vše, co říkáme, aby odpovídalo jejich nezralému chápání světa. Až ten den přijde a mohl by nastat brzy, spotřebitelé mohou očekávat, že na každém kroku najdou automatizovaná hlasová rozhraní, která jim umožní používat jednoduchou angličtinu (nebo francouzštinu či čínštinu) k interakci se vším od webových archivů po spotřebiče a automobily.

A to by bylo opravdu o čem mluvit.

Jazykové zpracování Babel SPOLEČNOST TECHNIKA UMÍSTĚNÍ AT&T Automatické rozpoznávání řeči; přirozeně znějící syntéza řeči
New York, NY Škádlení Automatická klasifikace a odezva e-mailu San Francisco, CA a Jeruzalém, Izrael IBM Automatické rozpoznávání řeči;
překlad; standardní architektury pro správu nestrukturovaných informací Armonk, NY Intel Audiovizuální rozpoznávání řeči Santa Clara, CA Inxight Software pro objevování, zkoumání a kategorizaci textových dat v podnikových sítích Sunnyvale, CA Technologie iPhrase Vyhledávání textu v přirozeném jazyce na firemních webových stránkách Cambridge, MA Microsoft Kontrola gramatiky; dotazovací rozhraní; překlad Redmond, WA Nuance Communications Interaktivní systémy hlasové odezvy pro telefonickou zákaznickou službu Menlo Park, CA Výzkumné centrum Palo Alto Vylepšené algoritmy pro extrakci významu z psaného textu Palo Alto, CA SpeechWorks Interaktivní systémy hlasové odezvy pro telefonickou zákaznickou službu Boston, MA StreamSage Vyhledávání a indexování video a audio materiálu v přirozeném jazyce Washington, DC

skrýt