Opakujte, prosím, v angličtině

Zatímco kvalita překladů vykreslených na počítači se za posledních 20 let výrazně zlepšila, některé výsledky jsou stále stejně gramaticky praštěné jako pokyny na obalu hůlky. Vezměte si například webovou stránku pro a Japonská jablečná farma který byl převeden do angličtiny pomocí Google automatická překladatelská služba :

Jablečná zahrada Someya to projde velmi! Je vysazena v roce 1954, navíc ještě dnes překračuje věk stromu 50 let prosperující, velká - přicházející strom abnormální hra aligátor jablko je oplodněné. Chutné jablko, kde se teplotní rozdíl dne a noci zpřísnil, aby byl extrémní Gunma prefektura město Numata, které čtyři roční období jsou jasné velké přírody, tvrdé je vytvořen. *

Ano, celkový obraz je vidět, ale algoritmus překladu z japonštiny do angličtiny společnosti Google mnohé ztrácí. Google nabízí svou překladatelskou funkci již řadu let, stejně jako kanadská internetová společnost Babylonská ryba . V poslední době však vývojáři komerčního softwaru začali zkoumat překlady mimo statickou webovou stránku nebo elektronický dokument a aplikují tuto technologii na internetové konverzace prostřednictvím rychlých zpráv v reálném čase. Začátkem tohoto měsíce vydala společnost AvMedia rychlé zasílání zpráv překladatel navržený tak, aby usnadnil chatování s přáteli, kteří mluví německy, španělsky, francouzsky, italsky a portugalsky, pro anglicky mluvící a naopak (francouzština může být také přeložena do němčiny az němčiny do francouzštiny).

Veškerý tento software však stále postrádá dostatečnou přesnost, aby byl užitečný v náročných situacích, jako jsou obchodní jednání nebo vojenské plánování. Je to pravděpodobně proto, že většina komerčního softwaru se řídí tradičním přístupem ke strojovému překladu, říká Kevin Knight, počítačový vědec z University of Southern California. Ústav informačních věd (ISI) a spoluzakladatel kalifornské společnosti Jazyk Weaver .

Tradičně software strojového překladu závisel na algoritmech, které třídí tisíce gramatických pravidel pro dva jazyky, které mají být přeloženy, říká Knight. Problém, vysvětluje, je v tom, že tolik pravidel je třeba psát ručně, stejně jako výjimky z těchto pravidel, a nepřesnost se vkrádá, když si složité sady pravidel vzájemně odporují. Když napíšete 5000. pravidlo, někdy věci porušíte, říká Knight.

S Language Weaverem a jeho výzkumem na USC, Knight, stejně jako několik dalších výzkumníků po celém světě, přistupuje k problému jinak. Namísto dodržování rigidních gramatických pravidel, Language Weaver páruje správná slova a fráze napříč jazyky na základě pravděpodobnosti, že taková slova a fráze jsou v daném kontextu správné.

Tento statistický přístup čerpá z velkého množství příkladů z již přeložených dokumentů, říká Michael Collins, počítačový inženýr na MIT, který stejnou metodu používá pro softwarovou aplikaci, kterou vytváří, k provádění překladů z němčiny do angličtiny. Společnost IBM byla průkopníkem tohoto přístupu v 90. letech 20. století, říká, částečně díky využití obrovské databáze kanadských parlamentních sborníků publikovaných ve francouzské i anglické verzi.

Statistická rozmanitost strojového překladu nejenže přináší lepší výsledky než tradiční metoda, říká Knight, ale také software je navržen tak, aby se i nadále zlepšoval sám o sobě. Čím více přeložených dokumentů software narazí, tím je pravděpodobnější, že bude správně odpovídat frázím. Před několika lety jsme pro naši čínštinu a arabštinu mohli získat pouze základní téma toho, o čem byl článek, říká Knight. Nyní je usnesení na úrovni věty. [Pokračování na další straně]

-

* Oprava, 18. ledna 2006, 10:00 EST: V původní verzi tohoto příběhu jsme citovali následující překlad webových stránek Someya Apple Farm: Jablečný sad s velkými stromy staršími než 50 let. Přírodní prostředí kolem Numaty s obrovským teplotním rozdílem mezi dnem a nocí vytváří jedinečné lahodné jablko. Ve skutečnosti se jednalo o výňatek z překladu vlastní anglické verze webových stránek jablečné farmy od Googlu, nikoli z překladu původní japonské stránky od Googlu. Nešlo tedy o platný příklad špatné kvality některých algoritmů strojového překladu. V příběhu jsme nyní nahradili překlad původního japonského webu od Googlu. Děkujeme našim čtenářům za upozornění na chybu. - Eds.

Americká Agentura pro pokročilé výzkumné projekty obrany (DARPA) je jedním z hlavních sponzorů statistického strojového překladu. Loni v srpnu sponzorovala DARPA testy strojového překladu čínských a arabských dokumentů; výzkumná skupina z Google dosáhla nejvyššího skóre, když vytlačila USC’s Information Sciences Institute a IBM’s strojový překlad. Google, který také používá statistický přístup, mohl mít výhodu, poznamenává Knight, protože mohl používat obrovské množství počítačů pro lámání slov a mohl čerpat z celého internetu pro svou databázi předpřeložených dokumentů.

V roce 2005 DARPA rovněž oznámila program Global Autonomous Language Exploitation (GALE), jehož cílem je urychlit počítačové zpracování velkého množství přeložených dokumentů získaných jejím mateřským programem, filadelfským Lingvistické datové konsorcium .** GALE je v současné době prvním rokem a bude přepisovat řeč z vysílaných zpravodajských zdrojů a talk show v arabštině, čínštině a angličtině a také katalogizovat textové newswire zdroje, webové diskusní skupiny a blogy v těchto jazycích. Prozatím je projekt zaměřen hlavně na sběr dat z těchto žánrů, přičemž velkou část práce odvádějí výzkumníci z oddělení počítačových a inženýrských věd na Pensylvánské univerzitě.

Ale i přes velkou sbírku přeloženého materiálu budou stále existovat jazykové problémy, které je třeba vyřešit. Dalším krokem ve výzkumu strojového překladu, kromě shody slov a frází, je podle Knighta vyhlazení gramatických nesrovnalostí, které vznikají, když jsou slova a fráze spojeny dohromady. Tohoto vyhlazení lze dosáhnout indexováním milionů vět, jejichž struktury byly nakresleny na Pensylvánské univerzitě v 90. letech (data pocházejí z 50 000 vět v Wall Street Journal ). Podobně jako databáze plná slov a frází umožňuje překladatelskému softwaru vybrat statisticky nejpravděpodobnější kombinaci slov, tyto konkrétní příklady gramatiky z vět v diagramu pomáhají softwaru určit pravděpodobnost slovosledu, říká Collins z MIT.

To je pokrok oproti tradiční metodě, ve které byla gramatická pravidla nastavena v algoritmu, říká. Namísto dodržování zakódovaných gramatických konvencí v algoritmu, jako je tomu u tradičního strojového překladu, umožňuje databáze s diagramovými větami softwaru přiřadit pravděpodobnosti a váhu těchto pravidel, říká Collins. [Software] se s větší pravděpodobností naučí kontext, říká.

V některých ohledech však bude statistický přístup jen tak dobrý jako běžný překladač rychlých zpráv. Vlastní jména, například, stále zakopnou i toho nejčtenějšího strojového překladatele a často jsou prostě přeložena spolu se zbytkem textu. Podle jeho systému, Knight přiznává, je španělská verze jeho příjmení stále Kevin Caballero.

** Oprava, 20. ledna 2006: Původní verze tohoto příběhu, publikovaná 18. ledna, uváděla, že Linguistic Data Consortium bylo spuštěno v roce 2005. Ve skutečnosti bylo konsorcium spuštěno v roce 1992 a byl spuštěn jeho projekt Global Autonomous Language Exploitation v roce 2005. – Eds.

skrýt