Proč syntetizovaná řeč zní tak strašně

My máme trikordéry , teleportace a dynamická rozhraní dotykové obrazovky , ale ne nejvšednější předpověď Star Treku a bezpočtu dalších sci-fi franšíz: syntetizovaná řeč podobná lidské.





Ti z vás, kteří od posledního sledování neposlouchali syntetizovanou řeč Stručná historie času , připravte se, že budete zahlceni tím nedostatek pokroku . Zde je Roger Ebert, který používá syntezátor převodu textu na řeč předem naprogramovaný svým vlastním hlasem:

A zde, jen pro informaci, je něco neméně srozumitelného a jen o něco málo robotičtějšího, jen je to náhodou asi 25 let staré a běží na počítači s asi 1/62 000 pamětí:

Pokud je toto stav techniky, je divu, že Zdá se, že autorský cech už to nezajímá že iPad, stejně jako Kindle, umí číst dokument nahlas?



Je pravda, že srovnání Ebertova zařízení pro generování řeči (SGD) s Hawkingovým ukazuje, že nyní máme možnost vytvořit Robby -esque hlas zní něco jako osoba, jejíž hlas má nahradit SGD - dobrý první krok při používání těchto zařízení pro osoby trpící degenerativními chorobami, jako je ALS nebo v Ebertově případě ztráta způsobená rakovinou.

SGD, které zní jako jednotlivec, jsou možné díky tomu, co je známé jako syntéza řeči na základě dat nebo konkatenativní syntéza řeči. Tato technika se používá ve shodě s hlasové bankovnictví , ve kterém uživatel, který ví, že ztratí sílu řeči, ji zaznamenává hodiny předem.

Syntetizovaná versus zřetězená řeč



Na rozdíl od skutečně syntetizované řeči, což je herkulovský úkol, který vyžaduje, aby programátor generoval hlas od nuly pomocí pouze modifikací základních zvuků, syntéza řeči založená na datech čerpá z knihovny hodin přirozené řeči a přehrává její krátké úseky, aby bylo možné sestavit jakoukoli slovo v cílovém jazyce. Je to trochu jako rozdíl mezi starými hudebními syntezátory a samplováním.

Monofony, difony, trifony…

Syntéza řeči založená na datech má řadu problémů. První je, že skládá řeč z difonů – dvojic slovních hlásek. To je poměrně náročné na výpočetní výkon: každé slovo, které SGD vysloví, musí být složeno z více difonů, které musí identifikovat ve své existující databázi.



To znamená tisíce a tisíce difonů, a přesto slova, která mluvíme, nejsou pouhými spojeními dvojic zvuků; Některá slova jsou sbírkou zvuků sama o sobě a dvojhlásky společné dvěma slovům nemusí ve třetím znít správně, což může vyžadovat trifon nebo dokonce něco víc. Je snadné vidět, jak se počet možných kombinací, ze kterých by si SGD musel vybrat, rychle stává neřešitelným problémem, když překročíme jednoduché dvouzvukové jednotky.

Monotónní problém

Dokonce ani ty nejlepší komerčně dostupné systémy zřetězené řeči se ani nepokoušejí překonat problém důrazu. V běžné řeči sdělujeme emoce řadou triků – pauzy, načasování slabik, tón. Dokonce i v laboratoři jsou nejlepší pokusy vložit emoce jako hněv a strach do syntetizované řeči úspěšně zprostředkovat tyto pocity pouze asi 60 % času ( pdf zde ), a čísla jsou pro radost ještě horší.



Stejně jako umělá inteligence, rozpoznávání řeči a počítačové vidění je syntéza řeči další z funkcí, které lidé snadno vykonávají, a kterou jsme dosud považovali za neuvěřitelně obtížné reprodukovat. in silico .

Sledujte Mims na Twitteru nebo kontaktujte ho e-mailem .

skrýt