211service.com
Deep Learning Machine řeší problém Cocktail Party
Efekt koktejlové párty je schopnost soustředit se na konkrétní lidský hlas a zároveň odfiltrovat jiné hlasy nebo hluk v pozadí. Snadnost, s jakou lidé tento trik provádějí, popírá problém, kterému vědci a inženýři čelili při jeho syntetické reprodukci. Celkově vzato, lidé snadno překonávají nejlepší automatizované metody pro rozdělování hlasů.

Obzvláště náročný problém na koktejlové párty je v oblasti hudby, kde se lidé mohou snadno soustředit na zpěvný hlas překrývající se s hudebním pozadím, které zahrnuje širokou škálu nástrojů. Pro srovnání, stroje jsou v tomto úkolu špatné.
Dnes to vypadá, že se to mění díky práci Andrewa Simpsona a kamarádů z University of Surrey ve Spojeném království Tito lidé použili některé z nejnovějších pokroků spojených s hlubokými neuronovými sítěmi k oddělení lidských hlasů od pozadí v širokém rozsahu. písní.
Jejich přístup ukazuje obrovský pokrok, kterého bylo v posledních letech dosaženo v oblasti strojového učení a neuronových sítí. A otevírá cestu k obecnějšímu řešení slavného problému koktejlových večírků, které by mimo jiné mělo umožnit snadné oddělení vokálů od hudby, kterou doprovázejí.
Metoda, kterou tito lidé používají, je poměrně přímočará. Začínají databází 63 písní, které jsou k dispozici jako sada jednotlivých skladeb, z nichž každá obsahuje jiný nástroj nebo hlas, a také plně mixovaná verze písně.
Simpson a spol rozdělili každou skladbu na 20sekundové segmenty a pro každý vytvořili spektrogram, který ukazuje, jak se frekvence ve zvuku mění v průběhu času. Výsledkem je jakýsi jedinečný otisk prstu, který identifikuje nástroj nebo hlas.
Vytvářejí také spektrogram plně smíchané verze písně. Toto jsou v podstatě všechny spektrogramy složek sečtené dohromady.
Úkol vybrat hlas z této směsi je v podstatě úkolem oddělit jedinečný spektrogram hlasu od ostatních přítomných spektrogramů.
Simpson a spolupracovníci vycvičili svou hlubokou konvoluční neuronovou síť přesně k tomu. 50 z těchto písní použili k trénování sítě, zatímco zbývajících 13 si ponechali k testování. Celkem to vygenerovalo více než 20 000 spektrogramů pro účely školení.
Úkol pro neuronovou síť byl jednoduchý. Jako vstup mu dali plně smíšený spektrogram a očekávali, že jako výstup vytvoří v podstatě vokální spektrogram.
Úkolem tohoto druhu strojového učení je optimalizace parametrů. Jejich hluboká neuronová síť má miliardu parametrů, které je třeba vyladit tak, aby produkovaly požadovaný výstup.
Tento proces optimalizace – neboli učení – probíhá iterací. Síť tedy začíná s těmito náhodně nastavenými parametry a následně je postupně vylepšuje při každém prohledávání databáze, což provedla přes sto iterací.
Poté, co našli dobré nastavení pro síť, dali Simpson a spol. 13 písní, které předtím neviděli, aby otestovali, jak dobře dokáže oddělit vokály od mixu.
Výstupy se ukázaly být působivé. Tyto výsledky ukazují, že přístup konvoluční hluboké neuronové sítě je schopen zobecnit separaci hlasu, naučenou v hudebním kontextu, na nové hudební kontexty, tvrdí tým.
Simpson a spol. dokonce porovnali své výsledky s výsledky konvenčního algoritmu koktejlové párty aplikovaného na stejná data. Hlavní výhoda hluboké neuronové sítě se zdá být v jejím obecném učení o tom, co jsou „vokální“ zvuky, říkají.
Jinými slovy, poté, co se hluboká neuronová síť naučila, jak hlas zní, může tyto informace použít k výběru dalších hlasů ze směsi. Ale jak dobrý je tento přístup ve srovnání s lidským výkonem, neříkají.
Jednou okamžitou aplikací je produkce hudebních skladeb mínus vokály pro karaoke stroje. To je jasně… ehm… důležitý cíl, ale má to i širší důsledky.
Hluboké neuronové sítě znamenají revoluci ve strojovém učení v celé řadě oblastí. Až donedávna měli lidé jasnou převahu v úkolech rozpoznávání vzorů, jako je rozpoznávání obličeje a rozpoznávání objektů. Tento náskok byl značně snížen a v některých případech zcela ztracen.
Nyní mašiny dohánějí v oblasti problémů koktejlových večírků a jen blázen by vsadil na to, že v nepříliš vzdálené budoucnosti budou triumfovat.
Ref: arxiv.org/abs/1504.04658 : Deep Karaoke: Extrahování vokálů z hudebních mixů pomocí konvoluční hluboké neuronové sítě