My jsme slova

Na základě technik genomiky tým výzkumníků vymyslel nástroj, který poskytuje kvantitativní data o tom, jak se kultura v průběhu času mění. Genomický výzkum analyzuje obrovské množství dat, aby studoval, jak geny fungují a mění se; nový nástroj využívá rozsáhlý přístup ke studiu frekvence používání slov v průběhu času.





Tento přístup dává smysl, pokud jsou slova považována za jednotku kultury, říká Erez Lieberman Aiden, jeden z vedoucích projektu. Genom obsahuje dědičné informace, předávané z generace na generaci, říká. Slova, která používáme v knihách, které píšeme, se také předávají z generace na generaci.

Lieberman Aiden a Jean-Baptiste Michel , oba na Harvardu Program pro evoluční dynamiku , vedl projekt, který nazvali kulturomika – portmanteau kombinující kulturu a genomiku. Prvním plodem jejich práce byla mamutí databáze slov v asi 5,2 milionu knih vydaných v letech 1800 až 2000 – tedy zhruba ve čtyřech procentech všech vydaných knih. Ty pocházejí z projektu Google Books, jehož knihovna obsahuje 15 milionů knih.

V dnešním čísle časopisu Věda, výzkumníci představí svůj projekt spolu s některými z prvních výsledků, které z dat odvodili. V souvislosti s publikací Google spouští aplikaci (at www.culturomics.org ), která umožňuje komukoli přistupovat a analyzovat hotovou databázi, která obsahuje 2 miliardy slov a frází.

Vědci tvrdí, že sledováním frekvence používání slov mohou sociální vědci, informatici a matematici pozorovat vznik a vývoj kulturních trendů v průběhu času. Tento nástroj lze použít k vytvoření časových linií kultury, zobrazujících špičky a údolí odpovídající těžkému a omezenému používání konkrétních slov.

Potlačování například zanechává stopu v kulturní historii. Německy psané knihy vydané pod nacistickou cenzurou v letech 1936 až 1944 se stěží zmiňují o některých umělcích a filozofech, jejichž jména byla běžná před tímto obdobím i po něm.

Analýzy také identifikovaly slova, která existovala v publikovaných knihách, ale neměla žádný domov ve slovnících, včetně aridifikace (vysychání regionu) a smazatelných. Tato nepřipoutaná slova nejsou výjimkou: Když výzkumníci sečetli všechna slova v anglickém lexikonu, napočítali jich více než milion – dvojnásobek počtu ve velkých moderních slovnících. (The Oxfordský anglický slovník má například méně než 500 000 záznamů.)

Lieberman Aiden říká, že doufá, že výzkumníci z mnoha oborů najdou nové způsoby, jak data využít. Je to další nástroj, který mají humanisté k dispozici, aby získali vhled a odpověděli na otázky o lidské povaze.

Spolu s Michelem začali na projektu seriózně pracovat v roce 2007. Ne všechny knihy v digitální knihovně Google jsou ve veřejném vlastnictví, takže si výzkumníci museli dávat pozor, aby neporušili autorské právo. V podstatě odstranili slova z kontextu knih – a přitom zachovali nedotčená metadata, jako je datum vydání – a uspořádali slova do obrovské frekvenční tabulky.

Použili filtry, aby byla jejich datová sada co nejpřesnější, a vyřadili například knihy s nesprávným datem vydání nebo knihy, jejichž text byl špatně přepsán softwarem pro optické rozpoznávání znaků. Po filtrování jim zůstalo 5 195 769 knih obsahujících text o délce více než 500 miliard slov. Asi 72 procent z nich jsou anglická slova.

Intenzivní výpočty potřebné k zúžení této datové sady na jednu na základě frekvence každého slova byly distribuovány na více počítačích ve společnosti Google a dokončeny rychle.

Jon Kleinberg , počítačový vědec z Cornell University, říká, že frekvence slov může být mocným kvantitativním nástrojem pro identifikaci trendů v kultuře. Pohled na chování jednotlivých slov může být často silným prvním indikátorem jevu v průběhu času, říká. Naskenované materiály jsou však jen začátek. Jiné digitální texty poskytují bohaté zdroje pro kvantitativní studium kulturních informací. Například analýza hledaných výrazů Google může odhalit, co lidi zajímá. Nebo rozsáhlá studie aktualizací Facebooku může sloužit jako kontrola pulsu v reálném čase u mas.

Vidíme věci, které nebyly nikdy předtím zapsány, říká. Na Twitteru nebo Facebooku miliony lidí říkají ‚Cítím se šťastný‘ nebo ‚Je mi smutno‘. Kde jste do posledních 10 let našli miliony lidí, kteří si zapisují své pocity?

skrýt