Superpočítač zpracovává Twitter v reálném čase

Určení nejvlivnějších uživatelů Twitteru pravděpodobně není to, co tvůrci Twitteru Cray XMT superpočítač měli na mysli, když navrhovali svůj stroj. Ale když zabalíte tolik výpočetního tepla, jdete tam, kde jsou těžké problémy. Twitter, Facebook a zbytek sociální sítě se staly moderním ekvivalentem vodního chladiče, i když s automatickým přepisovačem. A zpracování všech dat, která konverzace generuje, se ukazuje jako velmi obtížný problém.





S laskavým svolením superpočítače Cray XMT Cray

Například v únoru 2010 Facebook zahrnoval 400 milionů aktivních uživatelů s průměrně 120 přáteli, z nichž všichni společně sdíleli 5 miliard informací za jediný měsíc.

Zjistit, kdo jsou influenceři v tak masivních sociálních sítích, vyžaduje vytvoření gigantického sociálního grafu, kde každý uživatel je vrchol a spojení mezi nimi jsou čáry. Hodnocení uživatelů v takovém grafu vyžaduje určení jejich centrální polohy. To znamená, kolik dalších lidí je k nim připojeno a kolik lidí je k nim připojeno a tak dále, dokud se nedostanete ke kmeni stromové struktury, která je základem propojenosti na službě, jako je Twitter.



Ukazuje se, že toto není ten druh problému, který snadno řeší i obvyklé pracovní stanice vědeckého světa superpočítačů – superpočítače poháněné GPGPU, které využívají grafické čipy obvykle používané k vykreslování svěžích 3D prostředí ve videohrách. Tyto pracovní stanice GPGPU jednoduše neumožňují dostatečnou kontrolu nad tím, kolik procesů běží paralelně, aby bylo možné efektivně procházet sociálními grafy tak velkými, jako je ten, který představuje Twitter nebo Facebook.

To je důvod, proč David Ediger z Georgia Tech, s pomocí dlouhého seznamu spolupracovníků se obrátil na 128-CPU Cray XMT umístěný v Pacific Northwest National Laboratory. XMT je oblíbený u superpočítačových hotrodderů a uber-geeků, kteří oceňují jeho jemnozrnnou, masivně vícevláknovou laditelnost. Tento stroj se obvykle používá pro řešení problémů, jako je hierarchické bayesovské modelování pro analýzu textu nebo analyzovat stabilitu americké energetické sítě , ale Ediger se snažil přemýšlet nad každou zbloudilou myšlenkou za jediný den Twitter hasičská hadice .

The Cray zkrátil Twitter a zlikvidoval spojení za celý den za méně než hodinu. Výsledky nikoho nepřekvapí – na Twitteru je malý zlomek zdrojů široce retweetován, většinou vládní a média, zatímco zbytek služby jsou buď lidé mluvící v malých skupinách, nebo doslova mluví sami se sebou.

Jde však o to, že hodit do Twitteru jemně vyladěný Cray, na kterém běží Edigerův vlastní software – GraphCT – umožnilo výzkumníkům strávit službu v něčem jako v reálném čase. Což je přesně ten druh schopností, které by zpravodajské agentury, marketéři a možná i samotný Twitter možná chtěli mít.

Sledujte Mims na Twitteru nebo kontaktujte ho e-mailem .

skrýt