Google a Akamai: Kult tajemství vs. Království otevřenosti

Tomuto číslu byste nikdy neměli věřit, řekl Martin Farach-Colton, profesor informatiky na Rutgers University, před více než rokem. Lidé si z toho dělají velkou hlavu a není to pravda.





Farach-Colton měl veřejnou přednášku o svém dvouletém sabatickém působení ve společnosti Google. Číslo, které znevažoval, bylo uprostřed jeho powerpointového snímku:
  • 150 milionů dotazů/den

Další snímek měl několik dalších čísel:

  • 1 000 dotazů/s (špička)
  • 10 000+ serverů
  • Více než 4 tera-ops/s v denní špičce
  • Index: 3 miliardy webových stránek
  • celkem 4 miliardy dokumentů
  • 4+ petabajtové diskové úložiště

Několik lidí v publiku se začalo chichotat: čísla Google se nesčítala.

Sám jsem začal s čísly. Podívejme se: 4 tera-ops/s znamenají 4 000 miliard operací za sekundu; špičkový server může provést možná dvě miliardy operací za sekundu, takže to znamená možná 2 000 serverů, nikoli 10 000. Čtyři petabajty jsou 4x1015 bajtů úložiště; rozšiřte to na více než 10 000 serverů a měli byste 400 gigabajtů na server, což se opět zdá špatné, protože Farach-Colton dříve řekl, že Google do každého serveru vkládá dva 80gigabajtové pevné disky.



A pak je tu problém 150 milionů dotazů denně. Pokud systém zpracovává špičkové zatížení 1 000 dotazů za sekundu, znamená to maximální rychlost 86,4 milionů dotazů za den – nebo možná 40 milionů dotazů za den, pokud předpokládáte, že systém tráví na špičkové kapacitě jen polovinu času. Bez ohledu na to, jak natočíte matematiku, statistiky Google nejsou konzistentní.

Všechna tato čísla jsou šíleně nízká, pokračoval Farach-Colton. Google vždy uvádí mnohem, mnohem nižší čísla, než je pravda.

Kdykoli někdo z Googlu sestaví novou prezentaci, vysvětlil, PR oddělení prověří rozhovor a nabourá čísla. Původně říkal, že snímek s čísly říkal, že 1000 dotazů/s je minimální rychlost, nikoli vrchol. Máme více než 10 000 serverů. To je plus hodně.



Stejně jako se vyhledávač Google vrací okamžitě a zdánlivě bez námahy s odpovědí na jakýkoli dotaz, který na něj zadáte, a skryje tak před uživateli skutečnou obtížnost úkolu, společnost také chce, aby její konkurenti nevěděli o obtížnosti problému. Koneckonců, kdyby Google zveřejnil, kolik stránek zaindexoval a kolik počítačů má ve svých datových centrech po celém světě, konkurenti ve vyhledávání jako Yahoo!, Teoma a Mooter by věděli, kolik kapitálu museli získat, aby měli naděje na vysídlení krále na vrcholu kopce.

Google měl občas problém udržet svůj příběh přímočarý. Když viceprezident inženýrství Urs Hoelzle v listopadu 2002 přednášel o linuxových clusterech Google na Washingtonské univerzitě, zopakoval toto číslo 1 000 dotazů za sekundu – ale řekl, že měření bylo provedeno ve 2:00 ráno 25. prosince. , 2001. Jeho pointa, zřejmá všem v místnosti, je, že dokonce i v listopadu 2002 dělal Google mnohem více než 1 000 dotazů za sekundu – o kolik více však mohl někdo hádat.

Fakta mohou prosakovat ven. Minulý den díkůvzdání New York Times uvedl, že Google překonal hranici 100 000 serverů. Pokud je to pravda, znamená to, že Google provozuje možná největší síť počítačů na planetě. Prostý fakt, že dokážou postavit a provozovat datová centra takové velikosti, je ohromující, říká Peter Christy, spoluzakladatel NetsEdge Research Group, firmy zabývající se průzkumem trhu a strategií v Silicon Valley. Christy, která v oboru pracuje více než 30 let, je ohromena rozsahem systémů Google a schopností společnosti je provozovat. Nemyslím si, že je někdo blízký.



Právě tato schopnost vytvářet a provozovat neuvěřitelně husté klastry je stejně jako cokoli jiného tajemstvím úspěchu společnosti Google. A důvod, vysvětluje Marissa Mayer, ředitelka spotřebitelských webových produktů společnosti, souvisí se způsobem, jakým Google začínal na Stanfordu.

Místo toho, aby získali několik rychlých počítačů a provozovali je na maximum, vysvětlil Mayer na náborové akci na MIT, že si zakladatelé Sergey Brin a Larry Page museli vystačit s hand-me-downs ze Stanfordova oddělení informatiky. Chodili do nakládacího doku, aby se podívali, kdo dostává nové počítače, a pak se zeptali, jestli by nemohli mít staré, zastaralé stroje, které ty nové nahrazovaly. Brin a Page tak byli od samého začátku nuceni vyvinout distribuované algoritmy, které běžely na síti nepříliš spolehlivých strojů.

Dnes je tato filozofie zabudována do DNA společnosti. Google nakupuje nejlevnější počítače, které najde, a cpe je do stojanů a stojanů ve svých šesti (nebo více) datových centrech. Počítače jsou přiměřeně spolehlivé, ale pokud jich máte tisíc, jeden selže každý den, řekl Hoelzle. Takže pokud si můžete koupit jen 10 procent navíc, je to stále levnější než nákup spolehlivějšího stroje.



Jeden inženýr mi nedávno řekl, že práce ve společnosti Google je tím nejbližším, co se můžete dostat k tomu, abyste měli k dispozici neomezené množství výpočetního výkonu.

Království otevřenosti

Existuje další společnost, která zdokonalila umění provozovat obrovské množství počítačů s poměrně malým počtem zaměstnanců. Tou společností je Akamai.

Akamai nyní není běžné slovo, ale dostalo se na přední stránky, když společnost v listopadu 1999 vstoupila na burzu s tím, co bylo v té době čtvrtou nejúspěšnější primární veřejnou nabídkou v historii. Akcie společnosti Akamai prudce vzrostly a ze svých zakladatelů udělaly miliardáře. V následujících letech však Akamai propadly těžké časy. Nebyla to jen havárie dot-com, která způsobila významné propouštění a opuštění kalifornských kanceláří společnosti: spoluzakladatel společnosti Akamai a technický ředitel Danny Lewin byl 11. září na palubě letu American Airlines Flight 11 a byl zabit, když letadlo vletělo do Světové obchodní centrum. Morálka společnosti byla zničená.

Síť Akamai funguje na stejné škále složitosti jako síť Google. Přestože má Akamai pouze 14 000 strojů, tyto servery jsou umístěny na 2 500 různých místech po celém světě. Servery používají společnosti jako CNN a Microsoft k doručování webových stránek. Stejně jako dnes servery Google používá prakticky každý na internetu, tak i servery Akamai.

Kvůli jejich rozsahu musely Akamai i Google vyvinout nástroje a techniky pro správu těchto strojů, ladění problémů s výkonem a řešení chyb. Toto není software, který by si společnost mohla koupit z regálu – vyžadují pracný vlastní vývoj. Je to ve skutečnosti software, který je jednou z klíčových konkurenčních výhod Akamai.

Ano, několik dalších organizací také provozuje velké shluky počítačů. Jak Ames Research Center NASA, tak Virginia Tech mají velké klastry věnované vědeckým výpočtům. Mezi těmito systémy a clustery, které Google i Akamai vytvořily, jsou ale klíčové rozdíly. Vědecké systémy jsou umístěny na jediném místě a nejsou rozmístěny po celém světě. Obecně nejsou přímo vystaveni internetu. A možná nejdůležitější je, že vědecké systémy neposkytují každý den komoditní služby stovkám milionů uživatelů internetu: Google a Akamai musí zajistit 100% dostupnost. Je snadné jít ven a koupit 10 000 počítačů – vše, co potřebujete, je hotovost. Je mnohem těžší zajistit, aby všechny tyto počítače fungovaly společně jako jediná služba, která podporuje miliony současných uživatelů.

Abychom byli spravedliví, existují důležité rozdíly mezi Googlem a Akamai – rozdíly, které zaručují, že Google v dohledné době nevnikne do podnikání Akamai, ani se Akamai přesune do společnosti Google. Obě společnosti vyvinuly infrastrukturu pro provoz masivně paralelních systémů, ale aplikace, které na těchto systémech provozují, se liší. Primární aplikací Google je vyhledávač. Naproti tomu Akamai vyvinul systém pro doručování webových stránek, streamovacích médií a řady dalších standardních internetových protokolů.

Dalším důležitým rozdílem, říká Christy, je to, že Akamai má velmi těžké vytvořit jasný obchodní model, který funguje, zatímco Google byl neuvěřitelně úspěšný. Akamai tak začal hledat nové způsoby, jak prodávat služby, které může poskytnout pouze masivní distribuovaná síť. V boji o ziskovost společnost agresivně hledala nové příležitosti pro svou technologii. To může být důvod, proč Akamai, na rozdíl od Googlu, byl ochoten nechat se pro tento článek vyzpovídat.

Začali jsme se základními předměty pro doručování bitů, fotografiemi, bannery, reklamami, říká Tom Leighton, hlavní vědec společnosti Akamai. Děláme to lokálně. Pospěš si. Ať je to spolehlivé. Vylepšete weby.

Akamai nyní vyvíjí techniky, které zákazníkům umožní spouštět jejich aplikace přímo na distribuovaných serverech společnosti. Leighton říká, že to udělalo 25 největších zákazníků Akamai. Systém si poradí s náhlými rázy, takže je ideální pro případy, kdy není možné předvídat poptávku.

Například, říká Leighton, síť Akamai byla použita k vyřízení soutěže o dárky za klávesnice sponzorované společností Logitech. Logitech si myslel, že by soutěž mohla být populární, a proto vytvořil propracovanou sérii pravidel, která zaručují, že do každého státu a v daném časovém období bude rozdáno pouze tolik klávesnic. Logitech však hrubě podcenil, kolik lidí se do soutěže přihlásí. V minulosti takové podceňování způsobilo pád vysoce medializovaných internetových událostí, jako je webcast Victoria’s Secret, což frustrovalo miliony uživatelů webu a uvedlo společnost do rozpaků. Ale tentokrát ne: soutěž Logitechu probíhala v síti Akamai bez problémů.

Logitech se samozřejmě mohl pokusit sestavit systém sám. Mohla navrhnout a otestovat server schopný obsloužit 100 současných uživatelů. Ten server může stát 5000 $. Logitech pak mohl koupit 20 těchto serverů za 100 000 dolarů a umístit je do datového centra. Jedno datové centrum by však mohlo být přetížené, takže by mohlo být smysluplnější umístit 10 z nich do jednoho datového centra na východním pobřeží a 10 do jiného datového centra na západním pobřeží. Přesto tento systém dokázal zvládnout pouze 2 000 současných uživatelů: možná by bylo lepší koupit 100 serverů za celkovou cenu 500 000 USD a umístit je do 10 různých datových center. Ale i kdyby to udělali, inženýři ze společnosti Logitech by neměli žádný způsob, jak zjistit, zda by systém skutečně fungoval, když byl testován – a investovali by obrovské množství peněz do konstrukce, která by byly potřeba po události.

A soutěže nejsou jedinou věcí, která může běžet na síti Akamai. Na firemní infrastruktuře může běžet prakticky jakýkoli program napsaný v programovacím jazyce Java. Systém zvládne žádosti o hypotéky, katalogy a elektronické nákupní košíky. Akamai dokonce provozuje backend pro hudební službu Apple iTunes za 99 centů.

Možná proto, že Akamai je tak hrdý na systém, který vybudoval, je společnost velmi otevřená ohledně technických detailů sítě. Její síťové operační centrum v Cambridge, MA, má prosklenou stěnu, která návštěvníkům umožňuje vidět velkou obrazovku se statistikami. Když jsem v lednu navštívil společnost, obrazovka říkala, že Akamai obsluhuje 591 763 přístupů za sekundu, 14 372 CPU online, 14 563 gigahertzů celkového výpočetního výkonu a 650 terabajtů celkového úložiště. 14. dubna toto číslo vyskočilo na maximální rychlost 900 000 přístupů za sekundu a 43,71 miliardy požadavků doručených za 24 hodin. (Akamai by počet CPU nezveřejnila online, protože toto číslo je součástí její čtvrtletní zprávy o výdělcích, která má být zveřejněna 28. dubna. Ale moc se nezměnilo, řekl mi mluvčí společnosti.)

Pošta a měřítko

Do budoucna je několik obchodních příležitostí zjevně přitažlivých pro Google i Akamai. Obě společnosti by například mohly využít své zkušenosti s budováním rozsáhlých distribuovaných clusterů k vytvoření masivního zálohovacího systému pro malé podniky a domácí uživatele PC. Nebo by mohli převzít správu domácích počítačů a přeměnit je v chytré terminály s aplikacemi na vzdálených serverech. To by uživatelům PC umožnilo uniknout dřině se správou vlastních strojů, instalací nových aplikací a udržováním aktuálních antivirových programů.

A pak je tu e-mail. Již 1. dubna Google oznámil, že se chystá vstoupit do spotřebitelského e-mailového byznysu s neortodoxní tiskovou zprávou: Vyhledávání je číslo dvě online aktivity – e-mail je číslo jedna: „Sakra, jo,“ Say Google Founders.

Od té doby získal Google značnou publicitu kvůli oznámenému designu své nabídky Gmail (Google Mail). Bezplatná služba spotřebitelům slibuje jeden gigabajt úložiště pošty (více než stonásobek úložiště nabízeného jinými poskytovateli webové pošty), ohromující prohledávání archivů pošty a slib, že spotřebitelé už nikdy nebudou muset mazat e-mailovou zprávu. Zpočátku si mnoho lidí myslelo, že oznámení je aprílový žert – gigabajt na uživatele se prostě zdál jako příliš velký úložný prostor. Ale protože drtivá většina uživatelů nebude využívat tolik úložiště, slib Google skutečně říká, že Google může nakupovat nové pevné disky rychleji, než je uživatelé internetu zaplní. [ Poznámka redakce: Návrh společnosti Google financovat Gmail zobrazováním reklam na základě obsahu e-mailů uživatelů se setkal s značnou kritikou od různých aktivistů v oblasti ochrany soukromí. Začátkem tohoto měsíce několik aktivistů v oblasti ochrany osobních údajů rozeslalo dopis, v němž požádali Google, aby nespouštěl Gmail, dokud nebudou tyto problémy s ochranou soukromí vyřešeny. Simson Garfinkel podepsal tento dopis jako podporovatel poté, co byl tento článek napsán, ale před jeho zveřejněním.]

Infrastruktura společnosti Google se zdá být vhodná pro nasazení služby, jako je Gmail. Loni v létě Google zveřejnil technický dokument nazvaný The Google File System (GFS), což je zjevně základní technologie vyvinutá společností Google pro umožnění vysokorychlostní replikace a přístupu k datům v rámci jejích clusterů. S GFS lze e-mail každého uživatele replikovat mezi několika různými clustery Google; když se uživatelé přihlásí do Gmailu, jejich webový prohlížeč mohl být automaticky přesměrován na nejbližší cluster, který měl kopii jejich zpráv.

Tuto technologii je těžké získat správně – a přesně ten druh systému, který Akamai vyvíjel posledních šest let. Ve skutečnosti neexistuje v zásadě žádný důvod, proč by Akamai nemohl nasadit podobný rozsáhlý e-mailový systém poměrně snadno na své vlastní servery. Žádný důvod, tedy kromě filozofie společnosti.

Leighton si nemyslí, že by se Akamai přesunula do jakéhokoli podnikání, které by vyžadovalo, aby společnost jednala přímo s koncovými uživateli. Pravděpodobnější je, že Akamai by poskytl infrastrukturu nějaké jiné společnosti, která by byla schopna provádět fakturaci, zákaznickou podporu a marketing pro koncové uživatele. Naším zaměřením je prodej do podniku, říká.

George Hamilton, analytik Yankee Group, který se zabývá podnikovými počítači a sítěmi, souhlasí. Hamilton nazývá myšlenku soutěžení Google s Akamai přitaženou za vlasy. Ale Google by mohl najmout Akamai, aby doplnil technologické potřeby Google, říká.

Přesto se takové partnerství zdá nepravděpodobné – alespoň navenek. Google by mohl koupit Akamai, stejně jako společnost koupila Pyra Labs v únoru 2003, aby získala osobní webový publikační systém Pyra Blogger. Ale Akamai se svou kulturou otevřenosti se nezdá být dobrým partnerem tajného Googlu. Dále je tu skutečnost, že 20 procent příjmů Akamai nyní pochází přímo od společnosti Microsoft, podle čtvrtletní zprávy Akamai z listopadu 2003. Soupeření Google s Microsoftem v internetovém vyhledávání (a nyní i v e-mailu) bylo široce komentováno v tisku; je nepravděpodobné, že by společnost chtěla tak úzce spolupracovat s tak blízkým partnerem Microsoftu.

Ted Schadler, viceprezident společnosti Forrester pro výzkum trhu, říká, že je možné si představit, že si tyto dvě společnosti budou konkurovat, protože obě jdou po stejné příležitosti v masivním, distribuovaném počítání. V tomto smyslu mají stejnou vizi. Musí vyvinout spoustu stejné technologie, protože ta neexistuje. Musí se naučit spoustu stejných lekcí a vyvinout spoustu stejných technologií a obchodních modelů.

Schadler říká, že Akamai a Google jsou příklady toho, co nazývá programovatelné internetové obchodní kanály. Tyto kanály jsou společnosti, které nabízejí rozsáhlou infrastrukturu, která může nabídnout vysoce kvalitní služby na internetu stovkám milionů uživatelů pouhým pohybem přepínače. Google a Akamai jsou takové společnosti, ale také Amazon.com, eBay a dokonce i Yahoo!. Všechny jsou to služby, které umožňují služby zakládání obchodních aktivit, které [lze] bezpečně škálovat, říká Schadler.

Kdybych byl sázkař, dodává Schadler, řekl bych, že Google má mnohem větší zájem sloužit zákazníkům a Akamai má větší zájem poskytovat infrastrukturu – jde o maloobchod nebo velkoobchod. Těchto maloobchodně orientovaných služeb bude spousta a spousta.

Pokud by to byla pravda, Google by se mohl náhle ocitnout v konkurenci se společností, která, stejně jako samotný Google, jako by přišla odnikud. Kromě této doby by tato společnost nemusela vymýšlet žádný z triků, jak provozovat samotnou masivní infrastrukturu.

A to vysvětluje, proč je Google tak tajnůstkářský.

skrýt