211service.com
IBM staví největší datový disk všech dob
Výzkumníci z výzkumné laboratoře IBM Almaden v Kalifornii staví datové úložiště téměř 10krát větší než kterékoli dříve vyrobené. Disk o velikosti 120 petabajtů – tedy 120 milionů gigabajtů – se skládá z 200 000 běžných pevných disků, které spolupracují. Očekává se, že obří datový kontejner pojme přibližně jeden bilion souborů a měl by poskytnout prostor potřebný pro výkonnější simulace komplexních systémů, jako jsou ty, které se používají k modelování počasí a klimatu.
120 petabajtový disk pojme 24 miliard typických pětimegabajtových MP3 souborů nebo pohodlně spolyká 60 kopií největší zálohy webu, 150 miliard stránek, které tvoří Internetový archiv. WayBack Machine .
Skupina úložiště dat na IBM Almaden vyvíjí rekordní úložný systém pro nejmenovaného klienta, který potřebuje nový superpočítač pro podrobné simulace jevů v reálném světě. Nové technologie vyvinuté pro vybudování tak velkého úložiště by však mohly umožnit podobné systémy pro konvenčnější komerční výpočty, říká Bruce Hillsberg , ředitel výzkumu úložiště v IBM a vedoucí projektu.
Tento 120 petabajtový systém je nyní na šíleném okraji, ale za pár let se může stát, že všechny systémy cloud computingu budou podobné, říká Hillsberg. Pouhé sledování názvů, typů a dalších atributů souborů uložených v systému spotřebuje přibližně dva petabajty jeho kapacity.
Steve Conway, viceprezident výzkumu analytické firmy IDC, který se specializuje na vysoce výkonné výpočty (HPC), říká, že úložiště IBM je výrazně větší než předchozí úložné systémy. Úložné pole o velikosti 120 petabye by bylo snadno největší, s jakým jsem se setkal, říká. Největší dostupná pole mají dnes velikost asi 15 petabajtů. Problémy se superpočítači, které by mohly těžit z většího úložiště dat, zahrnují předpovědi počasí, seismické zpracování v ropném průmyslu a molekulární studie genomů nebo proteinů, říká Conway.
Inženýři IBM vyvinuli řadu nových hardwarových a softwarových technik, které umožňují tak velký nárůst kapacity úložiště dat. Najít způsob, jak efektivně zkombinovat tisíce pevných disků, ze kterých je systém postaven, byla jedna výzva. Stejně jako ve většině datových center jsou disky umístěny v horizontálních zásuvkách naskládaných uvnitř vysokých stojanů. Přesto je výzkumníci IBM museli udělat podstatně širší než obvykle, aby se na menší plochu vešlo více disků. Disky musí být chlazeny cirkulující vodou spíše než standardními ventilátory.
Nevyhnutelné poruchy, které se pravidelně vyskytují u tak velké sbírky disků, představují další velkou výzvu, říká Hillsberg. IBM používá standardní taktiku ukládání více kopií dat na různé disky, ale využívá nová vylepšení, která umožňují superpočítači pracovat téměř plnou rychlostí, i když se disk porouchá.
Když osamělý disk zemře, systém stáhne data z jiných jednotek a pomalu je zapíše na náhradní disk, takže superpočítač může pokračovat v práci. Pokud se mezi blízkými jednotkami vyskytne více poruch, proces přestavby se urychlí, aby se předešlo možnosti, že dojde k další chybě a některá data se trvale vymažou. Hillsberg říká, že výsledkem je systém, který by po milion let neměl ztratit žádná data, aniž by dělal jakékoli kompromisy ve výkonu.
Nový systém také těží ze souborového systému známého jako GPFS, který byl vyvinut v IBM Almaden, aby umožnil superpočítačům rychlejší přístup k datům. Šíří jednotlivé soubory na více disků, takže mnoho částí souboru lze číst nebo zapisovat současně. GPFS také umožňuje velkému systému sledovat množství jeho souborů bez pracného prohledávání každého z nich. Minulý měsíc tým IBM použil GPFS k indexování 10 miliard souborů za 43 minut, čímž bez námahy překonal předchozí rekord jedné miliardy souborů naskenovaných za tři hodiny.
Softwarová vylepšení, jako jsou ta, která jsou vyvíjena pro GPFS a obnovu disku, jsou zásadní pro umožnění takových obřích datových jednotek, říká Hillsberg, protože aby byly praktické, musí být nejen větší, ale také rychlejší. Pevné disky se nestávají rychlejšími ani spolehlivějšími v poměru k požadavkům na větší úložiště, takže rozdíl musí vyrovnat software.
Conway z IDC souhlasí s tím, že rychlejší přístup k větším systémům pro ukládání dat se pro superpočítače stává zásadním – i když superpočítače jsou nejčastěji veřejně srovnávány na základě rychlosti jejich procesorů, jako je tomu v případě celosvětového seznamu TOP500, který se používá k určení mezinárodních práv na vychloubání. Velké jednotky se stávají důležitými, protože simulace jsou stále větší a mnoho problémů se řeší pomocí takzvaných iteračních metod, kdy se simulace spouští tisíckrát a výsledky se porovnávají, říká Conway. Běžná je také technika checkpointingu, při které superpočítač ukládá snímky své práce pro případ, že se úloha nedokončí úspěšně. Tyto trendy způsobily explozi dat v komunitě HPC, říká Conway.