211service.com
Těžba genomu
Larry Hunter se právě přestěhoval do své nové kanceláře, když ho navštívil reportér, takže v místnosti chyběly drobnosti a rodinné snímky. Hunter však začal rozbalovat své knihy a ty už začaly tvořit zajímavý vzor. Rogera Schanka Dynamická paměť , klasický titul v oblasti umělé inteligence, byl odložen vedle Georga Schulze Principy struktury bílkovin. Strojové učení lemovaný Onkogeny . Umělý život opřel se Lékařská informatika .
Správně interpretovaný vzor na Hunterově poličce odhaluje nejnovější trend v biologii, obor nyní tak zahlcený informacemi, že je stále více závislý na počítačových vědcích, jako je Hunter, aby dali smysl jeho zjištěním. Hunter, odborník na odnož výzkumu umělé inteligence známé jako strojové učení, ve kterém se počítače učí rozpoznávat jemné vzory, byl nedávno zlákán z osamělého teoretického postu v National Library of Medicine, aby vedl sekci molekulární statistiky a bioinformatiky v Národní Cancer Institute (NCI) – skupina založená v roce 1997 za účelem využití matematického know-how k prosévání kaše biologických nálezů.
Odkud pocházejí všechna data? Jednoduchá odpověď je, že se to vymývá z projektu Human Genome Project. Veřejně financované úsilí o katalogizaci odhadovaných 100 000 lidských genů, vedené překvapivou konkurencí komerčního sektoru, se blíží ke konci; několik velkých akademických center má za cíl dokončit hrubý návrh do příštího jara. Do té doby uloží desítky miliard bitů dat do online úložiště genových sekvencí známého jako GenBank, spravovaného Národním centrem pro biotechnologické informace (NCBI) při National Institutes of Health (NIH) v Bethesdě, Maryland. Sekvence DNA nejsou jediným typem dat na vzestupu. Pomocí DNA čipů nyní vědci dokážou detekovat vzory, když se v živé buňce zapínají a vypínají tisíce genů, což přispívá k záplavě nálezů.
Nové druhy dat se stávají dostupnými ohromujícím tempem, jásá Nat Goodman, ředitel informatiky pro vědy o živé přírodě ve společnosti Compaq Computer. Compaq je jednou z mnoha společností, které hledají důležitou komerční příležitost v bioinformatice. Tento kongres počítačů a biologie je vzkvétající byznys, ale zatím se točil hlavně kolem softwaru pro generování a správu hor genových dat. Nyní farmaceutické společnosti potřebují stále rychlejší způsoby, jak dobývat tuto horu pro objevy, které povedou k novým způsobům léčby nemocí.
To je místo, kde přicházejí do hry podnikatelští výzkumníci, jako je Larry Hunter. Na Hunterově poličce je skleněná cetka s nápisem: 2 000 000 $ Series A Preferred. 5. března 1999 – oslava fondů rizikového kapitálu získaných společností Molecular Mining, kterou spoluzaložil. Firma se sídlem v Kingstonu v Ontariu doufá, že pomocí metod dolování dat pomůže farmaceutickým společnostem urychlit vývoj nových léků identifikací klíčových biologických vzorců v živých buňkách – například které geny se aktivují u zvláště nebezpečných nádorů a které léky nádory budou reagovat na. A tucet dalších startupů – nejlepší ukazatel horkého trendu v biotechnologickém průmyslu – bylo vytvořeno za účelem výroby nástrojů pro dolování dat (viz The Genome Miners). Hunter předpovídá, že biologie bude stále více podporována algoritmy, které mohou najít skrytou strukturu v obrovském množství molekulárních dat. Tento druh práce na dolování dat, na který se Hunter specializuje, je často známý jako rozpoznávání vzorů a je to jedna z nejrychleji se rozvíjejících oblastí bioinformatiky. Pokud má Hunter pravdu, rozpoznávání vzorů se může ukázat jako to nejlepší, co přináší zlato nových terapií.
The Genome Miners
Vzorek společností specializujících se na software pro rozpoznávání vzorů.
Společnost Umístění Zvýraznit Bioreason
(soukromé) Santa Fe, N.M. Software umělé inteligence dává smysl chemickým datům. Compugen
(soukromé) Tel Aviv, Izrael Bývalí izraelští dodavatelé obrany sklízí velké úspěchy v získávání genetických dat. Mezi zákazníky patří patentový úřad USA. IBM
(veřejné) Armonk, NY. Pokročilé algoritmy pro rozpoznávání vzorů pohánějí alianci Monsanto z roku 1997 pro objevování proteinů. Lví biověda
(soukromé) Heidelberg, Německo Smlouva o hodnotě 100 milionů dolarů s drogovým gigantem Bayer vytváří bioinformatický rekord. Molekulární těžba
(soukromé) Kingston, Ontario V březnu získal od investorů rizikového kapitálu 2 miliony dolarů v počátečních fondech. Neomorfní
(soukromé) Berkeley, Kalifornie. Skryté Markovovy modely patří mezi pokročilé nástroje tohoto startupu z roku 1996 pro hledání genů. Partek
(soukromé) St. Peters, Mo. Specialisté na neuronové sítě přešli na trh biologie v roce 1998. Silikonová genetika
(soukromé) San Carlos, Kalifornie. Spinoff Stanford těží genová data za účelem zisku. Silikonová grafika
(veřejné) Mountain View, Kalifornie. Nástroj pro vizuální dolování dat je populární ve finančním, telekomunikačním a farmaceutickém průmyslu.
Nejprve je musíte najít
Chcete-li získat představu o tom, jak velká hora Hunter a jeho kolegové tunelují, zvažte skutečnost, že každá lidská buňka má 23 párů chromozomů obsahujících asi 3,5 miliardy párů nukleotidů, chemická písmena A, C, G a T, která tvoří genetický kód DNA. Ale skutečné geny, které nesou kód pro tvorbu proteinů a chybují při genetických chorobách a rakovině, zabírají méně než 3 procenta genomu; zbytek je genetický šum. Odhalení genů je stále složitější kvůli skutečnosti, že jejich prvky kódující proteiny jsou rozptýleny, stejně jako genetické signály, které buňka používá k jejich spojení a řízení jejich exprese: proces, který je aktivuje k tvorbě proteinů. Klíčem k pochopení genomu je porozumění řeči těchto signálů, říká David Haussler, přední počítačový biolog z Kalifornské univerzity v Santa Cruz. Ale jsou skryté a jsou hlučné.
První zásadní problém je vytáhnout je z tohoto bludiště irelevantního kódu. V Oak Ridge National Laboratory se sekce Computational Biosciences Edwarda Uberbachera zabývala problémem hledání genů pomocí umělých neuronových sítí – typu programu umělé inteligence (AI), který se vyznačuje schopností učit se ze zkušeností. V Oak Ridge se neuronové sítě používaly k takovým činnostem, jako je rozpoznávání nepřátelských tanků na rozmazaných satelitních snímcích; v roce 1991 Uberbacher upravil tyto metody tak, aby vytvořil program nazvaný GRAIL, který dokáže vybrat geny. Od té doby se ke GRAIL připojil nejméně tucet dalších programů pro hledání genů, z nichž mnohé jsou výzkumníkům dostupné online.
Současné programy pro lokalizaci genů jsou daleko k dokonalosti, někdy předpovídají geny, které nejsou skutečné, a často postrádají geny, které jsou. Částečně kvůli problémům s přesností, říká Uberbacher, byly tyto metody nějakou dobu na okraji. Ale vzhledem k zrychlující se záplavě dat o genomu budou biologové nuceni na ně spoléhat a vylepšovat je. I když jsou nedokonalí, jsou tím nejlepším místem, kde začít, říká Lisa Brooksová, programová ředitelka pobočky genomové informatiky Národního institutu pro výzkum lidského genomu, jejíž provoz vydělává 20 milionů dolarů ročně na podporu bioinformatických databází a na vývoj nových metod dolování dat. .
Programy pro rozpoznávání vzorů se nepoužívají pouze k objevování genů; jsou také silně využívány, aby výzkumníkům poskytly vodítka k tomu, co geny dělají. Dnes nejrozšířenější program – NCBI’s Basic Local Alignment Search Tool neboli BLAST – získává 50 000 přístupů denně od výzkumníků, kteří hledají podobnosti mezi nově objevenými sekvencemi DNA a těmi, jejichž role jsou již pochopeny. Vzhledem k podobným sekvencím mohou vědci často odvodit, že dva geny mají podobné funkce.
Ve researchspeak se proces interpretace funkce genu a jeho vkládání do databáze nazývá anotace. V květnu londýnské Sangerovo centrum a Evropský bioinformatický institut (EBI), pobočka nadnárodní European Molecular Biology Laboratory v Hinxtonu v Anglii, oznámily narychlo organizovaný projekt známý jako EnsEMBL. Cílem EnsEMBL, říká Alan Robinson z EBI, je zajistit, aby k prvnímu návrhu lidského genomu byla připojena anotace. První aktivitou EnsEMBL bude vyslat algoritmy pro hledání genů, aby prozkoumaly genom a přinesly hrubý obrázek o tom, kde se geny nacházejí – ručně kreslenou mapu prospektora. S nakreslenou mapou bude EnsEMBL používat nástroje jako BLAST k uhodnutí funkcí genů.
Plány na počítačové objevovací kanály, jako je tento, jsou důležité pro farmaceutické společnosti, které se předhánějí v identifikaci a patentování klíčových genů způsobujících onemocnění. Například v červnu německý drogový gigant Bayer souhlasil, že zaplatí heidelberskému startupu Lion Bioscience až 100 milionů dolarů za automatizovaný systém pro těžbu genetických databází. Lion nazval počítačový přístup i-biologie podle svého šéfa bioinformatiky Reinharda Schneidera a slibuje společnosti Bayer, že za pět let její počítače objeví 500 nových genů a také označí 70 genů, které již Bayer našel. Základem i-biologie jsou algoritmy pro rozpoznávání vzorů, které budou řídit každodenní prohledávání databází.
I když je pakt Bayer-Lion rekordmanem, je to jen jedna z desítek aliancí pro získávání dat mezi farmaceutickými giganty a výpočetně zdatnými startupy – důkaz, že matematické metody zaujímají ústřední místo v genomickém výzkumu. A akademici, kteří píší algoritmy, také zjišťují, že jejich hvězdy stoupají, zejména v průmyslu. Společnost Lion byla založena špičkovými bioinfonauty z Evropské laboratoře molekulární biologie se sídlem v Heidelbergu. Ve společnosti Celera Genomics, Rockville, Maryland, jejíž plány na rozluštění genetického kódu otřásly projektem Human Genome Project a urychlily veřejně financovanou práci, úspěch stojí na odbornosti experta na analýzu vzorů Eugena Myerse. Celera přilákala Myerse z pozice na University of Arizona, aby vedl její informatické snahy, a najala Compaq, aby mu postavil to, co je propagováno jako nejvýkonnější civilní superpočítač na světě (viz The Gene Factory, TR březen/duben 1999). Podle Hausslera si většina vědců myslí, že úspěch Myersových metod Celeru udělá nebo ji zlomí.
kategorizátor rakoviny
Rozhodující je, že identifikace a porovnávání genů pro zjištění jejich funkce jsou jen prvními kroky na dlouhé cestě k lékařské relevanci – vývoj léku může trvat mnoho let déle. Ale výpočetní vědci tvrdí, že dolování vzorů by mohlo mít mnohem kratší výsledky, pokud by se použilo na jiný typ genomických dat známých jako profily genové exprese.
Úroveň exprese genu se vztahuje k tomu, kolik kopií svého specifického proteinu je v daném okamžiku vyzván k vytvoření. Proteiny jsou skutečnými tahouny v buňce, kteří provádějí každodenní úkoly metabolismu; hladiny každého z nich se mohou v průběhu času dramaticky lišit a v nemocných buňkách jsou často mimo rozklad. Díky zařízením známým jako DNA microarrays, nebo, známěji, DNA čipy, mohou nyní vědci poprvé pravidelně měřit úrovně exprese tisíců genů najednou. DNA čipy využívají toho, že k vytvoření proteinu buňka nejprve přeloží gen do několika kopií molekuly zvané messenger RNA (mRNA). Typ a množství mRNA v buňce odpovídá proteinům v pořadí – a měřením hladin tisíců různých mRNA najednou jsou DNA čipy schopny vytvořit snímek aktivity tisíců genů.
Mark Buguski, hlavní výzkumník v NCBI, říká, že nová data o hladinách genové exprese se nepodobají ničemu, čemu kdy byli biologové vystaveni. Dříve mohli biologové analyzovat aktivitu pouze několika genů najednou. Nyní mohou čipy DNA produkovat masivně paralelní čtení buněčné aktivity. To je důležitý pokrok, protože rozdíl mezi zdravím a nemocí obvykle nespočívá v aktivitě jednoho genu, ale v celkovém vzoru genové exprese.
Tým z Whitehead/MIT Center for Genome Research využívá tento masivně paralelní výstup k identifikaci významných rozdílů mezi různými druhy rakoviny. Známá jako skupina Molecular Pattern Recognition group, byla zahájena loni ředitelem genomového centra Ericem Landerem a vede ji molekulární biolog Todd Golub. Mezi další členy patří bývalá matematička IBM Jill Mesirov, počítačová vědkyně Donna Slonim a počítačový fyzik Pablo Tamayo, který se k Whiteheadu připojil ze superpočítačové společnosti Thinking Machines.
Tento mezioborový mozkový trust se snaží vyřešit nesmírně důležitý problém v rozpoznávání vzorů. Nádory se liší jemnými způsoby a rakovinné buňky, které vypadají pod mikroskopem stejně, reagují na léky velmi odlišně. Věci, které nazýváme jedním typem rakoviny, je jistě mnoho typů rakoviny, říká Lander, ale nevíme, jaké [rozdíly] hledat.
Aby Landerova skupina poskytla měřítko pro nové metody, začala se dvěma typy leukémie, které lze již pod mikroskopem rozlišit: akutní myeloidní leukémie (AML) a akutní lymfoidní leukémie (ALL). Změřili hladiny asi 6800 různých genů ve vzorcích kostní dřeně od 38 pacientů s leukémií, které by dolovali pro vzorce, které by mohly odlišit AML od ALL. Ale práce s 6 800 parametry (geny) a pouze 38 datovými body (vzorky) vytvořila úkol podobný pokusu předpovědět volby pomocí průzkumu tuctu lidí. Poté, co prošli roční zásobu tužek a psacího papíru, našli řešení.
Klíčovým krokem bylo vložení datových bodů do učebního algoritmu známého jako samoorganizující se mapa. Vynesením 38 vzorků do vysokorozměrného matematického prostoru byl mapový algoritmus schopen rozdělit vzorky do dvou skupin – jedné pro každý typ rakoviny. Při kontrole proti informacím o známých typech nádorů, říká Lander, bylo jasné, že shluky prolomily vzorky ALL a AML téměř dokonale. Ukázali jsme, že kdybyste neznali rozdíl mezi těmito dvěma typy leukémií – jejichž zjištění ve skutečnosti zabralo 40 let práce – dokázali byste to zrekapitulovat za jedno odpoledne, říká.
Výzkumný tým také získal představu o tom, jak cenné mohou být jejich metody (stále nepublikované, protože TR šel do tisku) pro pacienty. V jednom okamžiku se algoritmům nepodařilo kategorizovat vzorek do žádné z kategorií leukémie. Byla matematika chybná? Ne, diagnóza byla. Na základě výsledků programu se lékaři znovu podívali a zjistili, že leukémie, o které věřili, je ve skutečnosti vysoce zhoubná rakovina svalů, na kterou se pacient nyní léčí. Podle Davea Ficence, bývalého astrofyzika najatého společností Millennium, aby do svého vlastního softwaru instaloval nejnovější algoritmy pro dolování dat, vědci v Cambridge, Massachusetts se sídlem v Millennium Pharmaceuticals, sázejí na to, že podobné přístupy povedou k optimálním diagnostickým testům na rakovinu. Společnost úzce spolupracuje s Landerovým centrem – Lander je spoluzakladatelem Millennium, který sedí v představenstvu společnosti.
Nové paralelní metody pro vytváření snímků genové exprese se také používají k hodnocení nových kandidátů na léky. Ve startupu Rosetta Inpharmatics v Kirklandu, Washington, vědecký tým shromažďuje a těží databáze genových vzorců, aby urychlil objev léků. Rosetta studuje kvasinkové buňky, vystavuje je potenciálním novým lékům a poté analyzuje úrovně genové exprese, aby zjistila, jak tyto léky působí. Buňky lze například rychle zkontrolovat, zda jejich reakce odpovídá vzoru typickému pro toxické vedlejší účinky. Brzké vyhazování takových poražených je součástí programu Rosetta na zlepšení efektivity objevování léků, říká Stephen Friend, který působí jako hlavní vědecký pracovník Rosetty a vedoucí programu molekulární farmakologie ve Fred Hutchinson Cancer Research Center v Seattlu. Všimly si toho farmaceutické firmy, z nichž osm se přihlásilo jako partneři Rosetta.
Brain Drain
Zatímco výzkumní pracovníci ve společnostech a univerzitách naskakují do rozjetého vlaku dolování dat, pravděpodobně se na cestě před nimi setkají s mnoha překážkami. Někteří investoři se například nadále obávají, že databáze různých biologických výsledků jsou stále špatně propojeny a někdy mají nestejnou kvalitu. Larry Bock, investor v pobočce společnosti CW Group v Palo Alto, říká: Na dolování dat je možná trochu brzy, protože vaše schopnost těžit přímo souvisí s kvalitou databáze. Přesto, říká Barbara Daltonová, viceprezidentka rizikové firmy SR One ve West Conshohockenu, Pensylvánie, dlouhodobé vyhlídky vypadají dobře. SR One, spolu s Princeton, N.J.’s Cardinal Health Partners, vyčlenili 2 miliony dolarů na financování startu Larryho Huntera Molecular Mining. Datové dolování bude klíčovou součástí objevování léků, předpovídá Dalton.
Než se tak ale stane, bude možná muset obor prolomit své nejvážnější úzké hrdlo: akutní nedostatek mentorů. Bioinformatika se během 90. let prudce rozrostla a přitáhla mnoho nejlepších univerzitních učitelů a výzkumných pracovníků do vysoce placeného soukromého sektoru. Přešli jsme od velmi malého zájmu o bioinformatiku k Bang! - většina lidí pracuje ve společnostech, říká Mark Adams, který opustil akademickou dráhu a začal pracovat pro biotechnologickou společnost Variagenics v Cambridge, Massachusetts. Vzhledem k tomu, že univerzity vyčerpaly některé ze svých nejbystřejších myslí, mnozí se diví, kdo bude školit další generaci počítačových biologů.
Část odpovědi přišla v červnu, kdy zvláštní poradní panel svolaný ředitelem NIH Haroldem Varmusem dospěl k závěru, že vláda USA by měla utratit až 10 milionů dolarů na financování 20 nových programů excelence v biomedicínských počítačích. Do akce se zapojilo také několik univerzit, včetně Johnse Hopkinse, kde probíhá nový program výpočetní biologie díky grantu 2,5 milionu dolarů od Burroughs Wellcome Fund. Stanford, Princeton a University of Chicago plánují velká centra, která spojí fyzikální vědce s biology.
V průmyslu je konvergence již realitou. Jedna třetina ze 100 zaměstnanců Rosetta Inpharmatics jsou počítačoví vědci z tak různorodých oborů, jako je detekce sonarů, řízení letového provozu a astrofyzika. Hlavní vědec Stephen Friend říká, že od svého vstupu do společnosti v roce 1997 dospěl k důležitému poznání. Biologové mohou stále klást ty nejlepší otázky a navrhovat nejpřesvědčivější experimenty, říká, ale nejlepší odpovědi přicházejí od fyziků nebo matematiků. Tyto odpovědi pravděpodobně povedou k důležitým novým terapiím – zlatu extrahovanému z hor projektu Human Genome Project pomocí nástrojů rozpoznávání vzorů.