Trvalo to pandemii, ale USA konečně mají (některá) centralizovaná lékařská data

vozidla v řadě na testovacím místě Dodger Stadium

Vozidla se řadí na testovacím místě covid-19 na stadionu Dodger v Los Angeles Mario Tama/Getty Images

V databázi N3C NIH je v současné době 6,3 milionu neidentifikovatelných záznamů
Stala se jednou z největších sbírek záznamů o pacientech s covidem na světě
Toto schéma se vyhýbá datovým silám a problémům s ochranou soukromí, které trápí americký systém zdravotní péče

Během pandemie panovalo vážné napětí mezi tím, co veřejnost chce vědět, a tím, co vědci dokázali s jistotou říci.

Vědci se dokázali o covidu dozvědět více, rychleji než o jakékoli jiné nemoci v historii – ale zároveň byla veřejnost šokována, když lékaři nedokázali odpovědět na zdánlivě základní otázky: Jaké jsou příznaky covidu-19? Jak se šíří? Kdo je nejvíce náchylný? Jaký je nejlepší způsob léčby?

Nikde nebyl tento konflikt jasnější než ve Spojených státech, které vydávají téměř pětinu svého hrubého domácího produktu na zdravotní péči, ale dosahují horších výsledků než kterákoli jiná bohatá země. Hledání odpovědí bylo komplikované nejen proto, že věda je těžká, ale také proto, že americké zdravotnictví je postaveno na mozaikách nekompatibilních, archaických systémů.

USA nemají ponětí, jak spravovat všechna testovací data, která shromažďují V USA se každý stát rozhoduje, jak bude hlásit výsledky testů covid-19. Výsledkem je chaotický systém, který poškozuje naši reakci na pandemii.

V celé zemi se federální, státní a místní zákony na ochranu soukromí překrývají a někdy si odporují. Zdravotní záznamy jsou mezitím chaotické, roztříštěné a intenzivně utajované institucemi, které je vlastní – jak z důvodu ochrany soukromí, tak i proto, že prodej neidentifikovatelných lékařských dat je neuvěřitelně ziskový.

Ale přístup k datům uvězněným v těchto silech je jediný způsob, jak odpovědět na otázky o covidu. To je důvod, proč bylo provedeno tolik zásadního výzkumu v zahraničí, v zemích s národními systémy zdravotní péče, i když USA mají obrovské množství pacientů s covidem a výzkumných institucí. Některé z nejsilnějších dat na rizikové faktory pro úmrtnost na covid a vlastnosti dlouhý covid přišli například z Velké Británie. Tam mají výzkumní pracovníci v oblasti veřejného zdraví přístup k údajům ze zdravotních záznamů 56 milionů pacientů NHS.

Na začátku pandemie si skupina výzkumníků financovaných americkým Národním institutem zdraví nebo NIH uvědomila, že na mnoho otázek o covid-19 nebude možné odpovědět, aniž by se prolomily překážky sdílení dat. Vyvinuli tedy rámec pro kombinování skutečných záznamů pacientů z různých institucí způsobem, který by mohl být soukromý i užitečný.

Výsledkem je National COVID Cohort Collaborative (N3C) , která shromažďuje lékařské záznamy od milionů pacientů po celé zemi, čistí je a poté poskytuje přístup skupinám studujícím vše od toho, kdy použít ventilátor až po to, jak covid ovlivňuje menstruační cykly.

Je jen šokující, že jsme neměli žádná harmonizovaná agregovaná zdravotní data pro výzkum tváří v tvář pandemii, říká Melissa Haendel, profesorka výzkumné informatiky na University of Colorado Anschutz Medical Campus a jedna ze spoluvedoucích N3C. Nikdy bychom nepřiměli každého, aby nám poskytl tento stupeň dat mimo kontext pandemie, ale nyní, když jsme to udělali, je to ukázka toho, že klinická data lze harmonizovat a široce sdílet bezpečným a transparentním způsobem. .

Databáze je nyní jednou z největších sbírek záznamů o covidu na světě, s 6,3 miliony záznamů pacientů z 56 institucí a přibývá, včetně záznamů od 2,1 milionů pacientů s tímto virem. Většina záznamů pochází z roku 2018 a přispívající organizace se zavázaly, že je budou aktualizovat po dobu pěti let. Díky tomu není N3C pouze jedním z nejužitečnějších zdrojů pro studium nemoci dnes, ale jedním z nejslibnějších způsobů, jak studovat dlouhou dobu covid.

Systém, kdy instituce hromadně posílají záznamy centralizované federální vládě, je v americkém zdravotnictví anomálií. Při dobrém využití má potenciál odpovídat na podrobné otázky dlouho po pandemii. A může dokonce sloužit jako důkaz koncepce pro podobné snahy v budoucnu.

Open-source data

Aby do databáze přispěli informacemi, zúčastnění poskytovatelé nejprve vyberou dvě skupiny pacientů: lidi, kteří byli pozitivně testováni na covid, a další, kteří budou sloužit jako kontrolní skupina. Poté odstraní vše, díky čemu jsou data osobně identifikovatelná, kromě PSČ a data doručení, a přenesou je bezpečně do N3C. Tam technici data vyčistí – což není vždy snadný úkol – a zadají je do databáze.

Prostřednictvím N3C může podat návrh výzkumu kdokoli přístrojová deska , ať už je nebo není přidružen k předkládající instituci. Dokonce i občanští vědci mohou požádat o přístup k anonymizované verzi souboru dat.

NIH komise posuzuje každý návrh a rozhodne, ke které verzi dat budou mít výzkumníci přístup. Existuje několik úrovní informací: omezená datová sada, druhá úroveň obsahující skutečné záznamy se zakrytými PSČ a daty a třetí úroveň tvořená počítačem generovanými syntetickými záznamy, které se snaží zachovat stejné atributy jako skutečné záznamy, aniž by obsahovaly jakékoli skutečné údaje o pacientech. Před získáním přístupu musí každý projít školením o zabezpečení dat.

Dosud bylo schváleno 215 výzkumných projektů, včetně studií ke sledování výsledků u pacientů, kteří dostali různé vakcíny proti covidu, a ke zkoumání míry komplikací elektivních operací u pacientů bez onemocnění covidem během pandemie. První publikací ze spolupráce byla analýza rizikové faktory úmrtnosti u pacientů s rakovinou, kteří se nakazili SARS CoV2, a bylo vydáno několik předtisků na témata včetně výsledků COVID v pacientů s onemocněním jater a lidé s HIV .

Více odpovědnosti, lepší věda

Čistá a přesná data jsou pro takové studie životně důležitá, ale v chaosu pandemie bylo těžké se k nim dostat. Loni v červnu vyšly dva hlavní časopisy, BMJ a Lancet, stažené papíry založené na datech od Surgisphere, málo známé společnosti zabývající se medicínskými daty s hrstkou zaměstnanců. Tvrdila, že má přístup k lékařským záznamům v reálném čase od téměř 100 000 pacientů s covidem v 700 nemocnicích po celém světě. V některých případech čísla představovala více pacientů, než bylo v dané zemi skutečně diagnostikováno.

Než byly dokumenty staženy, vedly k rozhodnutí zastavit klinické studie a změnit lékařské postupy. Ale když výzkumníci začali být podezřívaví – zejména vzhledem k tomu, že i jediná dohoda o přenosu lékařských dat zabere enormní čas a práci – společnost odmítla dovolit komukoli auditovat data. Ve skutečnosti neexistuje žádný důkaz, že databáze kdy existovala .

Údaje o COVID-19 jsou veřejným statkem. Americká vláda s tím musí začít zacházet jako s vládou. USA nedokázaly upřednostnit vysoce účinný a ekonomický zásah – poskytování rychlého a snadného přístupu k datům o koronaviru.

Na druhé straně je N3C kontrolovatelné a odpovědné tisícům výzkumníků ve stovkách zúčastněných institucí, se silným zaměřením na transparentnost a reprodukovatelnost. Vše, co uživatelé dělají prostřednictvím rozhraní, které používá Palantirův GovCloud platforma, je pečlivě zachována, takže kdokoli s přístupem může své kroky zpětně sledovat.

To není žádná raketová věda a není to vlastně nic nového. Je to jen dřina. Je to zdlouhavé, musí se to dělat opatrně a každý krok musíme ověřit, říká Christopher Chute, profesor medicíny na Johns Hopkins, který také spoluvede N3C. Nejhorší, co bychom mohli udělat, je metodicky transformovat data na odpad, který by nám dal špatné odpovědi.

Hrubou silou

Haendel poukazuje na to, že tyto snahy nebyly snadné. Rozmanitost odborných znalostí, které bylo zapotřebí k tomu, aby se to stalo – vytrvalost, obětavost a upřímně řečeno, hrubá síla – je prostě bezprecedentní, říká.

Tato hrubá síla přišla z mnoha různých oblastí, nejen z medicíny.

Skutečně pomohlo, že byli na palubě všichni ze všech aspektů vědy. Během covidu byli lidé mnohem ochotnější spolupracovat, říká Mary Boland, profesorka informatiky na Pensylvánské univerzitě. Mohli byste mít inženýry, mohli byste mít počítačové vědce, fyziky – všechny tyto lidi, kteří se za normálních okolností nemusí podílet na výzkumu veřejného zdraví.

Boland je součástí skupiny využívající data N3C, aby zjistila, zda covid zvyšuje nepravidelné krvácení u žen se syndromem polycystických ovarií. Obvykle musí většina výzkumníků používat údaje o pojistných nárocích, aby získali dostatečně velkou databázi pro analýzy na úrovni populace, říká.

Údaje o nárocích mohou například odpovědět na některé otázky o tom, jak dobře fungují drogy v reálném světě. V těchto databázích však chybí obrovské množství informací, včetně laboratorních výsledků, symptomů, které lidé hlásí, a dokonce i údajů o tom, zda pacienti přežijí nebo zemřou.

Sběr a čištění

Kromě databází pojistných událostí používá většina společností spolupracujících se zdravotními údaji v USA federovaný model. Všichni účastníci těchto studií souhlasí s tím, že naformátují své vlastní datové soubory ve společném formátu a poté budou dotazovat kolektiv, jako je podíl závažných případů covid podle věkové skupiny. Několik mezinárodních výzkumných týmů covid, včetně Observační vědy o zdravotních datech a informatika (OHDSI, vyslovováno Odyssey), fungují tímto způsobem a vyhýbají se právním a politickým problémům s přeshraničními údaji o pacientech.

OHDSI, která byla založena v roce 2014, má výzkumníky z 30 zemí a drží rekordy pro 600 milionů pacientů.

To umožňuje každé instituci uchovávat svá data za vlastními firewally s vlastní ochranou dat. K pohybu tam a zpět nevyžaduje žádná data pacientů, říká Boland. To je pro mnoho míst uklidňující, zvláště s tím hackováním, které se v poslední době děje.

Ale spoléhat na to, že si každá instituce připraví svá data pro takový systém, s sebou nese řadu rizik.

Získání dat do společného datového formátu je největší výzvou, protože i názvy léků – mysleli byste si, že by to bylo standardizované v USA, ale ve skutečnosti tomu tak není, říká Boland. Lékárny budou mít často svůj generický lék a ten může mít mírně odlišné složky kvůli patentovým zákonům. Každý z nich má svůj vlastní název drogy.

Na druhou stranu N3C žádá všechny účastníky, aby poslali své syrové, špinavé záznamy na jedno místo a nechali centrální orgán, aby je uklidil a standardizoval. I když existuje mnoho zřejmých výhod, existují významné právní a sociální překážky pro účast tímto způsobem, a to jak v Americe, tak na mezinárodní úrovni; mnoho institucí například nemůže přispívat do N3C kvůli zákonům na ochranu soukromí ve svých státech.

Je to také technologicky náročné. Spojení dokonce dvou sad elektronických lékařských záznamů je extrémně obtížné a náročné na práci; kvalita dat je často nízká a existuje jen malá standardizace. Ve vícemístných zdravotnických organizacích je až 1 z 5 lékařských záznamů duplicitní soubory, většinou v důsledku chyb při zadávání dat během schůzek nebo kontrol, podle dokumentu Pew z roku 2018.

Ti, kdo hájí federované modely, často tvrdí, že za firewallem provádějí vlastní kontrolu kvality. Ale výzkumníci N3C byli šokováni, když zjistili, jak chaotická data byla.

Z webů se objevila určitá míra skepticismu, jako například: „Tento druh rámce kvality dat ve skutečnosti nepotřebujeme – už to děláme na našich vlastních webech důvěrně, za naším firewallem. Nepotřebujeme vaše smradlavé harmonizační nástroje,“ říká Haendel. Ale zjistili jsme, že tato měřítka kvality jsou nedostatečná, když se podíváte na souhrnná data.

Některé problémy s kvalitou dat hraničí s absurditou.

V některých případech organizace neuvedly měrné jednotky. Takže tam byla váha, ale nebyla tam žádná jednotka, jak jsme to měli vědět, říká Chute. Ale mít tak obrovské množství záznamů jim dalo výhodu a umožnilo jim ušetřit mnoho datových bodů, které by jinak byly vyhozeny.

Dokázali jsme se podívat na distribuce dat, pro která jsme měli jednotky, a zjistit, kam se tajná data hodí, říká. Můžete se na to dívat – ach, to jsou očividně libry nebo kilogramy.

Velká ryba v mnohem větším oceánu

Jakkoli je databáze N3C rozsáhlá, zakrňuje rozsah dat shromážděných a udržovaných jinde v americkém systému zdravotní péče, od vládních agentur po nemocnice, testovací laboratoře, pojišťovny a další. Ministerstvo zdravotnictví a sociálních služeb sleduje více než 2 000 souborů dat týkajících se zdraví pouze od federálních, státních a místních agentur.

Poučení od superstar datového vědce pandemie, Youyang Gu

Za týden vytvořil model strojového učení a spouštěl jej denně na svém notebooku (trvalo to jen hodinu), čímž generoval pozoruhodně přesné předpovědi covid-19.

Užitečnost každého z nich je omezena siloing : pro výzkumníky pracující na vlastní pěst je v podstatě nemožné propojit tvrzení Medicare, záznamy z registrů vakcín, údaje o rasové a etnické příslušnosti států pro očkování nebo databáze o variantách covid-19 sekvenovaných ze vzorků pacientů po celé zemi. Přeměna nezpracovaných záznamů na užitečné informace je skutečně tak náročná, že se z toho stalo prosperující soukromé odvětví: zprostředkovatelé dat hromadně nakupují neidentifikované záznamy, analyzují korelace mezi proměnnými a prodávají své analýzy – nebo samotná data – výzkumníkům a vládám.

Jsme ochotni poskytnout všechna naše data komerčnímu subjektu a nechat je prodat nám je zpět, ale nejsme ochotni platit za nejzákladnější infrastrukturu veřejného zdraví, říká Haendel. Toto dobrovolnické úsilí tváří v tvář pandemii je úžasné, ale není to udržitelné dlouhodobé řešení pro řešení budoucích pandemií nebo jen zdravotní péče obecně.

Přístup N3C odvádí od některých z těchto problémů, ale v jeho datech jsou značné díry, zejména informace o očkování. Většina vakcín je podávána na komunitních místech, zatímco záznamy spolupráce pocházejí z návštěv primární péče a hospitalizací, což znamená, že v záznamech bylo zachyceno pouze 245 000 vakcín Pfizer a 104 000 vakcín Moderna. Společnost zabývající se analýzou zdravotní péče buduje nástroj pro bezpečnou integraci záznamů pacientů z více zdrojů, ale minimálně několik měsíců nebude k dispozici.

I přes tyto mezery však obrovská databáze N3C nabízí jeden z nejlepších zdrojů pro výzkumníky, kteří chtějí odpovědět na mnoho nevyřešených otázek o covidu.

To je tak trochu místo, kde jsme teď uvízli, říká Haendel. Opravdu potřebujeme experty na všechny různé aspekty klinické péče a vědu, která za nimi stojí, aby nám pomohli najít všechny jehly v kupkách sena.

Poznámka editora: Dřívější verze tohoto příběhu nesprávně identifikovala výbor, který přezkoumává návrhy využití dat N3C. Je součástí NIH, ne Johnse Hopkinse.

Tento příběh je součástí projektu Pandemic Technology Project podporovaného Rockefellerovou nadací.

skrýt

211service.com

Trvalo to pandemii, ale USA konečně mají (některá) centralizovaná lékařská data

Související příběh

Open-source data

Více odpovědnosti, lepší věda

Související příběh

Hrubou silou

Sběr a čištění

Velká ryba v mnohem větším oceánu

Související příběh

Nejlepší

Fyzici počítají počet atomů v 1 kg křemíku

Trumpova výzva k potlačení botnetů je běh na dlouhou trať

Na rozích dilematu GMO

Nositelný skener otevírá nové hranice v neurovědách

Morfující materiály nabývají nových tvarů

Kategorie

Populární Články