211service.com
Poučení od superstar datového vědce pandemie, Youyang Gu
paní Tech | Zdvořilostní fotografie
Datový vědec Youyang Gu si o sobě myslí, že je realista – deklaruje to ve svých Twitter profil : Přednášející nezaujatých záběrů. Realista.
Když si Gu všiml rozptylových projekcí covid-19 loni na jaře – jeden model předpovídal 2 miliony úmrtí v USA do léta, jiný předpovídal 60 000 – Guu pochyboval, zda je to tak dobré, jak by modelování mohlo být. Rozhodl se zkusit vyrobit model covid-19 sám. Celým mým cílem bylo vyrobit co nejpřesnější model, říká Gu, ze svého bytu na Manhattanu. Žádné ‚pokud toto‘ nebo ‚pokud tamto‘. V podstatě žádné ‚pokud.‘ Na scénářích vlastně nezáleží. Jen jsem to chtěl položit: ‚Toto je nejpravděpodobnější nebo nejrealističtější předpověď toho, co se stane.‘
Během týdne sestrojil model strojového učení a spustil svůj Web projekce COVID-19 . Spouštěl model každý den – na jeho notebooku to trvalo jen jednu hodinu – a zveřejnil projekce úmrtí na covid-19 pro 50 amerických států, 34 okresů a 71 zemí.
Související příběh
Mohl by covid vést k celoživotnímu autoimunitnímu onemocnění?Přibývá důkazů, že u některých lidí covidové infekce produkují autoprotilátky zacílené na tělesné orgány. Pokud je to pravda, mohlo by to pro mnohé znamenat roky vleklé nemoci a bídy.
Koncem dubna přitahoval pozornost – nakonec jeho webové stránky denně kontrolovaly miliony lidí. Carl Bergstrom, profesor biologie na Washingtonské univerzitě, si toho všiml a komentoval na Twitteru že Guův model vytvářel předpovědi, které se zdají stejně dobré jako všechny, které jsem kdy viděl.
Mohu být trochu ML skeptik. Ale v tomto případě se nenechte textem ‚strojového učení‘ zmást, abyste si mysleli, že jde o hadí olej, napsal Bergstrom na Twitteru.
Absolvent MIT s magisterským titulem z elektrotechniky a informatiky (plus titul z matematiky), Gu, 27, pracoval v době, kdy pandemie vypukla, na startupu zabývajícím se sportovní analytikou. Ale dal tento podnik na pauzu, protože hlavní ligové sporty skončily. A pak pouhým googlováním epidemiologie začal svůj nájezd do modelování covid-19.
V modelování infekčních chorob jsem neměl žádné zkušenosti, říká. Ale měl několik let zkušeností jako datový vědec ve financích, pracoval se statistickými modely – modely, které na základě určitých statistických předpokladů analyzují data a vytvářejí projekce, řekněme, kde bude cena akcie v budoucnu. .
Ukazuje se, že mnoho modelů infekčních chorob je v podstatě statistické modelování, říká Gu. A cíl finančního průmyslu zaměřený na přesnost, kterým je přesnost, mu dobře posloužil v epidemiologické oblasti. Pokud nedokážete vytvořit přesný model ve financích, nebudete mít už práci, říká. Naproti tomu cílem v akademické sféře – alespoň z Guovy perspektivy – není ani tak vytvářet přesné modely, ale spíše publikovat články a informovat veřejnou politiku. To neznamená, že nevytvářejí přesné modely – jen se neoptimalizují speciálně pro přesnost, říká.
Guův model kombinuje strojové učení s klasickým simulátorem infekčních chorob zvaným model SEIR (započítání jedinců v populaci, kteří jsou vnímaví, exponovaní, infekční, zotavení nebo odstranění v důsledku smrti).
Komponenta SEIR používá jako vstup simulovanou sadu parametrů – rozsah nejlepšího odhadu pro proměnné, jako je základní reprodukční číslo (rychlost, s jakou se objevují nové případy ve zcela vnímavé populaci na začátku ohniska, před zásahy nebo imunitou) , míra infekce, datum uzamčení, datum znovuotevření a efektivní reprodukční číslo (míra, s jakou vznikají nové případy po některých zásazích). Pokud jde o výstupy, simulátor SEIR nejprve vypočítá infekce v průběhu času a poté vypočítá úmrtí (vynásobení infekcí úmrtností na infekci).
Guova vrstva strojového učení pak generuje tisíce různých kombinací pro tyto sady parametrů ve snaze najít skutečné parametry pro každou geografickou oblast. Zjišťuje, které parametry generují nejpřesnější projekce smrti, porovnáním předpovědí SEIR se skutečnými údaji o denních úmrtích z Johns Hopkins University. Snaží se zjistit, jaké sady parametrů generují úmrtí, která nejvíce odpovídají skutečným pozorovaným údajům, při pohledu zpět, říká Gu. A pak tyto parametry používá k předpovídání a projekci úmrtí do budoucnosti.
Předpovědi se ukázaly jako pozoruhodně přesné. Například 3. května se objevil na CNN dnes večer a podělil se o projekce svého modelu, že USA dosáhnou 70 000 úmrtí 5. května, 80 000 úmrtí 11. května, 90 000 úmrtí 18. května a 100 000 úmrtí 27. května. tweetoval , covid19-projections.com má všechna 4 data přesně správná. S určitým zaokrouhlením to byla pravda.
Neříkám, že jsem byl minulý rok dokonalý. Mnohokrát jsem se mýlil. Ale myslím, že se všichni můžeme naučit přistupovat k vědě jako k metodě hledání pravdy, spíše než k pravdě samotné.
Youyang Gu
Model samozřejmě nebyl dokonalý, ale udělal dojem na Nicholase Reicha, biostatistika a výzkumníka infekčních nemocí na Massachusettské univerzitě v Amherstu, jehož laboratoř ve spolupráci s americkými centry pro kontrolu a prevenci nemocí, agreguje výsledky z asi 100 mezinárodních modelářských týmů. Mezi všemi agregovanými modely, jak Reich poznamenal, byl Guův model trvale mezi nejlepšími.
6. října Gu zveřejnil svou konečnou předpověď smrti, těsně před podzimní vlnou. Model předpokládal, že do 1. listopadu bude v USA 231 000 úmrtí. Celkový počet zaznamenaný k tomuto datu: 230 995.
Gu odstavil svůj první model na začátku října, protože do té doby existovalo mnoho týmů, které dělaly dobré předpovědi smrti. Místo toho se obrátil k modelování skutečných infekcí oproti hlášeným infekcím. A pak v prosinci začal sledovat zavádění vakcín a nepolapitelné pat h ke stádní imunitě —kterou na začátku roku 2021 revidoval na cestu k normálnosti. Zatímco stádní imunita je dosaženo, když je dostatečná část populace imunní vůči viru, čímž se omezí další šíření, Gu definuje normalitu jako zrušení všech omezení souvisejících s covid-19 pro většinu států USA.
Související příběh
Jak malá mediální společnost pomáhá lidem s očkováním Vzhledem k tomu, že mnoho lidí se stále snaží dostat v New Yorku injekce covidem, jeden místní zpravodaj funguje jako dohazovač vakcín.
Bylo jasné, že v roce 2021 nedosáhneme stádní imunity, alespoň rozhodně ne v celé zemi, říká. A myslím si, že je důležité, zvláště pokud se snažíte vzbudit důvěru, že děláme rozumné cesty, kdy se můžeme vrátit k normálu. Neměli bychom to vázat na nereálný cíl, jako je dosažení stádní imunity. Stále jsem opatrně optimistický, že moje původní únorová předpověď pro návrat k normálu v létě bude platná.
Začátkem března úplně sbalil obchod – usoudil, že přispěl, jak mohl. Chtěl jsem ustoupit a nechat ostatní modeláře a odborníky dělat svou práci, říká. Nechci rušit prostor.
Stále dohlíží na data, provádí výzkum a analýzy – varianty, zavedení vakcíny a čtvrtou vlnu. Pokud uvidím něco, co je obzvláště znepokojivé nebo znepokojivé, o čem si myslím, že lidé nemluví, určitě to zveřejním, říká. Prozatím se ale soustředí na jiné projekty, např Akcie YOLO , platforma pro analýzu burzy. Jeho hlavní prací v oblasti pandemie je jako člen technické poradní skupiny Světové zdravotnické organizace pro hodnocení úmrtnosti na covid-19, kde sdílí odborné znalosti svých outsiderů.
Za poslední rok jsem se určitě hodně naučil, říká Gu. Bylo to velmi otevřené.
Lekce č. 1: Zaměřte se na základy
Z pohledu datové vědy mé modely ukázaly důležitost jednoduchosti, která je často podceňována, říká Gu. Jeho model předpovědi smrti byl jednoduchý nejen svým designem – komponentou SEIR s vrstvou strojového učení – ale také velmi omezeným přístupem zdola nahoru ohledně vstupních dat. Zespodu nahoru znamená začít od strohého minima a podle potřeby přidávat složitost, říká. Můj model používá minulá úmrtí pouze k předpovídání budoucích úmrtí. Nepoužívá žádný jiný skutečný zdroj dat.
Gu si všiml, že jiné modely čerpaly z eklektických dat o případech, hospitalizacích, testování, mobilitě, používání masek, komorbiditách, věkové distribuci, demografie , sezónnost zápalu plic, roční úmrtnost na zápal plic, hustota obyvatelstva, znečištění ovzduší, nadmořská výška, údaje o kouření, kontakty s vlastními údaji, provoz cestujících v letecké dopravě, bod péče, chytré teploměry, příspěvky na Facebooku, vyhledávání Google a další.
Panuje přesvědčení, že když do modelu přidáte více dat nebo jej uděláte sofistikovanějším, bude model fungovat lépe, říká. Ale v reálných situacích, jako je pandemie, kde jsou data tak hlučná, chcete mít věci co nejjednodušší.
Brzy jsem se rozhodl, že minulá úmrtí jsou nejlepším prediktorem budoucích úmrtí. Je to velmi jednoduché: vstup, výstup. Přidání dalších zdrojů dat jen ztíží extrakci signálu ze šumu.
Lekce č. 2: Minimalizujte předpoklady
Gu se domnívá, že měl výhodu, když k problému přistupoval s prázdným listem. Mým cílem bylo jen sledovat údaje o covidu, abych se o covidu dozvěděl, říká. To je jedna z hlavních výhod pohledu zvenčí.
Ale protože Gu nebyl epidemiolog, musel si být také jistý, že nevytváří nesprávné nebo nepřesné předpoklady. Mojí úlohou je navrhnout model tak, aby se za mě mohl naučit předpoklady, říká.
Když se objeví nová data, která jsou v rozporu s naším přesvědčením, někdy máme tendenci tato nová data přehlížet nebo je ignorovat, a to může mít dopady, poznamenává. Určitě jsem se stal obětí toho, a vím, že mnoho dalších lidí také.
Uvědomit si potenciální zaujatost, kterou máme a rozpoznat ji, a být schopen upravit naše předchozí – upravit svá přesvědčení, pokud je nová data vyvrátí – je opravdu důležité, zvláště v rychle se měnícím prostředí, jako jsme viděli u Covid .
Lekce č. 3: Otestujte hypotézu
Za posledních několik měsíců jsem viděl, že kdokoli může vznášet nároky nebo manipulovat s daty tak, aby odpovídala příběhu toho, v co chce věřit, říká Gu. To zdůrazňuje důležitost jednoduchého vytváření testovatelných hypotéz.
To je pro mě celý základ mých projekcí a prognóz. Mám soubor předpokladů, a pokud jsou tyto předpoklady pravdivé, pak předpovídáme, že se to v budoucnu stane, říká. A pokud jsou předpoklady nakonec mylné, pak samozřejmě musíme přiznat, že předpoklady, které děláme, nejsou pravdivé a podle toho se přizpůsobit. Pokud nevytvoříte testovatelné hypotézy, pak neexistuje způsob, jak ukázat, zda máte skutečně pravdu, nebo ne.
Lekce č. 4: Učte se z chyb
Ne všechny projekce, které jsem udělal, byly správné, říká Gu. V květnu 2020 předpovídal 180 000 úmrtí v USA do začátku srpna. To je mnohem vyšší, než jsme viděli, vzpomíná (bylo tam asi 155 000 úmrtí). Jeho testovatelná hypotéza se ukázala jako nesprávná – a to mě donutilo upravit své předpoklady.
V té době Gu používal fixní úmrtnost na infekci přibližně 1 % jako konstantu v simulátoru SEIR. Když v létě snížil úmrtnost na infekce na asi 0,4 % (a později na asi 0,7 %), jeho projekce se vrátily do realističtějšího rozsahu.
Lekce č. 5: Zapojte kritiky
Ne každý bude s mými nápady souhlasit a já to vítám, říká Gu, který pomocí Twitteru zveřejnil své projekce a analýzy. Snažím se lidem odpovídat, jak jen to jde, hájit svůj postoj a diskutovat s lidmi. Nutí vás to přemýšlet o tom, jaké jsou vaše domněnky a proč si myslíte, že jsou správné.
Vrací se to k potvrzovací zaujatosti, říká. Pokud nejsem schopen řádně obhájit svůj postoj, je to skutečně správný nárok a měl bych tyto nároky uplatňovat? Pomáhá mi to pochopit, jak o těchto problémech přemýšlet, když se zapojím do styku s jinými lidmi. Když jiní lidé předloží důkazy, které odporují mým postojům, musím být schopen uznat, že se mohu v některých svých předpokladech mýlit. A to mi vlastně ohromně pomohlo při zlepšování mého modelu.
Lekce č. 6: Cvičte se zdravou skepsí
Nyní jsem mnohem skeptičtější k vědě – a není to špatná věc, říká Gu. Myslím, že je důležité vždy zpochybňovat výsledky, ale zdravým způsobem. Je to jemná čára. Protože mnoho lidí vědu jednoduše odmítá, a tak to také nejde.
Ale myslím si, že je také důležité nejen slepě věřit vědě, pokračuje. Vědci nejsou dokonalí. Říká, že když se něco nezdá správné, je vhodné se ptát a hledat vysvětlení. Je důležité mít různé pohledy. Pokud jsme se za poslední rok něco naučili, pak to, že nikdo nemá vždy 100% pravdu.
Nemohu mluvit za všechny vědce, ale mým úkolem je překonat všechen ten hluk a dostat se k pravdě, říká. Neříkám, že jsem byl minulý rok dokonalý. Mnohokrát jsem se mýlil. Ale myslím, že se všichni můžeme naučit přistupovat k vědě jako k metodě hledání pravdy, spíše než k pravdě samotné.