Jak (ne)analyzovat data a jak (ne)dělat vědu

/ONDŘEJ VENCÁLEK/

Se zájmem jsem si přečetl nedávno zveřejněný preprint článku kolegů analyzujících česká „covidová“ data zabývající se především účinností vakcinace jako ochrany před covidem (rozlišuje se ochrana před nákazou, před hospitalizací s covidem a před úmrtím na covid). Zkoumá se i ochranný efekt imunity získané proděláním onemocnění. Třetí částí je výzkum ochranného efektu boosteru (třetí dávky).

Autoři studie postupují přesně tak, jak se dělá současná věda. Znají pravidla hry. Vezmou data, která jsou k dispozici. Jsou si vědomi toho, že data „nejsou ideální“, ale přece jen jsou to nejlepší data, jaká máme, tak je „musíme“ analyzovat. Data tedy analyzují, přičemž poctivě hledají vhodnou metodiku, jak je analyzovat. (V tomto případě je použit Coxův model proporcionálních rizik s vysvětlujícími proměnnými, které se proměňují v čase. Tato volba je rozumná, autoři uvádějí výhody použití tohoto modelu. Za správný bych označil i přístup, kdy autoři nevynucují určitý typ závislosti efektivity na čase, ale elegantně řeší problém „po částech konstantní“ aproximací tohoto vztahu). Svá zjištění sepíší v podobě odborného článku, strukturovaného přesně podle zvyklostí (Introduction, Methods, Results, Discussion and Conclusions). Právě v části diskuse autoři uvádějí možné limitace své studie. Odborný článek je rychle zveřejněn jako preprint na webu medRxiv sloužícímu právě pro tyto účely a je zaslán k publikaci do odborného časopisu.

V okamžiku zveřejnění autoři a jejich známí na článek upozorní na sociálních sítích. A výsledky studie tím mohou prakticky ihned vstoupit do veřejného prostoru. Doba si žádá aktuálních poznatků. Jak je běžné, zájemci o problematiku citují hlavní zjištění této studie: o kolik procent klesá účinnost vakcíny po dvou měsících, o kolik po čtyřech…, jak vyznívá srovnání efektu vakcinace oproti imunitě získané proděláním nemoci atd.

Autoři studie se však dlouhodobě potýkají s kritikou své práce. Tato kritika zaznívá od nás, kteří limitace studie, mnohdy správně uvedené v diskusi, považujeme za natolik podstatné, že se domníváme, že lépe je nemít analýzy žádné, než mít analýzy, jejichž relevance je pochybná [1].

Efektivitu vakcín je možné zkoumat v prospektivní (tzv. klinické) studii, kdy dobrovolné účastníky rozdělíme náhodně do dvou skupin (očkovaní versus neočkování), které pak porovnáváme. Jakmile však dělení do skupin není náhodné, nýbrž úzce souvisí se zdravotním stavem (a rozhodnutí podstoupit či nepodstoupit očkování se zdravotním stavem úzce souvisí), zaděláváme si podobnými analýzami na velký problém, protože srovnáváme v principu nesrovnatelné skupiny. O tom, že rozdílnost těchto skupin může být větší, než bychom očekávali, svědčí například dosud uspokojivě nevysvětlená rozdílnost v úmrtnosti mezi očkovanými a neočkovanými v letních měsících roku 2021, kdy úmrtnost na covid byla malá, viz zde.

Autoři výše uvedené studie jsou si očividně vědomi problematičnosti srovnání. V diskusi např. zcela férově připouštějí možný efekt různé testovací strategie ve srovnávaných skupinách (vakcinovaní versus nevakcinovaní). O velikosti tohoto efektu však nic nevíme. Přitom víme, že strategie testování je pro neočkované skutečně výrazně jiná než pro očkované. Už jen tato jediná výhrada může vést k oprávněným pochybnostem o relevanci výsledků studie.

Dostáváme se tedy k relevanci vstupních dat. Stále platí známé rčení „garbage in – garbage out“, které vyjadřuje skutečnost, že jsou-li vstupy „nekvalitní“, pak ani výstupy nemohou být kvalitní. Data analyzovaná v této studii mohou někteří považovat za „nejlepší dostupná“, jiní je ovšem stále budou označovat za „nedostatečně kvalitní“. A nejde jen o to, že je-li v článku zkoumajícím úmrtnost (byť jde o úmrtnost „s covidem“) uvedeno necelých 41 tisíc úmrtí za rok 2021 (do 20. 11.), vzniká pochybnost, proč není zohledněno zbylých téměř 80 tisíc úmrtí do celkového počtu přibližně 120 tisíc úmrtí, která za prvních 46 týdnů (do 21. 11. 2021) uvádí ČSÚ. Jde především o to, že nakažený není totéž co pozitivně testovaný a pozitivně testovaný není totéž co nemocný.

Dalším problémem je samotný předpoklad modelu, že rozdíl mezi očkovanými a neočkovanými lze popsat jediným číslem – poměrem rizik – které se v průběhu času mění jen „snížením účinku ochrany“ a závisí tedy jen na době uplynulé od očkování či od prodělání infekce. Při průběžně se měnícím složení skupin (souvisejícím např. s rozdílnou motivací k očkování těch, kteří se očkovali, jakmile mohli, a těch, kteří se očkovali později) jsou zřejmě oprávněné pochyby o platnosti takového předpokladu.

Model dále předpokládá například v čase neměnný poměr rizik při srovnávání různých věkových skupin (při vzájemném srovnání očkovaných různého věku, resp. při vzájemném srovnání neočkovaných různého věku). O tom, zda tento předpoklad platí, může leccos napovědět analýza dat z podzimu roku 2020 (září až prosinec), kdy se ještě neočkovalo. V této době by měl být podíl rizik mezi jednotlivými skupinami víceméně konstantní (resp. měl by být ovlivněn pouze rozdílností v zastoupení lidí s imunitou získanou proděláním nemoci, těch však ještě v září 2020 příliš nebylo). Analýza těchto dat však ukazuje, že poměr rizik se poměrně zásadně v čase mění (např. při srovnání skupiny 16–17 let a skupiny 80+ se poměr rizik pohybuje od 1 : 6,6 až k 1,8 : 1).

Neshoda mezi autory výše uvedeného modelu a jejich oponenty je rádoby malá, přitom ovšem zcela zásadní. Nesoulad je hned na začátku v otázce, zda z daných vstupních dat je možné získat relevantní odpovědi na otázky, jimiž se studie zabývá. Zatímco autoři jsou přesvědčeni, že ano, jejich oponenti to vidí jinak.

Ještě jedna věc však stojí za povšimnutí. Autoři výše zmiňované studie odvedli naprosto standardní vědeckou práci. V diskusi dokonce připustili možné limitace studie. Diskusi však nikdo necituje. Prakticky všechny ohlasy, které jsem zaznamenal (např. zde, zde neb zde) citovaly jen a pouze výsledky, resp. závěry [2, 3]. I to je běžná praxe.

[1] Jak je patrné, kritiku zveřejněnou Tomášem Fürstem považuji za oprávněnou. V tomto příspěvku opakuji některé argumenty této kritiky a některé další doplňuji. Především se však zamýšlím, proč opakovaně dochází k neshodám dvou skupin akademiků, kteří se věnují analýze českých dat týkajících se epidemie nemoci COVID-19.

[2] Třetí z citovaných odkazů sice cituje z části Diskuse a závěry, jde však bezpochyby rovněž o citaci závěrů, nikoliv diskuse.

[3] Není zřejmé, zda by mezi významnými „ohlasy“ této studie neměl být zařazen také hojně citovaný (např. zde, zde a zde) tweet předsedy České vakcinologické společnosti Romana Chlíbka, který je datován 20. 11. 2021 (preprint byl zveřejněn o pár týdnů později – 12. 12. 2021). Ten bez bližší specifikace zmiňuje výsledky „předběžné analýzy českých dat“. Není mi známa žádná jiná analýza, o kterou by mohlo jít.