/ONDŘEJ VENCÁLEK/
Zápisky z průzkumu dat, který měl odpovědět na otázku, zda tzv. index rizika skutečně souvisí s budoucí vytížeností JIP.
Z popudu Tomáše Fürsta napsal a nakreslil Ondřej Vencálek (12. a 13. ledna 2021)
Předkládám všem zájemcům vážné zamyšlení o indexu rizika, na němž je založen protiepidemický systém ČR (PES) a který ovlivňuje životy obyvatel České republiky. Dovoluji si však toto vážné zamyšlení uvést poněkud nevážně a prosím laskavé čtenáře o shovívavost. V článku ukážu, že index rizika (zatím) nijak nesouvisí s obsazeností JIP o 30 dní později, kterou měl (dle svých autorů) predikovat. Pak budu trochu spekulovat a nakonec upozorním na obtíže s vyhodnocením prediktivních schopností indexu rizika, které bohužel tento index řadí do kategorie (pseudo-vědeckých) prediktivních nástrojů typu „křišťálová koule“.
Nakreslil jsem psa.
Kreslit moc neumím.
Kde se vzal?
Tu se vzal:
Vykoukl na mě, když jsem vykreslil nějaký graf. Ten graf vypadal takto:
Pravda, mohl jsem toho psa nakreslit taky jako psí kuličku – pěkně kulaťoučkého. Nebo se zdviženou nožičkou. Fantazii se meze nekladou.
Co jsem to vlastně kreslil za graf?
Jo, chtěl jsem se přesvědčit, jestli tzv. index rizika, na němž je založen protiepidemický systém ČR známý pod zkratkou PES a který ovlivňuje od října život všech obyvatel ČR, opravdu dělá to, co zamýšleli jeho tvůrci [1]. Ti hned v úvodu svého textu uvádějí, že index rizika by měl být přímo úměrný logaritmu počtu „vážných případů za nějaké budoucí období“. Teprve později vysvětlují, že „vážnými případy“ rozumějí COVID19+ pacienty na JIP a „nějakým budoucím obdobím“ rozumějí „za třicet dnů“.
Dohledal jsem tedy hodnoty indexu rizika od 1. 10. 2020 (resp. 30. 9. 2020) až do současnosti [2], dohledal jsem počty lůžek JIP obsazených COVID19+ pacienty [3] a tabulky spojil tak, aby na jednom řádku byl k danému datu vždy index rizika a počet lůžek JIP obsazených COVID19+ pacienty o 30 dní později. Mohl jsem tak vyhodnotit úspěšnost indexu rizika coby prediktoru vytíženosti JIP za období 30. 9. 2020 až 9. 12. 2020 (9. prosince 2020 index rizika predikoval vytíženost JIP k 8. lednu 2021).
Rychlý náhled do dat poskytl následující obrázek:
Skoro se mi zdálo, že vysoká hodnota indexu rizika predikuje nízké stavy na JIP, tedy že PES „štěká“ na druhou stranu“, než autoři zamýšleli. Ale pletl jsem se. Z omylu mě vyvedl výpočet korelačního koeficientu mezi oběma ukazateli. Ten vyšel prakticky nulový (hodnota -0,07). To ale znamená, že hodnota indexu rizika a skutečná obsazenost JIP o 30 dní později spolu ve sledovaném období nijak nesouvisely. Kdybychom hodnotili index rizika jen za první měsíc, dostávali bychom dokonce hodnoty pod -0,5, tedy vysoký index rizika v říjnu odpovídal nízké budoucí vytíženosti JIP.
Zaskočen zjištěnými skutečnostmi, zapochyboval jsem o smyslu své analýzy. Vždyť přece autoři indexu jasně ve svém textu [1] píší, že „index se odvíjí primárně od odhadovaného počtu vážných případů za určité budoucí období délky D dní, pokud by nedošlo k žádné změně epidemiologických podmínek (například úpravou protiepidemických opatření).“ Jelikož se však podmínky neustále mění, není možno se divit, že index o skutečné budoucí hodnotě vytíženosti JIP nic neříká. Budiž tedy řečeno, že jakákoliv snaha o srovnání indexu rizika se skutečnými počty lůžek JIP obsazenými COVID19+ pacienty je nutně odsouzena k nezdaru. Naopak, pokud by se ukázalo, že index rizika se skutečnou vytížeností JIP koreluje i přes provedená opatření, byl by to důvod k pochybnostem o efektivnosti těchto opatření!
Přes své pochybnosti jsem přece jen chtěl prozkoumat, zda mezi indexem rizika a logaritmem počtu lůžek JIP obsazených COVID19 pacienty o 30 dní později není lineární závislost. A tu se objevil již výše zmíněný graf se psem. To opravdu není graf lineární závislosti! Ten graf dokumentuje, že za první dva měsíce fungování PES (protiepidemického systému) hodnota indexu rizika a skutečná vytíženost JIP o 30 dní později spolu nijak nesouvisely.
Ve snaze o maximální nestrannost jsem odmítl přijmout myšlenku, že by index o budoucím vytížení JIP vůbec nic nevypovídal. Vždyť přece jeho konstrukce vypadá naprosto racionálně. Co když jde jen o to křivky posunout o jinou konstantu než 30 dní? Dal jsem se tedy do spekulování. Vždyť přece oba grafy (zachycující průběh indexu rizika a průběh obsazenosti JIP) mají podobný průběh popsatelný fázemi růst – pokles – opětovný růst. Stačí tedy najít posunutí v čase: třeba by index rizika mohl predikovat vytíženost JIP o 20 dní později. A tak jsem vyzkoušel i tuto možnost a dostal jsem následující obrázky:
A když jsem spočítal korelační koeficient indexu rizika a počtu lůžek JIP obsazených COVID19+ pacienty o 20 dní později, vyšla mi za studované období hodnota 0,79. Tedy silná pozitivní korelace. Na začátku zkoumaného období dosahovala přitom hodnota korelačního koeficientu úrovně až 0,97. Chtělo by se zvolat: „Takže přece jen nějaká souvislost těchto veličin existuje!“ Obávám se, že postup, kdy ponecháme časový horizont predikce jako parametr, který budeme zpětně odhadovat tak, aby (zpětně činěná) predikce hezky odpovídala skutečným datům, není přípustný.
Tak nakonec nevím, jestli to, že index rizika nesouvisí se skutečnou vytížeností JIP o 30 dní později, je zapříčiněno vládními zásahy, nebo zda tento index prostě nemá očekávané predikční vlastnosti a nevyjadřuje tedy „rizikovosti vývoje epidemie v blízké budoucnosti“, jak uvádějí jeho autoři [4].
A v té nejasnosti je vlastně zakopán pes. Své studenty vždycky varuju před predikcemi, o kterých není možno rozhodnout, zda se splnily, nebo ne. Takové predikce považuju za bezcenné. Modely, které takové predikce produkují, mohou vypadat více či méně sofistikovaně, více či méně racionálně. Přesto přinejmenším od dob Karla Poppera existuje kritérium, na základě kterého je možno rozhodnout, zda je hypotéza (model) vědecká či nevědecká (tj. na úrovni alchymie). Tím kritériem je možnost falzifikace oné hypotézy. V případě prediktivního modelu jde o možnost vyhodnotit, zda predikce, které model dává, jsou správné či nikoliv, a to bez možnosti odvolávat se na konjunkci Saturnu a Jupitera či zásahu vyšší (vládní) moci. Možná, že index rizika zachraňuje životy, ale dost možná je taky ničí. Data vám nic nepoví o tom, která z možností je správně. A to je špatně!
Excelový soubor s analýzou dávám k dispozici zde: https://upolomouc-my.sharepoint.com/:x:/g/personal/vencaleo_upol_cz/EUSPNsGbx0JMvGYhH41FrgoBDDUW1vKwjtLOZp0nODLCkg?e=g6Ym5c
Dovětek: Kdo má děti (či je sám ještě dostatečně dítětem), nechť jim vytiskne výše uvedený bodový graf a nechá je dokreslit psa dle vlastní fantazie. Kdo má rád psy, nechť pravidelně kliká na https://www.clickandfeed.cz/
Odkazy:
[1] Kulveit, J., Gavenčiak, T.: Odvození indexu rizika pro epidemii COVID-19 v České republice. Online: https://www.mzcr.cz/wp-content/uploads/2020/11/Metodika1_P1Odvozen%C3%AD-indexu-rizika.pdf
[2] https://onemocneni-aktualne.mzcr.cz/pes sekce Data ke stažení
[3] https://onemocneni-aktualne.mzcr.cz/kapacity-luzkove-pece sekce Denní přehledy ke stažení
[4]Májek, O., Kulveit, J., Přibylová, L., a kol. Metodika pro výpočet indexu rizika COVID-19, Metodický popis, verze 2.3 (27. 12. 2020) https://www.mzcr.cz/wp-content/uploads/2021/01/Priloha03_Metodick%C3%BDPopisIndexRizika_verze2.0.pdf