Na rozum se statistikou

Featured Image

Jako hudební doprovod k tomuto článku doporučuji tuto skladbu. Tak jsme se dozvěděli, jak máme jít na statistiku s rozumem. Ještě mi tam chybělo „selským rozumem“.

Zdá se mi, že slovo „rozum“ ovládá veřejný diskurs více, než by mělo. Stává se totiž opakovaně, že jedinec nedisponuje argumentačními schopnostmi, ale má nutkavou potřebu něco ostatním sdělit. Vzniká přitom otázka, jak takovou argumentaci vypodložit, aby to nedopadalo blbě, jako když inženýr přes báně konstruuje auta nebo lampasák vakcionolog bojuje s pandémií. A když není munice, nacpe se do laufu slovo „rozum“.

Já používám rozum, fakt, tak mi věřte a hlavně nepoužívejte ten váš.

Autor aplikoval „rozum“ na článek, ve kterém jsem tvrdil, že 27 z 36 smrtelných nehod cyklistů zavinili cyklisté, takže příčinou 75% dopravních nehod cyklistů je cyklistika. Následně za pomoci různých úvah dospěl k názoru, že je to tím, že nad populací provádíme výběr tak dlouho, až ji rozsekáme na malé clustery, ze kterých vyvozujeme závěry pro celou populaci. To by jistě byla nelegální operace, nicméně to jsme neprováděli a tak můžeme být v klidu.

Kupodivu, statistika ta bitch má určité zákonitosti.

Ještě než se člověk pustí do nějakých analýz, je vždy dobré se podívat na kvalitu dat. Data tentokrát vycházela ze statistik Policie ČR (nikoli Besipu). Policie pravděpodobně zvládne určit, že účastník nehody byl cyklista (například má s sebou jízdní kolo) a nejeví se příliš pravděpodobné, že by například řidič Porsche napálil čelně do kamionu, vystoupil, vyndal z kufru kolo, hodil ho na silnici, odklidil někam Porsche a umřel.

Policie pravděpodobně dovede poznat, že účastník nehody je mrtvý. Stejně se volá lékař, který případné pochybnosti policistů rozptýlí. Mrtvola se dá těžko ututlat. Dá se říci, že nebude problém s určením, že cyklista je mrtvý a je nepravděpodobné, že by cyklista po smrtelné nehodě vstal z mrtvých nebo naopak byl zaživa pohřben.

Problém také asi nebude s určením, že mrtvý cyklista byl účastníkem silničního provozu, když si pro něj přišla Zubatá. Je velmi málo pravděpodobné, že by nějaký nešťastník exnul doma v posteli, jeho pozůstalí ho navlékli do Spandexů, oholili mu nohy a donesli ho někam na veřejnou komunikaci, aby se mohl in memoriam zapojit do soutěže o Bouchalův pohár.

Trochu větší problém je s určením toho, že cyklista je mrtvý v důsledku nehody. Pravděpodobně tomu tak ve většině případů bude, ale budou existovat nehody, kdy nehoda vznikla sekundárně v důsledku cyklistovy indispozice, například že dostal srdeční infarkt poté, co se uvolnila krevní sraženina vzniklá v oblasti pánve v důsledku tlaku utažených cyklokalhot na pohlavní orgány. Nějaké malé procento nehod bude pravděpodobně špatně vyhodnoceno jako zaviněná nehoda, přičemž se ale jednalo o nehodu nezaviněnou, tedy například smrt z přirozených nebo kvůli technické závadě.

Ještě horší to bude s určováním toho, kdo je viník. V případě smrtelné nehody, kde je účastník, oběť a podezřelý jedna osoba, se nikdy nezjistí, kdo je de iure viník. Policie bude na konci svého vyšetřování vědět nanejvýš to, kdo je podezřelý ze spáchání nějakého nezákonného jednání, ale s tímto mrtvým podezřelým nelze podle platné legislativy vést řízení a vyslovit jeho vinu. Myslím, že Svaz měst a obcí po čase prolobbuje, aby se správní řízení dalo vést i se zesnulým a uložit mu trest propadnutí urny, protože by to mohlo zvýšit výnosy z pokut do obecních pokladen a získat materiál k posypu chodníků v zimě, ale zatím je to tak, že množiny „mrtví“ a „viníci“ mají právně bráno prázdný průnik. Nicméně cyklisté nám to usnadňují tím, že sami jsou často obětí i viníkem (v neprávním slova smyslu), protože je dostihla karma, Darwin, ruka boží nebo záleží na tom, čemu věříte. Policejní hantýrkou se tomu říká „nesprávný způsob jízdy“ a „nezvládnutí vozidla“, bez významu není ani alkoholismus a rychlost. S nevelkou pravděpodobností budou tak existovat případy, kdy policie uzavře kauzu nesprávně jako vinu cyklisty, přičemž za to ale mohlo něco jiného.

V další fázi testu se vyplatí mrknout, zda někdo na populaci nepraktikoval výběr. V tomto případě bohužel je praktikován výběr. Doktoři do toho fušujou a vozí cyklisty do nemocnice, kde je pozašívají, nastrkají do nich různé hadice a tak, což má za následek, že zůstanou naživu dalších 24 hodin nebo i déle. Lhůta 24 hodin je důležitá. Kdo chce zabodovat v Bouchalově poháru, musí zaklepat bačkorama do 24 hodin od nehody, protože později se to už nepočítá do policejní statistiky. Dochtoři to kurví Darwinovi, takže se občas přešvihne těch 24 hodin. Jejich aktivita nemá na náš problém velký vliv. Budeme předpokládat, že dochtoři jsou fér a v procesu oddalování smrti nečiní rozdílu mezi cyklistou, který nehodu způsobil nebo nezpůsobil, jinak řečeno, zkoumaný problém sice ovlivňují, ale v celé populaci stejně.

To bychom tedy měli základní testy a teď jdeme prznit statistiku. Já nejsem statistik, mám nějakou omezenou sadu nástrojů, kterou aplikuji a moc o nich nepřemýšlím, takže až následující text budou

číst skuteční odborníci na statistiku, nebude se jim to líbit. Ale je to lepší než drátem do oka nebo jezdit na kole a oprudit si šourek.

V případě statistického pohledu na cyklistickou mortalitu je podstatné, že se jedná o diskrétní množinu. Cyklista je po technické stránce buď živý nebo mrtvý. Lékaři budou oponovat, protože jim do ordinací vozí různé mezistupně, ale my to berme tak, jak jsem uvedl, jinak se to hrozivě zkomplikuje.

Obor se jmenuje „testování hypotéz“. Otázka zní: Jak moc si můžeme být jisti vyjádřením, že většinu nehod, při které zemře cyklista, cyklista také zaviní?

Nejsnazší odpověď poskytuje bodový odhad. To jsem v prvním článku udělal já. n = 36 cyklistů zheblo, x = 27 jich zavinilo nehodu, při které se zranili cykisté, čili cyklistika zabila x / n = 75% cyklistů. Zde pravděpodobnost x a n neřešíme, bereme je jako dané s ohledem na minulost.

Jiná mediálně známá metoda bodového odhadu je spojena s osobou Pierra Laplace. Ten řešil problém, jak pravděpodobné je, že zítra vyjde slunce. Ono vyjít nemusí, protože co když to do země napálí obrovský asteroid? To pak asi nevyjde. A jaká je pravděpodobnost, že zítra zemře cyklista vlastní vinou? P = (x + 1) / (n + 2) = 73%.

Zcela jiný přístup zvolil spolek opruzených šourků zvaný Auto*Mat. Ten zavedl nový pojem „samonehoda“ a po dalších interesantních kejklích s mrtvolama dospěl k názoru, že cyklisti jsou prima a Besip je blbej. Souhlas. Zrovna minulý týden srazil ožralý cyklista moji tchyni a nějak se přitom pomlátil. Tchyně se ptala se, co má dělat, tak jsem jí poradil použít čínskou medicínu. Tři až pět vpichů, podle toho, jaké najde vidle. Typická samonehoda.

Jistě jste si všimli opakovaného výskytu slova „pravděpodobně“ v textu výše. Ve skutečnosti oba parametry, které do našeho výpočtu vystupují, mají určité pravděpodobnostní parametry. V jednom konkrétním případě můžeme docela spolehlivě určit, že cyklozmrd exnul vinou cyklisty, ale v případě větší populace výše popsané náhodné vlivy způsobují, že nic není tak docela jisté. Vzniká tedy něco jako funkce, která na vodorovné ose začíná v bodě označeném 0 a končí v bodě označeném 100. Bod 0 reprezentuje úplnou jistotu o tom, že v roce 2019 oněch 27 cyklistů zcela jistě nezemřelo v důsledku cyklistiky, bod 100 reprezentuje situaci, kdy 27 cyklistů zcela jistě zemřelo v důsledku cyklistiky. Bod 95 reprezentuje tzv. 95. percentil. Ten je významný v tom ohledu, že v tomto bodě si můžeme být docela slušně jisti, že nějaká hypotéza platí. Ještě zajímavější je osa y, a zde přijmeme další zjednodušení. Řekněme, že v bodě 0 začíná Gaussova křivka, která v bodě 100 končí. Plocha pod křivkou mezi body 0 a 95 tedy reprezentuje realitu jistou na 95% procent, plocha pod křivkou za bodem 95 reprezentuje zbytkovou nejistotu, kterou akceptujeme.

Osobně si myslím, že aplikace normálního rozdělení na náš případ je nesprávná a stojí velmi výrazně na straně teorie, že cyklisté za nic nemohou. Další z mých amatérských pouček říká, že normální rozdělení lze aplikovat jen na přirozené jevy, tedy takové, do kterých se žádný bolševik nesere. Proces ohledávání mrtvých cyklistů a zjišťování viníků není nahodilý, je ovlivňován mnoha faktory jako profesionální etika nebo zákony, takže by spíše připadalo v úvahu lognormální rozdělení s posunem směrem k hodnotě 100. Dříve nebo později se dopracujeme do situace, kdy bude zakázáno zmiňovat, že cyklisté způsobují smrtelné nehody, protože to není politicky korektní, a hodnoty o cyklistické nehodovosti se prostě zfalšují stejně jako se falšují údaje o kriminalitě imigrantů. Pak bude připadat v úvahu lognormální rozdělení posunuté doleva v kombinaci s občanskou neposlušností. Ale pro jednoduchost teď zůstaneme u normálního rozdělení.

Zatímco v případě spojitých hodnot, třeba měření různých rozměrů součástek je problematika intervalů spolehlivosti celkem zjevná a probírá se všude možně, v případě nespojitých znaků, kterými je typicky pass-fail problém, to tak populární není. Naštěstí i tady si někdo dal tu práci a vymyslel něco, s čím se dá pracovat.

Osvědčený postup pro výpočet intervalů spolehlivosti v případě pass-fail testu je modifikovaná Waldova metoda. Aniž bych hodlal zabíhat do nějakých detailů, je na to vzoreček

Zdroj: GraphPad.com

 

V našem případě S odpovídá situaci, kdy je cyklista usmrcen při nehodě, kterou zavinil cyklista (27) a N je počet všech smrtelných nehod cyklistů (36).

Dolní mez intervalu spolehlivosti je pak 0.725 – 0.138 = 0.587, horní 0.725 + 0.138 = 0.863.

Kdo by měl zájem si to spočítat sám, může zde pomocí kalkulátoru. Číslo 1.96 je ve statistice taky docela profláknuté, kdo neví, kde se vzalo a podezírá mě z nějaké numerické lyriky po vzoru plukovníka Prymuly, tak třeba tady.

Máme tedy výsledek, že cyklistika je příčinou úmrtí cyklistů v silničním provozu na 58% až 86%, přičemž si tím můžeme být na 95% jisti. Střed intervalu spolehlivosti a v našem případě vyjde 72.5 %. Zmenšit rozptyl mezi 58% a 86% by mohlo, kdybychom měli více dat, třeba kdybychom vzali údaje za poslední tři roky. To však není zcela regulérní, protože situace se vyvíjí k horšímu tím, že agresivita cyklistů roste. Také by pomohlo zúžit interval spolehlivosti (tedy spokojit se s menší spolehlivostí). Nejlepší však bude hodit se do klidu a počkat na příští rok, třeba se do Bouchalova poháru zapojí více cyklistů a pomohou nám výsledky zpřesnit.

Popsanou metodu je možné aplikovat i na různá jiná dilemata, která jsou principálně pass-fail, například ty různé user experience studie výzkumu chování zákazníků. Když vám například někdo bude tvrdit, že ve zkušebním vzorku 10 řidičů dva nedokázali vyměnit kolo, neznamená to, že 20% řidičů nedokáže vyměnit kolo (to je bodový odhad), ale vztaženo na celou populaci to znamená, že 4% až 52% řidičů nebude umět vyměnit kolo (opět s jistotou 95%). Užitečné a jednoduché informace k aplikaci Waldovy metody do oblastí UX najdete zde.

I zde přeju cyklistům hodně zdaru. Nyní je třeba in tunit ta elektrokola, že jezdí třeba dvakrát rychleji, než na co byla zkonstruována. Nikdo s tím nemá problém. A představte si třeba, že nějak upravíte Felicii, aby nejela maximálně 150 km/h, ale 300 km/h, a budete tak jezdit. Po dálnici, po silnici, v přírodě a po městě taky. Samozřejmě většina lidí řekne, že jste idiot. A to je právě to kouzlo, kterým si Darwin hledá místo mezi námi. Se zákony evoluce se dosud nepodařilo vymrdat a když se někdo pokouší použít sportovní náčiní jako dopravní prostředek, je to jako by si míchal kafe motorovou pilou. Použijte rozum, kupte si auto nebo choďte pěšky. Kolo je pro blbce, co chtějí na 58 až 86% vyhynout.

 


23.08.2020 D-FENS


Související články:


12345 (253x známkováno, průměr: 1,79 z 5)
16 872x přečteno
Updatováno: 23.8.2020 — 22:11
D-FENS © 2017