iStock

Czy rozumiemy to, co czytamy?

Udostępnij:
Nie ma w zasadzie dnia, w którym nie bylibyśmy bombardowani poprzez środki masowego przekazu doniesieniami o rewelacyjnych odkryciach z najrozmaitszych dziedzin życia. Wydaje się, że najwięcej z nich dotyczy naszego zdrowia – ale czy rozumiemy to, co czytamy?
Artykuł prof. Jerzego A. Moczki z Katedry Informatyki i Statystyki Uniwersytetu Medycznego im. Karola Marcinkowskiego w Poznaniu:
O tym, jak bardzo jesteśmy podatni na rozmaite pseudonaukowe manipulacje, może nas przekonać chociażby odwiedzenie strony internetowej www.dhmo.org. Została ona założona w roku 1990 przez trójkę studentów Uniwersytetu Kalifornijskiego w Santa Cruz i jest aktywna do dziś, ujawniając, jak bardzo jesteśmy łatwowierni, a brak odpowiedniej wiedzy doprowadza nas do podejmowania fałszywych decyzji. W zakładce „research” możemy znaleźć wyniki przeprowadzonych w różnych częściach świata badań na temat tego, czy należy prawnie zakazać stosowania niezwykle toksycznego i niebezpiecznego związku chemicznego, jakim jest DHMO (monotlenek diwodoru). Nie odwołując się do udokumentowanych wyników eksperymentu, zobaczmy, jaka może być reakcja zwykłego Kowalskiego na mądrze brzmiące teksty.

W „Gazecie Wyborczej” z 14 sierpnia 2018 r. opisano reakcję przeciętnych poznaniaków na żart primaaprilisowy dominikanów polegający na zamieszczeniu na trawniku przed kościołem tekstu o następującej treści: „Uwaga! Okresowo rozpylany monotlenek diwodoru. Prosimy nie wprowadzać psów! Substancje biologiczne”. Niestety w podobny sposób znakomita część z nas, „naukowych szaraczków”, reaguje na treści zawarte w artykułach naukowych. Wielokrotne pojawienie się w tekście nie do końca zrozumiałych dla nas słów doprowadza do konfuzji i często do nieprawidłowej interpretacji czytanego artykułu. Jednym z przykładów może być terminologia statystyczna. Spróbuję to przedstawić na prostym przykładzie. Przyzwyczailiśmy się do używania sformułowania: „wynik istotny statystycznie na poziomie istotności 0,05”. Klasyczne ujęcie wnioskowania statystycznego ma następującą postać: formułujemy hipotezę zerową (która niekoniecznie musi być prawdziwa), w stosunku do niej budujemy hipotezę alternatywną i stosujemy odpowiedni test statystyczny do ustalenia, czy mamy podstawy do odrzucenia hipotezy zerowej, czy też nie. W najczęściej stosowanym schemacie badania równoważności reguła wydaje się prosta i tak uczymy się na studiach medycznych na zajęciach z biostatystyki. Jeżeli wartość prawdopodobieństwa (oznaczana jako p-value) obliczona na podstawie jakichś tam tajemniczych wzorów zakodowanych w pakiecie statystycznym jest większa niż poziom istotności, to nie mamy podstaw do odrzucenia hipotezy zerowej, jeżeli zaś jest mniejsza, to odrzucamy hipotezę zerową. Ale uwaga – ta procedura nie jest jednoznaczna z prawdziwością hipotezy zerowej. A niestety najczęściej w pracach piszemy „wykazaliśmy, że prawdziwa jest hipoteza zerowa, bo p-value jest większa od przyjętego przez nas poziomu istotności”. Tak naprawdę mamy tylko prawo napisać „nie mamy podstaw do odrzucenia postawionej przez nas hipotezy zerowej”. A to, czy jest ona w rzeczywistości prawdziwa czy fałszywa, jest nadal okryte mgiełką tajemnicy. Bardziej wnikliwi czytelnicy stwierdzą „ale moja decyzja zależy od dwóch czynników”.

Po pierwsze – od prawidłowego obliczenia poziomu prawdopodobieństwa p-value, po drugie od założonego poziomu istotności. Zdecydowana większość z nas powie „muszę wierzyć, że matematycy opracowujący test statystyczny udowodnili prawidłowość tej procedury, a informatycy właściwie ją zakodowali przy tworzeniu pakietu”. I nie jest to pozbawione sensu, bo na czymś musimy się opierać. Często jednak zapominamy o jednej rzeczy. Każdy bez wyjątku test statystyczny (nawet słynne testy nieparametryczne) opiera się na założeniach, które muszą być spełnione, aby uzyskać prawidłowy wynik. Przykładowe często używane założenia to normalność rozkładu danych, jednorodność wariancji, brak skorelowania średnich i odchyleń standardowych, sferyczność itd. Pominięcie badania warunków stosowalności testu może prowadzić do nieprawidłowego oszacowania p-value. Czym w rzeczywistości jest p-value? Otóż p-value określa prawdopodobieństwo otrzymania określonego wyniku (różnicy lub zależności), co najmniej tak dużego jak otrzymany w eksperymencie przy założeniu, że hipoteza zerowa jest w rzeczywistości prawdziwa.

Drugim źródłem błędu w oszacowaniu tej wielkości jest struktura danych. Zdecydowana większość pakietów statystycznych wyznacza wartości asymptotyczne statystyki. Oznacza to, że wartości p-value są obliczane na podstawie wyznaczenia obszaru krytycznego dla założonych rozkładów teoretycznych (asymptotyczne p-value), a nie na podstawie rzeczywistego rozkładu statystyki danych eksperymentalnych (dokładne p-value). Dla przykładu, o co chodzi w badaniu normalności rozkładu danych. Gdy mówimy skrótowo „dane mają rozkład normalny”, to wcale to nie oznacza, że jest tak w rzeczywistości (aby ten warunek spełnić, musielibyśmy mieć m.in. nieskończenie wiele danych), tylko rozumiemy przez to fakt, że różnica między rzeczywistym rozkładem danych doświadczalnych a teoretycznym rozkładem gaussowskim nie wpłynie istotnie na podjętą przez nas decyzję. Innymi słowy możemy powiedzieć: wartości przybliżone są dobre, gdy nasze dane nie są „dziwaczne”. Przykładami mogą być dane mało liczebne, dane z licznymi powtarzającymi się wartościami pomiarowymi, dane niezbalansowane czy też macierze rzadkie (możemy to sobie wyobrazić jako tabele kontyngencji z licznymi komórkami z zerowymi liczebnościami). Niestety, w tych przypadkach procedury obliczeń asymptotycznych zawodzą i trzeba użyć dokładnej estymacji wartości prawdopodobieństwa opartej na technikach permutacyjnych. Jeszcze do niedawna z powodu złożoności obliczeń oraz niedostatecznej ich dokładności związanej z długością słowa maszynowego w używanym do obliczeń komputerze były one realizowalne wyłącznie na superkomputerach. Opracowane zostały jednak techniki matematyczne umożliwiające dokładne obliczenia na 32- lub 64-bitowych komputerach osobistych. Przykładem takiego pakietu statystycznego jest STATXACT firmy CYTEL, który wyznacza wartości prawdopodobieństwa zarówno metodami asymptotycznymi, jak i dokładnymi, a w przypadkach, gdy obliczenie dokładne nie jest z jakichś przyczyn możliwe, technikami Monte Carlo z określonym przez użytkownika stopniem dokładności. Kiedy powinniśmy stosować obliczenia dokładne? Zawsze wtedy, gdy uzyskana metodą asymptotyczną wartość p-value leży w bliskim sąsiedztwie przyjętego poziomu istotności.

No i w tym miejscu pojawia się drugi problem. Dlaczego akurat wybieramy poziom 0,05, a nie na przykład 0,113 lub 0,753? Czy ta liczba 0,05 ma jakieś specjalne matematyczne właściwości? Kiedy przyjmować wartość 0,05, a kiedy 0,01 lub 0,001? Poziom istotności jest niczym innym jak prawdopodobieństwem popełnienia błędu pierwszego rodzaju (prawdopodobieństwo odrzucenia hipotezy zerowej, gdy w rzeczywistości jest ona prawdziwa). To, że większość badaczy wybiera poziom istotności 0,05, nie oznacza, że w każdym przypadku należy tak postępować. Powinniśmy wziąć pod uwagę również błąd drugiego rodzaju (prawdopodobieństwo zaakceptowania hipotezy zerowej, gdy w rzeczywistości jest ona fałszywa) i ocenić, który rodzaj błędu powoduje w naszym konkretnym przypadku poważniejsze skutki. Ponieważ przy określonej liczebności próby oba błędy zmieniają się w przeciwnych kierunkach (gdy jeden maleje, drugi rośnie i vice versa), zmieniając poziom istotności, powinniśmy minimalizować błąd o bardziej znaczących skutkach. Pamiętajmy jednak, że będzie to miało wpływ na moc użytego testu (moc testu równa się 1 minus prawdopodobieństwo popełnienia błędu drugiego rodzaju). A moc testu statystycznego to nic innego jak zdolność testu do wykrywania rzeczywiście istniejących efektów statystycznych (różnic, korelacji itd.).

Pamiętajmy, że nie każdy efekt istotny statystycznie jest również istotny klinicznie, a nie każdy istotny klinicznie może być wykazany jako istotny statystycznie.

Tekst opublikowano w Biuletynie Wielkopolskiej Izby Lekarskiej 11/2022.

Przeczytaj także: „Analiza twitterowej debaty o obowiązku szczepień przeciw COVID-19” i „Suma wszystkich szczepionkowych strachów”.

 
© 2024 Termedia Sp. z o.o. All rights reserved.
Developed by Bentus.