mgr inż. Andrzej Szafranek
Pracownia Informatyki, Śląskie Centrum Chorób Serca, Zabrze
Prawda jest zbyt złożona, by dawała się obejrzeć inaczej niż w przybliżeni
John von Neumann
Odkrywanie prawdy o cechach badanej populacji na drodze interpretacji i uogólniania wyników badania opartego na analizie próby losowej stanowi zasadniczy instrument stosowany w pracy badawczej we wszystkich dziedzinach nauki, również w medycynie.
Tak rozumiane wnioskowanie statystyczne zawiera dwie grupy metod interpretacji wyników. Jedna to estymacja (parametryczna i nieparametryczna), czyli szacowanie nieznanych parametrów i określanie postaci rozkładu, a druga to weryfikacja hipotez statystycznych w oparciu o założony model koncepcyjny. W każdym z przypadków mamy do czynienia z podejmowaniem zasadniczych decyzji na podstawie wybranej, reprezentatywnej próby.
Analizowana praca adresowana jest głównie do naukowców-badaczy z zakresu medycyny, wykorzystujących w swoich badaniach złożony aparat metod statystycznych. Autor przedstawia doniosłość kolejnych etapów realizacji medycznych prac badawczych, tzn. fazę statystycznego planowania eksperymentu oraz analizy statystycznej danych eksperymentalnych. Postawiony w pracy cel jest jasny i niezwykle ważki, albowiem, jak pokazują badania, właśnie etap opracowania danych i użyte do tego metody dyskwalifikują czasem bardzo ciekawie zapowiadające się prace naukowo-badawcze.
David S. Moore, profesor z Department of Statistics Mathematical Sciences Building w swoim eseju donosi, że kiedy prowadzono badania nad skutecznością metod operacyjnego leczenia wrzodu dwunastnicy, po otwarciu jamy brzusznej pacjenta komisja stwierdzała, które z czterech technik operacyjnych mogą być zastosowane w tym przypadku [1]. Po ustaleniu tego chirurg operujący dostawał przygotowaną przez statystyka kopertę z informacją określającą, która z możliwych technik ma być zastosowana. Postępując zgodnie z informacją, uzyskiwano dwa cele – właściwe leczenie pacjenta oraz zapewnienie pełnowartościowych wyników potrzebnych do dalszych badań statystycznych, tzn. takich, gdzie zminimalizowano nieprzewidziane czynniki zewnętrzne. Powyższy przykład świadczy o doniosłości problemu zapewnienia optymalnych warunków planowania eksperymentu jako wstępu do stawiania i weryfikowania hipotez.
Również, co podkreśla autor, w realizacji projektu badawczego bardzo ważne jest zapewnienie reprezentatywności próby, która zależy od dwóch czynników – sposobu doboru (arbitralny lub losowy) oraz jej liczebności. Jednocześnie należy pamiętać, że zgodnie z centralnym twierdzeniem granicznym wraz ze wzrostem liczebności próby rozkład z próby dąży do rozkładu normalnego o średniej równej średniej w populacji i wariancji równej wariancji w populacji podzielonej przez pierwiastek z liczebności próby. Płynie z tego wniosek, że minimalizację błędu można osiągnąć poprzez zwiększanie liczebności próby, nie zapominając, że maleje on proporcjonalnie do pierwiastka kwadratowego liczebności, więc kierunek ten jest dosyć kosztowny.
Etap analizy danych statystycznych przedstawiony jest w pracy w sposób jasny i czytelny. Pokazano sposób dochodzenia do końcowych rezultatów w zależności od rodzaju zmiennej losowej (ciągła lub dyskretna), ich powiązania, charakteru rozkładu, jakiemu podlegają czy występowania (lub braku) jednorodności wariancji. Przedstawiono ogólne wskazania i kryteria do zastosowania określonego testu statystycznego oraz dobrej praktyki doboru poziomu istotności testu alfa.
Rozpatrując analizę statystyczną różnic pomiędzy grupami dla zmiennych jakościowych, większość autorów uważa za zasadne użycie poprawki Yatesa modyfikującej test Chi2 już w sytuacji, kiedy wartość oczekiwana w którymkolwiek polu tablicy czteropolowej jest mniejsza od 10, ale wciąż większa od 5, natomiast wystąpienie którejkolwiek wartości oczekiwanej ≤5 wymaga bezwzględnie zastosowania dokładnego testu Fischera [2, 3].
Wydaje się, że należy trochę szerzej, niż to przedstawiono w części Analiza wielu zmiennych wspomnieć o tzw. data mining, czyli procesie selekcji, eksploracji i modelowania dużej liczby wielowymiarowych danych, który służy odkrywaniu regularności i związków w nich występujących z wykorzystaniem komputerowych algorytmów teorii sztucznej inteligencji. Przykładem takiego podejścia może być zastosowanie metody funkcji dyskryminacji (uczenia z nauczycielem) do wyprowadzenia równania pozwalającego jedynie na bazie analizy EKG prognozować efekt leczenia trombolitycznego w świeżym zawale mięśnia serca, osiągając bardzo wysoką czułość i specyficzność metody [5, 6].
Podobnie modyfikacja skali EUROSCORE poprzez wyliczenie nowych współczynników równania regresji logistycznej w oparciu o dane pacjentów operowanych w Śląskim Centrum Chorób Serca dała lepszą predykcję prognozowania ryzyka operacyjnego, co potwierdzono testem Hosmera-Lemeshowa oraz wartością pola pod krzywą ROC [7, 8].
Przedstawione w pracy zagadnienia można ująć w postaci schematu blokowego lub tablicy pozwalającej poprawnie wybrać ścieżkę decyzyjną w procesie wnioskowania statystycznego. Taką właśnie drogę wybrał autor, omawiając poszczególne sytuacje, a w końcu zestawiając poszczególne przypadki w tabeli. Podejście to z pewnością pozwoli czytelnikowi na zaznajomienie się z metodologią wykorzystania metod statystycznych oraz właściwe pokierowanie się nią we własnych pracach badawczych.
Reasumując, należy uznać, że cel pracy rozumiany jako przedstawienie kolejnych etapów poprawnej analizy statystycznej został w pełni osiągnięty, a praca może służyć badaczom jako poradnik statystyczny.
Piśmiennictwo
1. Lynn AS, Moore DS Mathematics Today Twelve Informal Essays. Springer-
-Verlag, New York 1979.
2. Gutman I, Wilks SS, Hunter JS. Introductory Engineering Statistics. John Wiley & Sons, 1982.
3. Mańczak K. Technika planowania eksperymentu. Wydawnictwa Naukowo-Techniczne, 1976.
4. Stanisz A. Przystępny kurs statystyki, Kraków 2007.
5. Buszman P, Szafranek A, Pasyk S. Non Invasive Prediction of Reperfusion on Basic of Computer Quantitative Analysis of ECG In AMI. American College of Cardiology, Dallas, Texas 1992.
6. Buszman P, Szafranek A. A complex analysis of electrocardiogram in patients undergoing thrombolysis for acute myocardial infarction: early electrocardiogram changes in relation to the result of treatment. 17th Congress of the European Heart Journal, 1995.
7. Szafron B, Szafranek A, Zembala M. Comparison of diffrent risk stratification models in isolated CABG surgery, Interactive Cardiovascular and Thoracic Surgery, Ateny 2005.
8. Szafron B, Szafranek A, Zembala M. Risk stratification in cardiac surgery: the search between simplicity and precision, 55 International Congress St. Petersburg, Russian Federation 2006.