3/2019
vol. 6
Review paper
How to interpret the results of comparative drug tests? Statistical analysis methods: standardized SMD mean difference and mean
difference calculated by the LSMD least squares method
- Zakład Immunopatologii, Katedra Alergologii, Immunologii i Dermatologii, Wydział Nauk Biomedycznych i Kształcenia Podyplomowego, Uniwersytet Medyczny w Łodzi
Alergologia Polska – Polish Journal of Allergology 2019; 6, 3: 90–99
Online publish date: 2019/10/07
Get citation
PlumX metrics:
Wstęp
Nauki medyczne oraz biomedyczne to dziedziny intensywnie wykorzystujące dane badawcze, które potrzebują zaawansowanych metod analizy i eksploracji tych danych [1]. Zastosowanie odpowiednich narzędzi statystycznych pozwala w sposób wiarygodny ocenić bezpieczeństwo i skuteczność leku [2]. Aby wybrać właściwe leczenie spośród wielu terapii uznanych za skuteczne, należy oprzeć się na dowodach z badań systematycznych dotyczących skuteczności oraz działań niepożądanych różnych terapii. Najbardziej efektywne wydaje się porównanie różnych metod leczenia na podstawie danych uzyskanych w badaniach z randomizacją (randomized) przeprowadzonych metodą podwójnej ślepej próby (double-blind) oraz w badaniach bezpośrednich (head-to-head trials) [1, 2].
Opisane do tej pory metody statystyczne pomagają ocenić wielkość różnic między dwiema lub więcej interwencjami w badaniach klinicznych i zapewniają lepsze oszacowanie efektów leczenia niż opieranie się jedynie na wartościach p (wynik istotny statystycznie) [3]. Należą do nich takie metody, jak standaryzowana różnica średnich (standardized mean difference – SMD) oraz różnica średnich obliczona metodą najmniejszych kwadratów (least squares mean difference – LSMD) [2, 4]. Na klinicyście spoczywa obowiązek zebrania uzyskanych wyników oraz wyboru odpowiednich metod w celu wykonania analizy statystycznej [3].
Celem niniejszego artykułu jest zapoznanie czytelników z metodami SMD oraz LSMD, które służą porównywaniu skuteczności interwencji w badaniach, oraz przedstawienie przykładów, w jaki sposób te metody można wykorzystać przy podejmowaniu decyzji o leczeniu.
Metody statystyczne i ich interpretacja w badaniach porównawczych leków
Gdy wyniki badań klinicznych są istotne statystycznie, nie należy wybierać metody leczenia na podstawie porównań istotności statystycznej, ponieważ na jej wielkość duży wpływ ma liczba badanych pacjentów. Dlatego niewielka próba wysoce skutecznej terapii może mieć statystycznie istotny wynik, który jest mniejszy niż wynik dużej próby umiarkowanie skutecznego leczenia [2].
Chociaż wyniki analiz statystycznych dostarczają kluczowych informacji, wielkość istotności statystycznej niekoniecznie wskazuje na wielkość efektu leczenia. W związku z tym niemożliwe jest ustalenie na podstawie stopnia istotności statystycznej, jak na przykład skuteczność nowej terapii ocenianej w jednym badaniu wypada w porównaniu ze skutecznością innych ustalonych lub nowych metod leczenia tego samego przypadku [5].
Problem interpretacji znaczenia statystycznego można rozwiązać, jeśli zastosuje się koncepcję wielkości efektu, która została opracowana, aby umożliwić porównanie skuteczności między badaniami klinicznymi. Wielkość efektu może pomóc w podjęciu decyzji, czy często niewielki wzrost skuteczności nowszych terapii jest wystarczający, aby uzasadnić wprowadzenie nowej metody leczenia [2]. W tym celu należy dokładnie przeanalizować efektywność powszechnie stosowanych terapii. Jednak porównanie badań klinicznych dotyczących różnych leków lub metod terapeutycznych może być trudne. W wielu przypadkach stosuje się miary wielkości efektu. Jak sama nazwa wskazuje, jej oszacowanie dostarcza możliwą do interpretacji wartość wielkości efektu leczenia. Tę miarę można następnie wykorzystać do porównania uzyskanej skuteczności terapii z podobnie obliczonymi miarami skuteczności leczenia w innych badaniach, w których stosuje się pozornie nieporównywalne miary [3, 5]. W związku z tym miary wielkości efektu są niezbędne, aby dokonać racjonalnych ocen.
Przykład 1
Zespół klinicystów przeprowadził badanie oceniające skuteczność terapii bólu pleców za pomocą 5-punktowej skali oceny intensywności bólu. Równolegle trwało badanie z zastosowaniem 10-punktowej skali oceny. W takim przypadku nie można porównać wyników, ponieważ nawet 1-punktowy spadek ma inne znaczenie dla każdej skali [2]. Nawet jeśli dwa badania wykorzystują tę samą miarę, nie można porównać zmienionych wyników między leczeniem a placebo albo alternatywnym leczeniem, ponieważ badania te mogą się różnić standardami dokładności pomiaru. Stosowanie różnych skal pomiaru i różnice w jego precyzji utrudniają porównanie badań. Trudności te można ominąć, jeśli oszacuje się wielkość efektu [2, 5].
Standaryzowana różnica średnich jako miara wielkości efektu
Miary wielkości efektu stosuje się do mierzenia wpływu pewnego czynnika na wynik ogólny grupy, czyli siły związku między zmienną niezależną (np. dawka leku) a zmienną zależną (np. stężenie cholesterolu we krwi) [6]. Należy pamiętać, że interpretacja wielkości efektu opiera się na założeniu normalności rozkładów wyników porównywanych grup i nie zależy od wielkości próby [5]. Wśród miar wielkości efektu wyróżnia się między innymi rodzinę d, do której zalicza się SMD, w programach statystycznych zamiennie określana jako d Cohena i stosowana dla testu t dla prób zależnych. Dla testu prób niezależnych stosuje się g Hedgesa, zaliczaną również do rodziny d [5, 6].
SMD jest stosowana, gdy badania podają skuteczność w kategoriach pomiaru ciągłego, takiego jak wynik na skali oceny intensywności bólu. Informacje dotyczące SMD przedstawiono w tabeli 1.
Przykład 2
Przeprowadzono liczne badania dotyczące stanu zdrowia psychicznego pacjentów. We wszystkich badaniach mierzono depresję, używając różnych skali psychometrycznych. W tej sytuacji konieczne jest ujednolicenie wyników badań według określonej skali przed ich połączeniem. SMD wyraża wielkość efektu interwencji w każdym badaniu w stosunku do zmienności zaobserwowanej w tym badaniu. SMD jest używana jako statystyka podsumowująca w metaanalizie, gdy wszystkie badania oceniają ten sam wynik, ale mierzą go na różne sposoby.
Wartość SMD oblicza się, dzieląc obserwowane różnice w średnich przez odpowiednie odchylenie standardowe w każdej próbie (tab. 1). Znormalizowane efekty leczenia są wyrażone jako jednostki odchylenia standardowego i powinny zapewnić, że efekty obserwowane w różnych badaniach mogą być statystycznie połączone niezależnie od rodzaju narzędzia stosowanego do oceny wyniku klinicznego [2].
Warto wiedzieć, że metoda SMD nie koryguje różnic w kierunku skali. Jeśli niektóre skale rosną wraz z nasileniem choroby, a inne maleją, konieczne jest pomnożenie średnich wartości z jednego zestawu badań przez –1 (lub alternatywnie odjęcie średniej od maksymalnej możliwej wartości dla skali), aby zapewnić, że wszystkie skale wskazują ten sam kierunek. Wszelkie takie korekty należy opisać w sekcji przeglądu dotyczącej metod statystycznych. Odchylenie standardowe nie wymaga modyfikacji [7, 8].
Wady metody SMD
Należy pamiętać, że oszacowane wielkości efektu z badań klinicznych, zwykle oparte na porównaniach aktywnych leków z placebo lub alternatywnym leczeniem, nie korelują bezpośrednio z reakcjami pacjentów w praktyce klinicznej. Niemniej większa świadomość wśród klinicystów doprowadziłaby do bardziej szczegółowej oceny literatury dotyczącej badań klinicznych niż poleganie wyłącznie na wartościach p [8]. Z kolei wiedzę na temat szacowania efektu leczenia można wykorzystać w celu promowania przestrzegania zaleceń przez pacjenta poprzez wykorzystanie dowodów epidemiologicznych opisujących ryzyko lub korzyści z leczenia lub interwencji [3]. W tabeli 2 przedstawiono wybrane przykłady badań klinicznych, w których analiza statystyczna obejmowała metodę SMD [9–14].
Różnica średnich obliczona metodą LSMD
Do najstarszych i najważniejszych metod obliczeniowych wykorzystywanych w analizach statystycznych należy metoda najmniejszych kwadratów, która polega na wyznaczaniu linii regresji (linii trendu) dla zebranych danych. Metoda ta służy do oszacowania zależności zarówno liniowej, jak i nieliniowej [4].
Przykład 3
W jednym z ośrodków badawczych w Polsce prowadzono badania dotyczące wpływu suplementacji witaminą D3 na poziom markerów prozapalnych we krwi. Metoda najmniejszych kwadratów ma na celu dopasowanie do uzyskanych par wyników (poziom markerów prozapalnych oraz dawka witaminy D3) takiej linii prostej (model liniowy), która jest do nich najlepiej dopasowana (obliczeniowo), aby ogólny błąd oszacowania (dla wszystkich danych) był jak najmniejszy [4].
Pojęcie regresji jest bardzo szerokie. Przykłady opisywane w niniejszym artykule dotyczą postaci liniowej. W tabeli 3 przedstawiono informacje dotyczące regresji liniowej oraz jej powiązania z LSMD.
W celu lepszego zrozumienia metody LSMD należy zapoznać się z samą ideą analizy regresji.
Klinicyści często są zainteresowani prognozowaniem: chcą wiedzieć, który pacjent zachoruje na dane schorzenie, a który nie, który pacjent poradzi sobie dobrze, a który będzie musiał pozostać dłużej w szpitalu, jak będą wyglądały postępy leczenia po zastosowaniu odpowiedniej terapii. Analiza regresji jest przydatna w rozwiązywaniu tego rodzaju problemów. Jak wiadomo, model regresyjny należy do najbardziej znanych metod statystycznych służących do analizy danych. Opiera się on na prognozowaniu lub przewidywaniu danych dla pewnej zmiennej na podstawie innych zmiennych. Krótko mówiąc, odpowiada na pytanie, jaką wartość przyjmie interesująca nas zmienna przy znanej nam wartości innej zmiennej. W tym celu należy za pomocą analizy regresji utworzyć model regresyjny, który przy założeniu błędu statystycznego będzie prognozował poziom i wartość cechy, którą chcemy zbadać [4, 6].
Przykład 4
Pracownicy firmy farmaceutycznej produkującej suplementy diety dla kobiet przeprowadzili analizę rynku w miastach w Polsce, która miała na celu prognozę efektów przyszłej sprzedaży. Na podstawie zebranych danych skonstruowali za pomocą analizy regresji model regresyjny, który wykazywał zależność liniową pomiędzy kobietami zamieszkującymi małe, średnie oraz duże miasta w wieku powyżej 30 lat a ich opinią na temat zażywania suplementów diety w celu poprawy stanu skóry, włosów i paznokci. Dzięki temu firma wprowadzająca nowy produkt może przewidywać lub prognozować z pewnym błędem, jakie będą efekty sprzedaży.
Opisany przykład pokazuje, że analiza regresji służy stwierdzeniu, czy bazując na danej zmiennej lub zestawie zmiennych, można prognozować inną zmienną, czyli zmienną zależną (objaśnianą), i jaki model będzie najdokładniejszy. Należy pamiętać, że model prognozy przewiduje pewien błąd oszacowania. Ten błąd będzie tym mniejszy, im model będzie lepszy. Zadaniem regresji jest zmniejszenie błędu oszacowania do tego stopnia, aby model regresji był użyteczny w swoich prognozach. Innymi słowy – tylko te modele będą spełniały zadanie, które będą cechowały się niskim błędem oszacowania [6, 15].
Kolejnym ważnym zagadnieniem w modelach regresji są zmienne (variables), czyli cechy, które badacz może rejestrować, mierzyć, kontrolować lub nimi manipulować (do pewnego stopnia). Należy pamiętać, że modele regresji charakteryzują się brakiem manipulacji zmiennymi niezależnymi. Regresja opiera się na wykonaniu pomiaru zmiennych niezależnych i zmiennych zależnych [16]. Zmienne zależne (objaśniające) opisują czynniki ryzyka – manipulowane przez badacza, np. stężenie roztworu, oznaczane jako x – i są zależne od woli badacza. Zmienne niezależne (wyjaśniane, objaśniane) mogą być jedynie mierzone i rejestrowane przez badacza, który nie ma wpływu na to, jakie wartości przyjmują, np. masa ciała, wiek, stężenie glukozy we krwi. Są oznaczane jako y i są zależne od x. Nie dochodzi tu do manipulacji wartościami zmiennych, dlatego w regresji nie mówi się o wpływie jednej zmiennej na drugą [16, 17]. Chodzi o wyjaśnienie za pomocą jednej zmiennej lub zestawu zmiennych jakiejś innej zmiennej, a nie o wpływanie na nią. Istotna zależność pomiędzy zmienną niezależną a zmienną zależną może dotyczyć jedynie współwystępowania zmiennych, a nie rzeczywistego wpływu jednej zmiennej na drugą [16].
W tabeli 4 przedstawiono zestawienie wybranych przykładów badań klinicznych, w których analiza statystyczna obejmowała metodę LSMD [18–23].
Wady metody najmniejszych kwadratów
Metoda najmniejszych kwadratów nie toleruje w zbiorze danych wartości odstających. Wynika to z faktu, że wartość odstająca wpływa na linię regresji. Dlatego w analizie regresji eliminuje się wartości odstające z utworzonych baz danych, aby nie zaburzały postaci linii regresji. Pozostawienie wartości odstających skutkuje zmianą kierunku linii i powoduje, że taki model traci swoją funkcję, jaką jest przewidywanie [4, 15].
LSMD czy SMD?
Wybór metody zależy od „charakteru” uzyskanych danych. Jeżeli dane układają się w widoczny trend (widać, że wyniki rosną lub nie), wtedy metoda najmniejszych kwadratów będzie bardziej przejrzysta (LSMD). Gdy dane są rozrzucone na skali ocen, lepiej nie wybierać metody LSMD, ponieważ jest to metoda predykcyjna, czyli próbująca przewidzieć wartości na podstawie istniejących danych. Każdy rozrzut danych spowoduje, że przewidywanie (lub predykcja) będzie o wiele mniej dokładne. SMD to wskaźnik liczony na podstawie średnich z wszystkich danych, co zmniejsza wpływ danych odstających, ponieważ przy liczeniu średnich mają one o wiele mniejszy wpływ na średnią [4, 15].
Wartości SMD oraz LSMD należy przedstawiać wraz z podaniem zastosowanego przedziału ufności (tab. 3 i 4), który pokazuje, na ile można ufać danej wartości. Przedział ufności informuje, czy poszukiwana przez nas wartość zawiera się (z założonym prawdopodobieństwem) w określonym przedziale, czyli dostarcza wartości zakresu (od – do), w którym z założonym prawdopodobieństwem znajduje się interesująca nas wartość. Przedział ufności oznacza się jako CI (confidence interval), np. 95% CI [24]. Taki przedział oznacza, że mamy 5% szans na pomylenie się w obliczeniach badawczych, czyli 5% szans na to, że prawdziwa wartość średnia znajduje się poza przedziałem, który został wyznaczony. Prawdopodobieństwo może być również większe lub mniejsze. Jeżeli zwiększy się prawdopodobieństwo np. do 99%, wówczas wyznaczony zakres się rozszerzy, natomiast jeśli zmniejszy się prawdopodobieństwo np. do 90%, wtedy zakres się zmniejszy [8].
Podsumowanie
Do prawidłowego i skutecznego stosowania metod analizy danych oraz ich eksploracji w przypadku podejmowania decyzji niezbędna jest wiedza statystyczna. To na badaczu spoczywa obowiązek wyboru odpowiedniej metody opracowania uzyskanych danych. Medycyna i nauki biomedyczne szeroko wykorzystują dane badawcze, dlatego wymagają zastosowania precyzyjnie dobranych metod i podejść, aby analizować coraz bardziej złożone zbiory danych. W przypadku porównywania skuteczności leków doskonale sprawdza się metoda SMD, która jest miarą wielkości efektu, oraz LSMD, zaliczana do metod predykcyjnych. Obie metody umożliwiają prawidłowe oszacowanie efektów leczenia, co wynika z przeglądu literatury dotyczącej badań klinicznych poświęconych skuteczności różnych interwencji terapeutycznych.
Konflikt interesów
Autorzy nie zgłaszają konfliktu interesów.
Piśmiennictwo
1. Bellazzi R, Diomidous M, Sarkar IN, et al. Data analysis and data mining: current issues in biomedical informatics. Methods Inf Med 2011; 50: 536-544.
2. Faraone SV. Interpreting estimates of treatment effects implications for managed care. P&T 2008; 33: 700-711.
3. McGough JJ, Faraone SV. Estimating the size of treatment effects: moving beyond p values. Psychiatry 2009; 6: 21-29.
4. Lenth RV. Least-squares means: the r package ls means. J Statist Software 2016; 69: 1-33.
5. Livingston EH, Elliot A, Hynan L, et al. Effect size estimation. a necessary component of statistical analysis. Arch Surg 2009; 144: 706-722.
6. Murad MH, Drake MT, Mullan RJ, et al. Comparative effectiveness of drug treatments to prevent fragility fractures: a systematic review and network meta-analysis. J Clin Endocrinol Metab 2012; 97: 1871-1880.
7. handbook-51.cochrane.org/chapter_9/9_2_3_2_the_standardized_mean_difference.htm
8. Chavalarias D, Wallach JD, Li AH, et al. Evolution of reporting P values in the biomedical literature, 1990-2015. JAMA 2016; 315: 1141-1148.
9. Zeng C, Wei J, Persson MSM, et al. Relative efficacy and safety of topical non-steroidal anti-inflammatory drugs for osteoarthritis: a systematic review and network meta-analysis of randomised controlled trials and observational studies. Br J Sports Med 2018; 52: 642-650.
10. Helfer B, Samara MT, Huhn M, et al. Efficacy and safety of antidepressants added to antipsychotics for schizophrenia: a systematic review and meta-analysis. AJP in Advance 2016; 173: 876-886.
11. Ford AC, Quigley EMM, Lacy BE, et al. Efficacy of prebiotics, probiotics, and synbiotics in irritable bowel syndrome and chronic idiopathic constipation: systematic review and meta-analysis. Am J Gastroenterol 2014; 109: 1547-1561.
12. Schmidt-Hansen M, Bennett MI, Arnold S, et al. Oxycodone for cancer-related pain. Cochrane Database Syst Rev 2015; 27: CD003870.
13. Hartling L, Fernandes RM, Bialy L, et al. Steroids and bronchodilators for acute bronchiolitis in the first two years of life: systematic review and meta analysis. BMJ 2011; 342: d1714.
14. Kalish L, Snidvongs K, Sivasubramaniam R, et al. Topical steroids for nasal polyps (Review). Cochrane Database Syst Rev 2012; 12: CD006549.
15. Nick TG, Campbell KM. Logistic regression. Methods Mol Biol 2007; 404: 273-301.
16. Guyatt G, Walter S, Shannon H, et al. Basic statistics for clinicians: correlation and regression. CMAJ 1995; 152: 497-504.
17. Mesa JL. Understanding data in clinical research: a simple graphical display for plotting data (up to four independent variables) after binary logistic regression analysis. Med Hypotheses 2004; 62: 228-232.
18. Ghofrani HA, D’Armini AD, Grimminger F, et al. Riociguat for the treatment of chronic thromboembolic pulmonary hypertension. N Engl J Med 2013; 369: 319-329.
19. Cherian JJ, Parvizi J, Bramlet D, et al. Preliminary results of a phase II randomized study to determine the efficacy and safety of genetically engineered allogeneic human chondrocytes expressing TGF-b1 in patients with grade 3 chronic degenerative joint disease of the knee. Osteoarthritis Cartilage 2015; 23: 2109-2118.
20. Calabrese JR, Keck PE, Starace A, et al. Efficacy and safety of low- and high-dose cariprazine in acute and mixed mania associated with bipolar i disorder: a double-blind, placebo-controlled study. J Clin Psychiatry 2015; 76: 284-292.
21. Barabássy A, Laszlovszky I, Szatmári B, et al. Day-to-day and social functioning of patients with negative symptoms of schizophrenia: post-hoc analyses of a phase 3 clinical trial with cariprazine monotherapy and risperidone. 25th European Congress of Psychiatry/European Psychiatry 2017; 41: 238-302.
22. Tuttle KR, Brosius FC, Adler SG, et al. JAK1/JAK2 inhibition by baricitinib in diabetic kidney disease: results from a phase 2 randomized controlled clinical trial. Nephrol Dial Transplant 2018; 33: 1950-1959.
23. Donohue JF, Soong W, Wu X, et al. Longterm safety of aclidinium bromide/formoterol fumarate fixed- dose combination: results of a randomized 1-year trial in patients with COPD. Respir Med 2016; 116: 41-48.
24. Murad MH, Montori VM, Ioannidis JPA. How to read a systematic review and meta-analysis and apply the results to patient care users’ guides to the medical literature. JAMA 2014; 312: 171-179.
Copyright: © Polish Society of Allergology This is an Open Access article distributed under the terms of the Creative Commons Attribution-Noncommercial-No Derivatives 4.0 International (CC BY-NC-SA 4.0). License (http://creativecommons.org/licenses/by-nc-sa/4.0/), allowing third parties to copy and redistribute the material in any medium or format and to remix, transform, and build upon the material, provided the original work is properly cited and states its license.
|
|