iStock
Czy na podstawie porównań pośrednich można wnioskować o skuteczności terapii w rdzeniowym zaniku mięśni (SMA)?
Redaktor: Agata Misiurewicz-Gabi
Data: 01.06.2023
Źródło: Kurier Medyczny/Damian Matusiak, Agata Misiurewicz-Gabi i Małgorzata Solarczyk
Esencją nauki – a zatem i medycyny – są dowody, których jakość różni się w zależności od zastosowanej metodologii. Najwyższą wiarygodnością charakteryzują się przeglądy systematyczne randomizowanych badań klinicznych z metaanalizą. W wielu przypadkach brakuje jednak wysokiej jakości danych, a jeśli nawet są dostępne, to wyciąganie wiarygodnych wniosków porównawczych jest ograniczone, gdyż najczęściej nie dotyczą porównań z aktywnym komparatorem, lecz z placebo. W takich sytuacjach wykonywane są porównania pośrednie.
Warunkiem przeprowadzenia porównania pośredniego jest dokonanie oceny heterogeniczności metodycznej i klinicznej badań włączonych do analizy. Wytyczne zalecają dokładną analizę badanej populacji, interwencji stanowiącej ramię referencyjne i punktów końcowych, a następnie przedstawienie w formie tabelarycznej zidentyfikowanych różnic. Jeżeli heterogeniczność badań jest zbyt duża, należy poprzestać na jakościowym zestawieniu wyników. W przypadku braku możliwości przeprowadzenia porównania przez ramię referencyjne można rozważyć zastosowanie jednej z metod wskazanych przez wytyczne HTA (health technology assessment): proste zestawienie badań bez dostosowania (naive comparison), porównanie z danymi historycznymi (benchmarking with historical controls), porównanie wyników badań po korekcie o różnice w charakterystyce populacji (matching adjusted indirect comparison – MAIC) (ryc. 1).
Wytyczne HTA podkreślają, że interpretacja wyników porównań pośrednich powinna być bardzo ostrożna. Należy również wskazać ograniczenia oraz przeprowadzić analizę wrażliwości pozwalającą na ocenę wpływu poszczególnych badań (zwłaszcza tych odbiegających metodologicznie) na wynik porównania1.
Niedostosowane porównanie pośrednie
Wśród metod niedostosowanych wyróżnia się pierwotne porównanie oszacowań punktowych i wyników dla pojedynczych ramion z niezależnych badań, tak jakby pochodziły z jednego badania. Metoda ta nie jest zalecana, ponieważ ignoruje randomizowaną naturę materiałów źródłowych. Kolejną wadą takiego podejścia jest ignorowanie mocy statystycznej oszacowań i wykluczenie wnioskowania na podstawie przedziałów ufności1.
Dostosowanie metodą Buchera
Metodą dostosowanego porównania pośredniego jest metoda Buchera. Pierwotnie została wprowadzona w celu obliczania ilorazu szans (odds ratio – OR) w sytuacji, gdy chcemy porównać A vs C, podczas gdy mamy dostępne porównania bezpośrednie A vs B i B vs C. Metoda Buchera może być zastosowana tylko do badań dwuramiennych. Zakłada ona również, że względna skuteczność ocenianej interwencji jest taka sama we wszystkich badaniach włączonych do analizy, dlatego istotne jest, żeby uwzględnione badania były zbliżone pod kątem metodyki, punktów końcowych, stosowanych interwencji i charakterystyki populacji. W celu oszacowania efektu z taką samą precyzją jak w przypadku porównania bezpośredniego należy wykorzystać 4-krotnie więcej danych, co powoduje, że z matematycznego punktu widzenia jest to metoda mniej efektywna niż porównanie bezpośrednie1.
Porównanie pośrednie z dopasowaniem populacji
Analiza MAIC jest metodą porównania pośredniego, której celem jest zniesienie heterogeniczności wynikającej z odmiennej charakterystyki populacji w badaniach włączonych do porównania pośredniego, aby uzyskać wiarygodniejsze porównanie danych interwencji. W przeciwieństwie do klasycznego porównania pośredniego wykorzystującego dane zagregowane metoda MAIC wymaga dostępu do danych poszczególnych pacjentów (individual patient data – IPD) z przynajmniej jednej interwencji. Na tej podstawie wykonuje się ważenie efektu, aby określić, jaki wynik powinien być uzyskany w populacji badania porównawczego1.
Metoda MAIC może być stosowana do badań jednoramiennych lub badań bez wspólnego komparatora. W takich sytuacjach, jak interwencje chirurgiczne, choroby rzadkie, choroby nowotworowe o złym rokowaniu, zastosowanie IPD może być jedynym sposobem dostosowania różnic między próbami i powinno być preferowane w stosunku do porównań nieskorygowanych. Brak wspólnego ramienia porównawczego należy jednak odnotować jako istotne ograniczenie, ponieważ walidacja dopasowania lub zastosowanie względnych miar efektu nie będą możliwe2. W związku z powyższym wykonanie wiarygodnych porównań pośrednich stanowi wyzwanie i zawsze należy traktować ich wyniki z ostrożnością. Przykładem zastosowania metody MAIC jest porównanie terapii stosowanych w rdzeniowym zaniku mięśni przedstawione w publikacji Ribero i wsp. z 2022 r.3. Jednym z warunków właściwego porównania pośredniego jest kompatybilność porównywanych badań. Nie jest on spełniony w przypadku analizy Ribero i wsp. Autorzy porównują badanie fazy 2/3 FIREFISH (otwarte, jednoramienne) z badaniem fazy 3 ENDEAR (randomizowane, podwójnie zaślepione, kontrolowane placebo). Popełniono istotny błąd dotyczący czasu obserwacji, zestawiając przedwcześnie zakończone po 9 miesiącach badanie ENDEAR (wysoce istotne wyniki w pierwszych miesiącach leczenia) z ponad 12-miesiecznym FIREFISH i nie rozważając porównania tego ostatniego z otwartym przedłużeniem ENDEAR – badaniem SHINE. Ribero i wsp. w sposób niezgodny z przyjętymi wytycznymi zestawiają badanie wyjściowe z zawężoną populacją (FIREFISH) z badaniem włączającym szerszą populację na podstawie danych zagregowanych (ENDEAR). Czynniki, które miałyby zrównoważyć porównywane populacje, zostały ograniczone do trzech: średniego wieku przyjęcia pierwszej dawki, średniego czasu trwania choroby oraz średniego wyniku w skali CHOP-INTEND. Pomimo uwzględnienia danych jednostkowych z badania FIREFISH i próby dopasowania ich do populacji z badania ENDEAR nie uwzględniono kluczowych różnic wynikających z innego sposobu opisu populacji włączonej i kryteriów wykluczenia.
W badaniu ENDEAR 51 proc. badanych pacjentów wymagało wsparcia żywieniowego, podczas gdy w publikacji Ribero i wsp. uwzględniono jedynie 9-procentową subpopulację chorych żywionych przez zgłębnik gastrostomijny. Ponadto podczas analiz charakterystyk populacji założono jednorodność w zakresie funkcji układu oddechowego. Tymczasem szczegółowa analiza kryteriów wykluczenia z badania FIREFISH wskazuje, że z badania zostali wykluczeni chorzy hospitalizowani w ciągu ostatnich 2 miesięcy z powodu zaburzeń oddychania, stosujący wentylację nieinwazyjną w czasie czuwania, z hipoksemią w czasie czuwania, z niewydolnością oddechową w wywiadzie lub ciężkim zapaleniem płuc i brakiem pełni sprawności wentylacyjnej w czasie badania przesiewowego. Warto podkreślić, że z badania ENDEAR takich chorych nie wykluczono. Błędne dopasowanie populacji z tych dwóch badań pod względem tak istotnych parametrów skłania ku temu, by porównania MAIC przedstawione we wspomnianej publikacji uznać za mało wiarygodne.
Powyżej analizowane różnice w błędnie dopasowanych populacjach oraz jakość analizy MAIC zostały również skomentowane przez agencje oceny technologii medycznych na całym świecie.
Piśmiennictwo:
1. Szwarc N, Kaczorek-Juszkiewicz A, Kalbarczyk A. Porównania pośrednie w analizach klinicznych ocenianych przez AOTMiT – przegląd i opis zastosowanych metod. Agencja Oceny Technologii Medycznych i Taryfikacji, Warszawa 2019.
2. Signorovitch JE, Sikirica V, Erder HM i wsp. Matching-adjusted indirect comparisons: a new tool for timely comparative eff ectiveness research. Value Health 2012; 15: 940-947.
3. Ribero VA, Daigl M, Mart Y i wsp. How does risdiplam compare with other treatments for types 1–3 spinal muscular atrophy: a systematic literature review and indirect treatment comparison. J Comp Eff Res 2022; 11: 347-370.
Opracowanie: Damian Matusiak i Małgorzata Solarczyk.
Artykuły pochodzą z „Kuriera Medycznego” 3/2023.
Wytyczne HTA podkreślają, że interpretacja wyników porównań pośrednich powinna być bardzo ostrożna. Należy również wskazać ograniczenia oraz przeprowadzić analizę wrażliwości pozwalającą na ocenę wpływu poszczególnych badań (zwłaszcza tych odbiegających metodologicznie) na wynik porównania1.
Niedostosowane porównanie pośrednie
Wśród metod niedostosowanych wyróżnia się pierwotne porównanie oszacowań punktowych i wyników dla pojedynczych ramion z niezależnych badań, tak jakby pochodziły z jednego badania. Metoda ta nie jest zalecana, ponieważ ignoruje randomizowaną naturę materiałów źródłowych. Kolejną wadą takiego podejścia jest ignorowanie mocy statystycznej oszacowań i wykluczenie wnioskowania na podstawie przedziałów ufności1.
Dostosowanie metodą Buchera
Metodą dostosowanego porównania pośredniego jest metoda Buchera. Pierwotnie została wprowadzona w celu obliczania ilorazu szans (odds ratio – OR) w sytuacji, gdy chcemy porównać A vs C, podczas gdy mamy dostępne porównania bezpośrednie A vs B i B vs C. Metoda Buchera może być zastosowana tylko do badań dwuramiennych. Zakłada ona również, że względna skuteczność ocenianej interwencji jest taka sama we wszystkich badaniach włączonych do analizy, dlatego istotne jest, żeby uwzględnione badania były zbliżone pod kątem metodyki, punktów końcowych, stosowanych interwencji i charakterystyki populacji. W celu oszacowania efektu z taką samą precyzją jak w przypadku porównania bezpośredniego należy wykorzystać 4-krotnie więcej danych, co powoduje, że z matematycznego punktu widzenia jest to metoda mniej efektywna niż porównanie bezpośrednie1.
Porównanie pośrednie z dopasowaniem populacji
Analiza MAIC jest metodą porównania pośredniego, której celem jest zniesienie heterogeniczności wynikającej z odmiennej charakterystyki populacji w badaniach włączonych do porównania pośredniego, aby uzyskać wiarygodniejsze porównanie danych interwencji. W przeciwieństwie do klasycznego porównania pośredniego wykorzystującego dane zagregowane metoda MAIC wymaga dostępu do danych poszczególnych pacjentów (individual patient data – IPD) z przynajmniej jednej interwencji. Na tej podstawie wykonuje się ważenie efektu, aby określić, jaki wynik powinien być uzyskany w populacji badania porównawczego1.
Metoda MAIC może być stosowana do badań jednoramiennych lub badań bez wspólnego komparatora. W takich sytuacjach, jak interwencje chirurgiczne, choroby rzadkie, choroby nowotworowe o złym rokowaniu, zastosowanie IPD może być jedynym sposobem dostosowania różnic między próbami i powinno być preferowane w stosunku do porównań nieskorygowanych. Brak wspólnego ramienia porównawczego należy jednak odnotować jako istotne ograniczenie, ponieważ walidacja dopasowania lub zastosowanie względnych miar efektu nie będą możliwe2. W związku z powyższym wykonanie wiarygodnych porównań pośrednich stanowi wyzwanie i zawsze należy traktować ich wyniki z ostrożnością. Przykładem zastosowania metody MAIC jest porównanie terapii stosowanych w rdzeniowym zaniku mięśni przedstawione w publikacji Ribero i wsp. z 2022 r.3. Jednym z warunków właściwego porównania pośredniego jest kompatybilność porównywanych badań. Nie jest on spełniony w przypadku analizy Ribero i wsp. Autorzy porównują badanie fazy 2/3 FIREFISH (otwarte, jednoramienne) z badaniem fazy 3 ENDEAR (randomizowane, podwójnie zaślepione, kontrolowane placebo). Popełniono istotny błąd dotyczący czasu obserwacji, zestawiając przedwcześnie zakończone po 9 miesiącach badanie ENDEAR (wysoce istotne wyniki w pierwszych miesiącach leczenia) z ponad 12-miesiecznym FIREFISH i nie rozważając porównania tego ostatniego z otwartym przedłużeniem ENDEAR – badaniem SHINE. Ribero i wsp. w sposób niezgodny z przyjętymi wytycznymi zestawiają badanie wyjściowe z zawężoną populacją (FIREFISH) z badaniem włączającym szerszą populację na podstawie danych zagregowanych (ENDEAR). Czynniki, które miałyby zrównoważyć porównywane populacje, zostały ograniczone do trzech: średniego wieku przyjęcia pierwszej dawki, średniego czasu trwania choroby oraz średniego wyniku w skali CHOP-INTEND. Pomimo uwzględnienia danych jednostkowych z badania FIREFISH i próby dopasowania ich do populacji z badania ENDEAR nie uwzględniono kluczowych różnic wynikających z innego sposobu opisu populacji włączonej i kryteriów wykluczenia.
W badaniu ENDEAR 51 proc. badanych pacjentów wymagało wsparcia żywieniowego, podczas gdy w publikacji Ribero i wsp. uwzględniono jedynie 9-procentową subpopulację chorych żywionych przez zgłębnik gastrostomijny. Ponadto podczas analiz charakterystyk populacji założono jednorodność w zakresie funkcji układu oddechowego. Tymczasem szczegółowa analiza kryteriów wykluczenia z badania FIREFISH wskazuje, że z badania zostali wykluczeni chorzy hospitalizowani w ciągu ostatnich 2 miesięcy z powodu zaburzeń oddychania, stosujący wentylację nieinwazyjną w czasie czuwania, z hipoksemią w czasie czuwania, z niewydolnością oddechową w wywiadzie lub ciężkim zapaleniem płuc i brakiem pełni sprawności wentylacyjnej w czasie badania przesiewowego. Warto podkreślić, że z badania ENDEAR takich chorych nie wykluczono. Błędne dopasowanie populacji z tych dwóch badań pod względem tak istotnych parametrów skłania ku temu, by porównania MAIC przedstawione we wspomnianej publikacji uznać za mało wiarygodne.
Powyżej analizowane różnice w błędnie dopasowanych populacjach oraz jakość analizy MAIC zostały również skomentowane przez agencje oceny technologii medycznych na całym świecie.
Piśmiennictwo:
1. Szwarc N, Kaczorek-Juszkiewicz A, Kalbarczyk A. Porównania pośrednie w analizach klinicznych ocenianych przez AOTMiT – przegląd i opis zastosowanych metod. Agencja Oceny Technologii Medycznych i Taryfikacji, Warszawa 2019.
2. Signorovitch JE, Sikirica V, Erder HM i wsp. Matching-adjusted indirect comparisons: a new tool for timely comparative eff ectiveness research. Value Health 2012; 15: 940-947.
3. Ribero VA, Daigl M, Mart Y i wsp. How does risdiplam compare with other treatments for types 1–3 spinal muscular atrophy: a systematic literature review and indirect treatment comparison. J Comp Eff Res 2022; 11: 347-370.
Opracowanie: Damian Matusiak i Małgorzata Solarczyk.
Porównania pośrednie mają ograniczoną wartość
Newseria
W jakim stopniu lekarze kierują się wynikami analiz pośrednich przy wyborze terapii? Jakie parametry należy uwzględnić, aby takie analizy były najbardziej wiarygodne? Zapytaliśmy o to prof. dr hab. n. med. Katarzynę Kotulską-Józwiak z Kliniki Neurologii i Epileptologii Instytutu „Pomnik – Centrum Zdrowia Dziecka”.
Czy podejmowanie decyzji terapeutycznych lub wyciąganie wniosków na podstawie analiz pośrednich, między innymi analiz MAIC, w chorobach rzadkich jest właściwe?
– Chciałabym podkreślić, że każde porównanie jest wartościowe i każdemu warto się przyjrzeć. W chorobach rzadkich, zwłaszcza w przypadku wprowadzania nowych terapii we wcześniej nieuleczalnych schorzeniach, bardzo rzadko mamy do czynienia z porównaniami bezpośrednimi leków w ramach badań klinicznych. Porównania pośrednie mogą zatem czasami uzupełniać tę lukę, ale należy pamiętać, że mają ograniczoną wartość, jeśli różnią się populacje badanych pacjentów oraz punkty końcowe. W przypadku rdzeniowego zaniku mięśni (spinal muscular atrophy – SMA) należy wspomnieć jeszcze o jednym uwarunkowaniu, znacznie ograniczającym możliwość wykorzystania porównań leków w praktyce klinicznej. W Polsce program lekowy jest dość ograniczający, jeśli chodzi o wybór terapii. Mamy bardzo wyraźne wskazania, dla kogo jest przeznaczona terapia nusinersenem (najszersza grupa pacjentów), dla kogo terapia doustna rysdyplamem i dla kogo terapia genowa lekiem onasemnogen abeparwowek. W znacznym stopniu są to wskazania odmienne. W zasadzie jedyna dowolność i możliwość wyboru terapii istnieje w części przypadków w zakresie terapii genowej, gdzie u niektórych pacjentów można zastosować bądź nusinersen, bądź terapię genową. Z kolei wykorzystanie rysdyplamu jest możliwe tylko wtedy, gdy istnieją trudności w podaniu nusinersenu lub przeciwwskazania do jego stosowania. Warto wspomnieć jeszcze o jednym zjawisku, które widzimy bardzo wyraźnie w wynikach leczenia pacjentów w polskim programie lekowym. Najwcześniej włączane do leczenia grupy obejmowały najciężej chorych pacjentów, często długo już chorujących. Pacjenci włączani w ostatnim czasie do terapii to zwykle świeżo zdiagnozowane przypadki. Wyraźnie widać różnice nie tylko w ich stanie wyjściowym, lecz także w skuteczności leczenia, co odzwierciedla udowodnione twierdzenie o wyższej skuteczności wcześniejszego leczenia. To stwarza dodatkową trudność przy porównaniach, ponieważ trzeba uwzględnić także kryterium czasu i dostępność terapii. Co ważne, ta trudność dotyczy również grup pacjentów leczonych tym samym lekiem.
„Porównania pośrednie w chorobach rzadkich, w tym w SMA, maja ograniczona wartość, jeśli różnią się populacje badanych pacjentów, punkty końcowe oraz zastosowane skale oceny. Aby dokonywać analizy porównawczej skuteczności, powinniśmy mieć do dyspozycji te sama skale, ten sam czas obserwacji i te same parametry”
Jakie czynniki – zdaniem pani profesor jako eksperta w leczeniu SMA – należałoby wziąć pod uwagę podczas próby porównania skuteczności terapii stosowanych w tej chorobie?
– Przede wszystkim należałoby uwzględnić populacje pacjentów, którzy są leczeni. Nie tylko wiek, typ SMA, liczbę kopii genu SMN2, które są oczywiście czynnikami bardzo łatwymi do sprawdzenia, lecz także stopień zaawansowania choroby i czas jej trwania od wystąpienia pierwszych objawów do momentu, w którym terapia została włączona. To są czynniki, które wydają się w największym stopniu wpływać na wynik leczenia i powinny być brane pod uwagę. Druga rzecz to mierniki skuteczności, tzn. punkty końcowe w badaniach czy w praktyce klinicznej. Znaczy to, że powinniśmy mieć do dyspozycji tę samą skalę, ten sam czas obserwacji, te same parametry, na które będziemy patrzeć, porównując skuteczność różnych terapii.
Jaki wpływ na wyniki dotyczące przeżycia lub przeżycia wolnego od zdarzenia w badaniu ENDEAR ma włączona do niego populacja pacjentów?
– Badanie ENDEAR było pierwszym badaniem w SMA typu 1, czyli w bardzo ciężkiej postaci choroby, w której objawy występują u niemowląt do 6. miesiąca zżycia i w naturalnym przebiegu ponad 90 proc. pacjentów wymaga włączenia wentylacji mechanicznej bądź umiera do 2. roku życia. Niewątpliwie na wyniki tego badania miały wpływ wiek pacjentów i stopień zaawansowania choroby przed włączeniem leczenia. W tym przypadku były to dzieci z objawami choroby, a wiemy już, że rozpoczęcie leczenia jeszcze przed wystąpieniem objawów jest zdecydowanie najskuteczniejsze. W związku z tym u pacjentów mających objawy spodziewamy się nieco gorszych efektów niż u pacjentów w okresie przedobjawowym. Obecnie w Polsce powszechnie wykonuje się diagnostykę w kierunku SMA w ramach badań przesiewowych noworodków. Diagnozujemy SMA bardzo wcześnie, w większości przypadków właśnie w przedobjawowej fazie choroby, więc w praktyce klinicznej spodziewam się lepszych wyników niż opisane w raportach z badania ENDEAR.
„Polski program lekowy jest jednym z najlepiej działających na świecie, a w połączeniu z powszechnym badaniem przesiewowym noworodków oferuje polskim pacjentom optymalne obecnie możliwości terapii SMA”
Czy można rzetelnie porównać badania FIREFISH i ENDEAR, biorąc pod uwagę opisane różnice pomiędzy nimi?
– To zależy od tego, w jaki sposób to porównanie się wykona. Należy podkreślić, że niestety w badaniach FIREFISH i ENDEAR nie zastosowano takich samych parametrów, co pozwoliłoby łatwo taką analizę przeprowadzić. Oczywiście wszyscy bardzo tego żałujemy, bo chcielibyśmy wiedzieć, jaką skutecznością i jakim bezpieczeństwem charakteryzuje się każdy z badanych leków. Być może dzięki temu można by wskazać w grupie pacjentów z SMA takich, dla których skuteczniejsze byłoby leczenie rysdyplamem, i takich, którzy bardziej skorzystają z terapii nusinersenem. Mam jednak nadzieję, że w przyszłości będziemy mieć do dyspozycji nowe badania i porównania nie tylko z badań klinicznych, lecz także z codziennej praktyki. Coraz więcej krajów wykonuje badania przesiewowe noworodków w kierunku SMA, w związku z czym będziemy mogli porównać efekty leczenia podjętego wcześniej niż w badaniach klinicznych i to zarówno u pacjentów mających objawy, jak i w okresie przedobjawowym. Przygotowujemy takie dane również na podstawie polskiego programu lekowego, który jest jednym z najlepiej działających na świecie, a w połączeniu z powszechnym badaniem przesiewowym noworodków oferuje polskim pacjentom optymalne obecnie możliwości terapii SMA.
Rozmawiała Agata Misiurewicz-Gabi.
Newseria
W jakim stopniu lekarze kierują się wynikami analiz pośrednich przy wyborze terapii? Jakie parametry należy uwzględnić, aby takie analizy były najbardziej wiarygodne? Zapytaliśmy o to prof. dr hab. n. med. Katarzynę Kotulską-Józwiak z Kliniki Neurologii i Epileptologii Instytutu „Pomnik – Centrum Zdrowia Dziecka”.
Czy podejmowanie decyzji terapeutycznych lub wyciąganie wniosków na podstawie analiz pośrednich, między innymi analiz MAIC, w chorobach rzadkich jest właściwe?
– Chciałabym podkreślić, że każde porównanie jest wartościowe i każdemu warto się przyjrzeć. W chorobach rzadkich, zwłaszcza w przypadku wprowadzania nowych terapii we wcześniej nieuleczalnych schorzeniach, bardzo rzadko mamy do czynienia z porównaniami bezpośrednimi leków w ramach badań klinicznych. Porównania pośrednie mogą zatem czasami uzupełniać tę lukę, ale należy pamiętać, że mają ograniczoną wartość, jeśli różnią się populacje badanych pacjentów oraz punkty końcowe. W przypadku rdzeniowego zaniku mięśni (spinal muscular atrophy – SMA) należy wspomnieć jeszcze o jednym uwarunkowaniu, znacznie ograniczającym możliwość wykorzystania porównań leków w praktyce klinicznej. W Polsce program lekowy jest dość ograniczający, jeśli chodzi o wybór terapii. Mamy bardzo wyraźne wskazania, dla kogo jest przeznaczona terapia nusinersenem (najszersza grupa pacjentów), dla kogo terapia doustna rysdyplamem i dla kogo terapia genowa lekiem onasemnogen abeparwowek. W znacznym stopniu są to wskazania odmienne. W zasadzie jedyna dowolność i możliwość wyboru terapii istnieje w części przypadków w zakresie terapii genowej, gdzie u niektórych pacjentów można zastosować bądź nusinersen, bądź terapię genową. Z kolei wykorzystanie rysdyplamu jest możliwe tylko wtedy, gdy istnieją trudności w podaniu nusinersenu lub przeciwwskazania do jego stosowania. Warto wspomnieć jeszcze o jednym zjawisku, które widzimy bardzo wyraźnie w wynikach leczenia pacjentów w polskim programie lekowym. Najwcześniej włączane do leczenia grupy obejmowały najciężej chorych pacjentów, często długo już chorujących. Pacjenci włączani w ostatnim czasie do terapii to zwykle świeżo zdiagnozowane przypadki. Wyraźnie widać różnice nie tylko w ich stanie wyjściowym, lecz także w skuteczności leczenia, co odzwierciedla udowodnione twierdzenie o wyższej skuteczności wcześniejszego leczenia. To stwarza dodatkową trudność przy porównaniach, ponieważ trzeba uwzględnić także kryterium czasu i dostępność terapii. Co ważne, ta trudność dotyczy również grup pacjentów leczonych tym samym lekiem.
„Porównania pośrednie w chorobach rzadkich, w tym w SMA, maja ograniczona wartość, jeśli różnią się populacje badanych pacjentów, punkty końcowe oraz zastosowane skale oceny. Aby dokonywać analizy porównawczej skuteczności, powinniśmy mieć do dyspozycji te sama skale, ten sam czas obserwacji i te same parametry”
Jakie czynniki – zdaniem pani profesor jako eksperta w leczeniu SMA – należałoby wziąć pod uwagę podczas próby porównania skuteczności terapii stosowanych w tej chorobie?
– Przede wszystkim należałoby uwzględnić populacje pacjentów, którzy są leczeni. Nie tylko wiek, typ SMA, liczbę kopii genu SMN2, które są oczywiście czynnikami bardzo łatwymi do sprawdzenia, lecz także stopień zaawansowania choroby i czas jej trwania od wystąpienia pierwszych objawów do momentu, w którym terapia została włączona. To są czynniki, które wydają się w największym stopniu wpływać na wynik leczenia i powinny być brane pod uwagę. Druga rzecz to mierniki skuteczności, tzn. punkty końcowe w badaniach czy w praktyce klinicznej. Znaczy to, że powinniśmy mieć do dyspozycji tę samą skalę, ten sam czas obserwacji, te same parametry, na które będziemy patrzeć, porównując skuteczność różnych terapii.
Jaki wpływ na wyniki dotyczące przeżycia lub przeżycia wolnego od zdarzenia w badaniu ENDEAR ma włączona do niego populacja pacjentów?
– Badanie ENDEAR było pierwszym badaniem w SMA typu 1, czyli w bardzo ciężkiej postaci choroby, w której objawy występują u niemowląt do 6. miesiąca zżycia i w naturalnym przebiegu ponad 90 proc. pacjentów wymaga włączenia wentylacji mechanicznej bądź umiera do 2. roku życia. Niewątpliwie na wyniki tego badania miały wpływ wiek pacjentów i stopień zaawansowania choroby przed włączeniem leczenia. W tym przypadku były to dzieci z objawami choroby, a wiemy już, że rozpoczęcie leczenia jeszcze przed wystąpieniem objawów jest zdecydowanie najskuteczniejsze. W związku z tym u pacjentów mających objawy spodziewamy się nieco gorszych efektów niż u pacjentów w okresie przedobjawowym. Obecnie w Polsce powszechnie wykonuje się diagnostykę w kierunku SMA w ramach badań przesiewowych noworodków. Diagnozujemy SMA bardzo wcześnie, w większości przypadków właśnie w przedobjawowej fazie choroby, więc w praktyce klinicznej spodziewam się lepszych wyników niż opisane w raportach z badania ENDEAR.
„Polski program lekowy jest jednym z najlepiej działających na świecie, a w połączeniu z powszechnym badaniem przesiewowym noworodków oferuje polskim pacjentom optymalne obecnie możliwości terapii SMA”
Czy można rzetelnie porównać badania FIREFISH i ENDEAR, biorąc pod uwagę opisane różnice pomiędzy nimi?
– To zależy od tego, w jaki sposób to porównanie się wykona. Należy podkreślić, że niestety w badaniach FIREFISH i ENDEAR nie zastosowano takich samych parametrów, co pozwoliłoby łatwo taką analizę przeprowadzić. Oczywiście wszyscy bardzo tego żałujemy, bo chcielibyśmy wiedzieć, jaką skutecznością i jakim bezpieczeństwem charakteryzuje się każdy z badanych leków. Być może dzięki temu można by wskazać w grupie pacjentów z SMA takich, dla których skuteczniejsze byłoby leczenie rysdyplamem, i takich, którzy bardziej skorzystają z terapii nusinersenem. Mam jednak nadzieję, że w przyszłości będziemy mieć do dyspozycji nowe badania i porównania nie tylko z badań klinicznych, lecz także z codziennej praktyki. Coraz więcej krajów wykonuje badania przesiewowe noworodków w kierunku SMA, w związku z czym będziemy mogli porównać efekty leczenia podjętego wcześniej niż w badaniach klinicznych i to zarówno u pacjentów mających objawy, jak i w okresie przedobjawowym. Przygotowujemy takie dane również na podstawie polskiego programu lekowego, który jest jednym z najlepiej działających na świecie, a w połączeniu z powszechnym badaniem przesiewowym noworodków oferuje polskim pacjentom optymalne obecnie możliwości terapii SMA.
Rozmawiała Agata Misiurewicz-Gabi.
Do analiz pośrednich należy podejść z ostrożnością
Patryk Rydzyk
O porównaniach pośrednich – czym są, kiedy się je stosuje i czy można je uznać za wiarygodne w przypadku chorób rzadkich, w tym rdzeniowego zaniku mięśni (spinal muscular atrophy – SMA) – opowiada „Kurierowi Medycznemu” prof. dr hab. n. med. Marcin Czech, prezes Polskiego Towarzystwa Farmakoekonomicznego, były wiceminister zdrowia.
Co należałoby zrobić, aby móc wiarygodnie porównać skuteczność terapii stosowanych w SMA? Czy badania pośrednie w przypadku tej choroby są dobrym rozwiązaniem?
– Porównania pośrednie, których historia w ocenie technologii medycznych sięga zaledwie ostatnich 20 lat, wykonuje się wtedy, kiedy nie mamy bezpośrednio zestawionych ze sobą dwóch leków w jednym badaniu klinicznym (head-to-head). Oczywiście idealna sytuacja byłaby wtedy, kiedy mielibyśmy dwa leki, losowy dobór pacjentów do grup, czyli randomizację, zaślepienie procesu, czyli sytuację, w której ani badacz, ani chory nie wiedziałby, jakie badanie jest wykonywane. Poza tym leki w obu grupach pacjentów byłyby stosowane równolegle, protokół dla obu grup byłby identyczny. To jest świat idealny, ale w życiu tak nie jest. W związku z tym dopuszczamy porównania pośrednie, czyli takie, w których lek A i lek B nigdy nie były ze sobą porównane, ale były np. porównane z lekiem C albo z placebo. Ten lek C i placebo są wspólną referencją dla leków A i B, które są ze sobą zestawiane. W praktyce wygląda to tak, że mamy wykonywane osobne badanie dla leku A, potem dla leku B i oba te badania są porównywane z lekiem C lub z placebo. Problem tkwi w tym, że mogą się pojawić trudności wynikające np. z różnego doboru populacji, które biorą udział w tych badaniach. Bardzo często mamy też inny okres obserwacji, inną charakterystykę populacji, nie tylko jeśli chodzi o wiek czy typ SMA, lecz także o stopień zaawansowania choroby. To oczywiście wpływa na rezultaty, ponieważ np. pacjenci z mniej zaawansowaną chorobą będą mieli wyjściowo lepsze wyniki, co może się przełożyć na lepszy wynik końcowy. Poza tym w niektórych badaniach pytamy samych pacjentów czy też ich opiekunów o jakość życia (np. w badaniu SUNFISH), a odpowiedzi, które otrzymujemy, mogą być niespójne z innymi punktami końcowymi lub z wynikami innych badań.
„W przypadku terapii stosowanych w SMA nie mamy porównania bezpośredniego, a porównanie pośrednie jest dość słabe, ponieważ heterogeniczność pacjentów jest duża. W związku z tym trudno zestawiać wyniki i wysnuć jakieś ostateczne wnioski”
Z jakiej metodyki korzysta się najczęściej w przypadku porównań pośrednich przeprowadzanych na potrzeby oceny technologii medycznych?
– Pierwszą taką metodą była metoda Buchera z 1997 r., która może być zastosowana do badań dwuramiennych. Rozwinięte zostały również inne metody porównań bezpośrednich, np. metaanaliza sieciowa, która jest też dopuszczalna w polskich wytycznych HTA w wersji trzeciej. Tutaj podwaliny położył Lumley w 2002 r. Są też metaanalizy z podejściem Bayesa opracowane w 2004 r. W literaturze po 2008 r. obserwujemy wzrost liczby publikacji dotyczących porównań pośrednich, które cieszą się coraz większym zainteresowaniem. Znalazły się one w wytycznych najważniejszych światowych agencji. Takie wytyczne, w dość wąskiej formie, przedstawiły polska Agencja Oceny Technologii Medycznych i Taryfikacji (AOTMiT), brytyjski National Institute for Health and Care Excellence (NICE), niemiecki German Institute for Quality and Efficiency in Health Care (IQWiG) czy francuska Haute Autorité de Santé (HAS). Wytyczne NICE z 2013 r. rekomendują przedstawianie wyników porównań z zastosowaniem metaanalizy sieciowej, a w przypadku braku porównań bezpośrednich dopuszczają ich stosowanie w ramach kontrolowanych badań klinicznych z randomizacją (randomized controlled trial – RCT). W takiej sytuacji analiza sieciowa powinna uwzględniać wszystkie terapie, przy czym wszystkie komparatory muszą być zidentyfikowane. Ponadto NICE zaleca przeprowadzenie analizy wrażliwości, czyli sprawdzenie, jakie parametry wejściowe są podatne na zmiany i jaki mają wpływ na wyniki końcowe. Podkreśla się pełne raportowanie heterogeniczności, czyli wszystkich różnic między badaniami – pomiędzy wynikami, porównaniami w parach czy pewnej niespójności rozumianej jako różnice między badaniem bezpośrednim (jeśli takie istnieje) a badaniem pośrednim. Oczywiście NICE jest bardzo ostrożna przy wyciąganiu wniosków co do skuteczności i bezpieczeństwa na podstawie porównań pośrednich. Z kolei IQWIG dopuszcza przeprowadzenie analiz pośrednich w przypadku istnienia jednego badania o niepewnych wynikach, jeśli może to pozwolić na zmianę wnioskowania. Porównania pośrednie mogą oczywiście zwiększać precyzję szacowania efektu. Co do zasady IQWIG nie zaleca wykonania porównań pośrednich, kiedy można bezpośrednio porównać technologie. Metodycznie rekomenduje metodę Buchera i metaanalizę sieciową. Konieczne jest przeprowadzenie oceny homogeniczności czy też spójności. Z kolei francuska agencja HAS jest trochę bardziej liberalna – kiedy czas ma znaczenie, nie ma potrzeby oczekiwania na wyniki badań head-to-head i można zastosować porównanie mieszane, czyli mixed treatment comparison.
Na jakie aspekty należy zwrócić uwagę podczas wykonywania porównań pośrednich metodą MAIC?
– Matching adjusted indirect comparison – MAIC – to metoda porównania pośredniego, której celem jest zniesienie heterogeniczności wynikającej z odmiennych charakterystyk populacji we włączonych do niego badaniach. Metoda MAIC wymaga dostępu do danych indywidualnych pacjentów (individual patient data – IPD), ponieważ w danych ogólnych mamy tylko grupy i statystyki przyporządkowane do tych grup, a potrzebujemy indywidualnych informacji. Na podstawie tych danych wykonuje się ważenie efektu interwencji w porównywalnych ramionach. Metoda MAIC może być stosowana do badań jednoramiennych lub badań bez wspólnego komparatora. Należy jednak zaznaczyć, że w polskiej agencji HTA w latach 2016–2019 dominowała metoda Buchera czy mixed treatment comparison. Metoda MAIC jest stosunkowo rzadko stosowana i nie jest popularna w polskich warunkach.
„Światowe agencje HTA wykazują duża ostrożność, jeśli chodzi o wyciąganie wniosków z porównań pośrednich dotyczących leków stosowanych w SMA”
Czy analizy pośrednie lub analizy MAIC powinny być przeprowadzane w chorobach rzadkich?
– W chorobach rzadkich mamy trochę związane ręce. Jeżeli stosujemy tę metodę, powinniśmy połączyć jak najwięcej cech. Im więcej tych cech, im bardziej zharmonizujemy populację, im bardziej są one podobne w obu ramionach, tym bardziej wiarygodne uzyskujemy wyniki. W badaniach w SMA nie zawsze mamy taki komfort. Wtedy musimy się liczyć z tym, że heterogeniczność jest bardzo duża. Możemy indywidualnie przedstawić różne badania i powiedzieć, co wyszło w każdym z nich, ale nie jesteśmy w stanie zniwelować różnic pomiędzy populacjami. Wtedy wyciąganie wniosków jest ograniczone. Jeżeli próbujemy porównywać populację z medianą wieku 9 lat, jak w badaniu SUNFISH, z populacją osób starszych albo populację, gdzie baseline, czyli punkt startowy, jest prawie taki sam jak punkt, w którym kończy się inne badanie, to widzimy, że te populacje są heterogeniczne. Ta heterogeniczność jest zbyt duża, żeby zestawiać ze sobą różne analizy w sposób pośredni.
Jak inne kraje oceniły porównanie pośrednie metodą MAIC dotyczące terapii stosowanej w SMA?
– W zasadzie konkluzja wszystkich agencji jest taka, że nie mamy porównania bezpośredniego w ogóle, a porównanie pośrednie jest dość słabe, ponieważ heterogeniczność pacjentów jest duża. W związku z tym trudno zestawiać wyniki i wysnuć jakieś ostateczne wnioski. Widzimy, że różne produkty inaczej działają na pacjentów. Według IQWIG nie ma dostępnych danych, które wskazują na wyższość jednej terapii nad drugą w badaniach pośrednich. Według NICE siła danych jest słaba. Argumentacje różnych światowych agencji HTA są publicznie dostępne i zachęcam do ich prześledzenia. Najważniejsze jest jednak to, że wszystkie one charakteryzują się dużą ostrożnością, jeśli chodzi o wyciąganie wniosków z porównań pośrednich dotyczących leków stosowanych w SMA.
Rozmawiała Agata Misiurewicz-Gabi.
Patryk Rydzyk
O porównaniach pośrednich – czym są, kiedy się je stosuje i czy można je uznać za wiarygodne w przypadku chorób rzadkich, w tym rdzeniowego zaniku mięśni (spinal muscular atrophy – SMA) – opowiada „Kurierowi Medycznemu” prof. dr hab. n. med. Marcin Czech, prezes Polskiego Towarzystwa Farmakoekonomicznego, były wiceminister zdrowia.
Co należałoby zrobić, aby móc wiarygodnie porównać skuteczność terapii stosowanych w SMA? Czy badania pośrednie w przypadku tej choroby są dobrym rozwiązaniem?
– Porównania pośrednie, których historia w ocenie technologii medycznych sięga zaledwie ostatnich 20 lat, wykonuje się wtedy, kiedy nie mamy bezpośrednio zestawionych ze sobą dwóch leków w jednym badaniu klinicznym (head-to-head). Oczywiście idealna sytuacja byłaby wtedy, kiedy mielibyśmy dwa leki, losowy dobór pacjentów do grup, czyli randomizację, zaślepienie procesu, czyli sytuację, w której ani badacz, ani chory nie wiedziałby, jakie badanie jest wykonywane. Poza tym leki w obu grupach pacjentów byłyby stosowane równolegle, protokół dla obu grup byłby identyczny. To jest świat idealny, ale w życiu tak nie jest. W związku z tym dopuszczamy porównania pośrednie, czyli takie, w których lek A i lek B nigdy nie były ze sobą porównane, ale były np. porównane z lekiem C albo z placebo. Ten lek C i placebo są wspólną referencją dla leków A i B, które są ze sobą zestawiane. W praktyce wygląda to tak, że mamy wykonywane osobne badanie dla leku A, potem dla leku B i oba te badania są porównywane z lekiem C lub z placebo. Problem tkwi w tym, że mogą się pojawić trudności wynikające np. z różnego doboru populacji, które biorą udział w tych badaniach. Bardzo często mamy też inny okres obserwacji, inną charakterystykę populacji, nie tylko jeśli chodzi o wiek czy typ SMA, lecz także o stopień zaawansowania choroby. To oczywiście wpływa na rezultaty, ponieważ np. pacjenci z mniej zaawansowaną chorobą będą mieli wyjściowo lepsze wyniki, co może się przełożyć na lepszy wynik końcowy. Poza tym w niektórych badaniach pytamy samych pacjentów czy też ich opiekunów o jakość życia (np. w badaniu SUNFISH), a odpowiedzi, które otrzymujemy, mogą być niespójne z innymi punktami końcowymi lub z wynikami innych badań.
„W przypadku terapii stosowanych w SMA nie mamy porównania bezpośredniego, a porównanie pośrednie jest dość słabe, ponieważ heterogeniczność pacjentów jest duża. W związku z tym trudno zestawiać wyniki i wysnuć jakieś ostateczne wnioski”
Z jakiej metodyki korzysta się najczęściej w przypadku porównań pośrednich przeprowadzanych na potrzeby oceny technologii medycznych?
– Pierwszą taką metodą była metoda Buchera z 1997 r., która może być zastosowana do badań dwuramiennych. Rozwinięte zostały również inne metody porównań bezpośrednich, np. metaanaliza sieciowa, która jest też dopuszczalna w polskich wytycznych HTA w wersji trzeciej. Tutaj podwaliny położył Lumley w 2002 r. Są też metaanalizy z podejściem Bayesa opracowane w 2004 r. W literaturze po 2008 r. obserwujemy wzrost liczby publikacji dotyczących porównań pośrednich, które cieszą się coraz większym zainteresowaniem. Znalazły się one w wytycznych najważniejszych światowych agencji. Takie wytyczne, w dość wąskiej formie, przedstawiły polska Agencja Oceny Technologii Medycznych i Taryfikacji (AOTMiT), brytyjski National Institute for Health and Care Excellence (NICE), niemiecki German Institute for Quality and Efficiency in Health Care (IQWiG) czy francuska Haute Autorité de Santé (HAS). Wytyczne NICE z 2013 r. rekomendują przedstawianie wyników porównań z zastosowaniem metaanalizy sieciowej, a w przypadku braku porównań bezpośrednich dopuszczają ich stosowanie w ramach kontrolowanych badań klinicznych z randomizacją (randomized controlled trial – RCT). W takiej sytuacji analiza sieciowa powinna uwzględniać wszystkie terapie, przy czym wszystkie komparatory muszą być zidentyfikowane. Ponadto NICE zaleca przeprowadzenie analizy wrażliwości, czyli sprawdzenie, jakie parametry wejściowe są podatne na zmiany i jaki mają wpływ na wyniki końcowe. Podkreśla się pełne raportowanie heterogeniczności, czyli wszystkich różnic między badaniami – pomiędzy wynikami, porównaniami w parach czy pewnej niespójności rozumianej jako różnice między badaniem bezpośrednim (jeśli takie istnieje) a badaniem pośrednim. Oczywiście NICE jest bardzo ostrożna przy wyciąganiu wniosków co do skuteczności i bezpieczeństwa na podstawie porównań pośrednich. Z kolei IQWIG dopuszcza przeprowadzenie analiz pośrednich w przypadku istnienia jednego badania o niepewnych wynikach, jeśli może to pozwolić na zmianę wnioskowania. Porównania pośrednie mogą oczywiście zwiększać precyzję szacowania efektu. Co do zasady IQWIG nie zaleca wykonania porównań pośrednich, kiedy można bezpośrednio porównać technologie. Metodycznie rekomenduje metodę Buchera i metaanalizę sieciową. Konieczne jest przeprowadzenie oceny homogeniczności czy też spójności. Z kolei francuska agencja HAS jest trochę bardziej liberalna – kiedy czas ma znaczenie, nie ma potrzeby oczekiwania na wyniki badań head-to-head i można zastosować porównanie mieszane, czyli mixed treatment comparison.
Na jakie aspekty należy zwrócić uwagę podczas wykonywania porównań pośrednich metodą MAIC?
– Matching adjusted indirect comparison – MAIC – to metoda porównania pośredniego, której celem jest zniesienie heterogeniczności wynikającej z odmiennych charakterystyk populacji we włączonych do niego badaniach. Metoda MAIC wymaga dostępu do danych indywidualnych pacjentów (individual patient data – IPD), ponieważ w danych ogólnych mamy tylko grupy i statystyki przyporządkowane do tych grup, a potrzebujemy indywidualnych informacji. Na podstawie tych danych wykonuje się ważenie efektu interwencji w porównywalnych ramionach. Metoda MAIC może być stosowana do badań jednoramiennych lub badań bez wspólnego komparatora. Należy jednak zaznaczyć, że w polskiej agencji HTA w latach 2016–2019 dominowała metoda Buchera czy mixed treatment comparison. Metoda MAIC jest stosunkowo rzadko stosowana i nie jest popularna w polskich warunkach.
„Światowe agencje HTA wykazują duża ostrożność, jeśli chodzi o wyciąganie wniosków z porównań pośrednich dotyczących leków stosowanych w SMA”
Czy analizy pośrednie lub analizy MAIC powinny być przeprowadzane w chorobach rzadkich?
– W chorobach rzadkich mamy trochę związane ręce. Jeżeli stosujemy tę metodę, powinniśmy połączyć jak najwięcej cech. Im więcej tych cech, im bardziej zharmonizujemy populację, im bardziej są one podobne w obu ramionach, tym bardziej wiarygodne uzyskujemy wyniki. W badaniach w SMA nie zawsze mamy taki komfort. Wtedy musimy się liczyć z tym, że heterogeniczność jest bardzo duża. Możemy indywidualnie przedstawić różne badania i powiedzieć, co wyszło w każdym z nich, ale nie jesteśmy w stanie zniwelować różnic pomiędzy populacjami. Wtedy wyciąganie wniosków jest ograniczone. Jeżeli próbujemy porównywać populację z medianą wieku 9 lat, jak w badaniu SUNFISH, z populacją osób starszych albo populację, gdzie baseline, czyli punkt startowy, jest prawie taki sam jak punkt, w którym kończy się inne badanie, to widzimy, że te populacje są heterogeniczne. Ta heterogeniczność jest zbyt duża, żeby zestawiać ze sobą różne analizy w sposób pośredni.
Jak inne kraje oceniły porównanie pośrednie metodą MAIC dotyczące terapii stosowanej w SMA?
– W zasadzie konkluzja wszystkich agencji jest taka, że nie mamy porównania bezpośredniego w ogóle, a porównanie pośrednie jest dość słabe, ponieważ heterogeniczność pacjentów jest duża. W związku z tym trudno zestawiać wyniki i wysnuć jakieś ostateczne wnioski. Widzimy, że różne produkty inaczej działają na pacjentów. Według IQWIG nie ma dostępnych danych, które wskazują na wyższość jednej terapii nad drugą w badaniach pośrednich. Według NICE siła danych jest słaba. Argumentacje różnych światowych agencji HTA są publicznie dostępne i zachęcam do ich prześledzenia. Najważniejsze jest jednak to, że wszystkie one charakteryzują się dużą ostrożnością, jeśli chodzi o wyciąganie wniosków z porównań pośrednich dotyczących leków stosowanych w SMA.
Rozmawiała Agata Misiurewicz-Gabi.
Artykuły pochodzą z „Kuriera Medycznego” 3/2023.