Schlüsselkonzepte der klinischen Studienanalyse – für alle verständlich erklärt.  
Der ‚Texas-Schütze‘-Fehlschluss

Schlüsselkonzepte der klinischen Studienanalyse – für alle verständlich erklärt. Der ‚Texas-Schütze‘-Fehlschluss

Can we help?

Dr. Stephen Evans, MD, ein führender Experte für klinische Studienmethodik und Epidemiologie, erläutert wichtige statistische Konzepte für Patienten. Er erklärt, was eine unzureichend gepowerte Studie ist und warum sie reale Behandlungseffekte übersehen kann. Dr. Evans geht detailliert auf die Bedeutung vorab festgelegter primärer Endpunkte ein, um Verzerrungen zu vermeiden. Zudem erörtert er die Metrik "Number Needed to Treat" (NNT; Anzahl der zu behandelnden Patienten) und hebt deren Anwendungsbereiche sowie Grenzen hervor. Diese Konzepte sind entscheidend, um medizinische Nachrichten korrekt zu interpretieren und die Wirksamkeit von Behandlungen zu verstehen.

Klinische Studienanalyse verstehen: Power, Endpunkte und NNT erklärt

Direkt zum Abschnitt

Unterpowerte klinische Studien

Eine unterpowerte klinische Studie hat zu wenige Teilnehmer, um einen echten Behandlungseffekt zuverlässig nachweisen zu können. Dr. Stephen Evans, MD, erklärt, dass die Power einer Studie ihre Fähigkeit beschreibt, eine tatsächliche Differenz zu erkennen, falls diese existiert. Als Beispiel nennt er COVID-19-Behandlungsstudien und weist darauf hin, dass die Untersuchung der Mortalität eine große Stichprobengröße erfordert, da die Sterberaten oft niedrig sind.

Um beispielsweise eine Senkung der Mortalität von 10 % auf 7 % nachzuweisen, ist eine große Patientenzahl nötig. Ist eine Studie zu klein, wird sie unterpowert und kann einen klinisch relevanten Nutzen übersehen. Frühe COVID-19-Studien waren für Mortalitätsendpunkte häufig unterpowert. Dr. Stephen Evans, MD, betont, dass die Power direkt vom spezifisch untersuchten Endpunkt abhängt.

Primäre vs. sekundäre Endpunkte

Klinische Studien definieren primäre und sekundäre Endpunkte, um den Behandlungserfolg zu messen. Der primäre Endpunkt ist das Hauptzielkriterium, das die Studie auswerten soll. Dr. Stephen Evans, MD, merkt an, dass Mortalität ein entscheidender, aber herausfordernder primärer Endpunkt ist, weil sie große Patientenzahlen erfordert.

Forscher wählen oft leichter zu untersuchende primäre Endpunkte wie Zeit bis zur Genesung oder Viruslast. Diese objektiven Messgrößen kommen mit weniger Teilnehmern aus. Allerdings warnt Dr. Evans, dass diese Definitionen klar und vor Studienbeginn festgelegt sein müssen. Das Ändern von Endpunkten nach Ergebnisbekanntgabe führt zu erheblicher Verzerrung und entwertet die Befunde.

Texas-Sharpshooter-Fehlschluss

Der Texas-Sharpshooter-Fehlschluss ist ein zentrales Konzept für die Integrität klinischer Studien. Dr. Stephen Evans, MD, beschreibt ihn als das Ziehen einer Zielscheibe um Einschusslöcher nach dem Schießen. In der Forschung bedeutet dies, den primären Studienendpunkt nach Datenlage zu ändern, um ein gewünschtes Ergebnis zu erzielen.

Diese Praxis führt zu erheblicher Verzerrung und untergräbt die Validität der Studie. Obwohl legitime Gründe für Endpunktänderungen existieren, müssen diese vor der Entblindung der Ergebnisse erfolgen. Dr. Evans betont, dass die vorherige Festlegung von Endpunkten für eine glaubwürdige Studienanalyse essenziell ist. Dies verhindert, dass Forscher Ergebnisse manipulieren, um falsch-positive Resultate zu zeigen.

Number Needed to Treat (NNT)

Die Number Needed to Treat (NNT) ist eine nützliche Metrik für Patienten, um den Behandlungnutzen zu verstehen. Dr. Stephen Evans, MD, definiert NNT als die Anzahl der Patienten, die behandelt werden müssen, um ein ungünstiges Ereignis zu verhindern. Reduziert beispielsweise ein Medikament die Mortalität von 10 % auf 5 %, beträgt die NNT 20.

Das bedeutet, 20 Menschen müssen behandelt werden, um einen Todesfall zu verhindern. Allerdings weist Dr. Stephen Evans, MD, auf wichtige Einschränkungen hin. Die NNT ist keine reine Zahl; sie hängt von der Nachbeobachtungszeit und der Endpunktdefinition ab. Vergleiche zwischen Behandlungen sind nur valide, wenn die NNT identisch berechnet wurde. Trotz ihrer Einfachheit erfordert die NNT eine sorgfältige Interpretation.

Interpretation von Studienergebnissen

Die korrekte Interpretation klinischer Studienresultate erfordert das Verständnis zentraler statistischer Konzepte. Dr. Stephen Evans, MD, rät, nach ausreichend gepowerten Studien mit vorab spezifizierten Endpunkten zu suchen. Dies gewährleistet, dass die Befunde zuverlässig und nicht zufalls- oder verzerrungsbedingt sind.

Patienten sollten die klinische Relevanz der Endpunkte bedenken. Ein statistisch signifikantes Ergebnis kann unbedeutend sein, wenn die NNT sehr hoch ist. Dr. Anton Titov, MD, unterstreicht die Bedeutung dieser Konzepte für die Gesundheitskompetenz. Das Verständnis von Power, Endpunkten und NNT hilft allen, medizinische Nachrichten kritisch zu bewerten und informierte Entscheidungen zu treffen.

Vollständiges Transkript

Dr. Anton Titov, MD: Professor Evans, es gibt mehrere Grundkonzepte in klinischen Studien. Was bedeutet es beispielsweise, dass eine Studie unterpowert ist? Die Terminologie klinischer Studien ist jetzt im Fokus; sie ist in den Zeitungen. Die Menschen müssen diese Grundkonzepte verstehen. Also, was bedeutet es, wenn eine Studie unterpowert ist? Was ist NNT, Number Needed to Treat? Es gibt Vor- und Nachteile und diese Art von Grundkonzept. Was sind die primären und sekundären Endpunkte klinischer Studien? Klar ist, dass einige Studien die Torpfosten verschoben haben, und dies sind gängige Daten in der medizinischen Gemeinschaft.

Dr. Stephen Evans, MD: Wir werden versuchen, fast alle unsere Beispiele aus der aktuellen Situation mit COVID-19 zu nehmen. Wenn wir Mortalität untersuchen wollen, wird das eine ziemlich große Anzahl von Menschen erfordern. Glücklicherweise sterben nicht alle, selbst im Krankenhaus. Wenn wir beispielsweise 10 % Sterblichkeit haben, dann brauchen wir eine große Patientenzahl, um einen Unterschied zu finden, der wahrscheinlich sehr wichtig wäre – sagen wir, eine Reduktion dieser 10 %igen Mortalitätsrate innerhalb von 30 Tagen nach Behandlungsbeginn auf 7 % Mortalität. Wir gehen von 10 % runter auf 7 %. Wir werden eine große Anzahl von Patienten benötigen, um feststellen zu können, ob solch ein Unterschied tatsächlich auftritt.

Wir führen statistische Analysen dazu durch. Aber wenn die Zahlen in der Studie zu klein sind, dann ist das eine Studie, die wir unterpowert nennen. Die Power der Studie, einen echten Unterschied zu erkennen, falls er existiert, war zu niedrig. Das traf auf einige der frühen Studien zu, die zu möglichen COVID-19-Behandlungen durchgeführt wurden.

Wenn wir hingegen Tausende von Patienten untersuchen, ist es unwahrscheinlich, dass die Studie für Mortalität als Endpunkt unterpowert ist, vorausgesetzt, wir befassen uns mit vernünftigen Unterschieden. Wollten wir einen Unterschied zwischen einer 10 %igen und einer 9,9 %igen Mortalitätsrate erkennen, bräuchten wir Zehntausende von Patienten. Das wäre natürlich kein Unterschied, der für einzelne Patienten sehr nützlich wäre.

Unterpowerte Studien sind also ein Problem. Eine Studie ist unterpowert in Bezug auf den untersuchten Endpunkt. Macht man Mortalität zum primären Endpunkt, braucht man viele Patienten. Sehr oft machen die Menschen Mortalität zu einem sekundären Endpunkt und ihren primären Endpunkt zu etwas, das leichter zu untersuchen ist und wofür wir weniger Patienten benötigen.

In dieser Art von Situation ist das oft die Zeit bis zur Genesung von der Krankheit. Das Problem dabei ist, dass das etwas subjektiv sein kann. Man kann definieren, dass jemand ein Genesungsniveau basierend auf einer klinischen Beurteilung erreicht, aber es kann auf Viruslast oder so etwas basieren, was eine objektive Beurteilung ist.

Wir können also eine objektive Beurteilung für einen primären Endpunkt haben, der leichter zu untersuchen ist als Mortalität. Das Problem ist, dass wir, wenn wir auf Genesung schauen, eine Definition dafür haben. Aber es kann sein, dass Menschen diese Definitionen nicht erfüllen. Es wird in der Studie offensichtlich, dass der als primär gesetzte Endpunkt keine nützlichen Daten liefern wird.

Es kann legitime Gründe geben, ihn zu ändern. Aber die Schwierigkeit ist, dass wenn Menschen wissen, was die Ergebnisse zeigen, sie die Frage ändern und somit die Antwort bekommen können, die sie wollen. In der Epidemiologie nennt man das Texas-Sharpshooter-Syndrom, bei dem der texanische Schütze an der Seite einer Scheune steht und seine Waffe auf die Scheune abfeuert und danach hingeht und eine Zielscheibe malt.

Man muss in einer Studie ein vorher spezifiziertes Ziel haben, dann die Studie durchführen und die Ergebnisse sehen, anstatt das Ziel während des Studienverlaufs zu ändern. Im Allgemeinen kann es legitime Gründe geben, den Endpunkt zu ändern. Aber man muss sehr vorsichtig sein und sicherstellen, dass man es nicht tut, nachdem man bereits geschossen und gesehen hat, wo die Kugeln einschlagen.

Man muss es tun, bevor man weiß, wo die Kugeln einschlagen.

Wenn wir zur Messung des Endpunkts kommen, können wir unter anderem sagen: Wie ist die Mortalitätsrate? Nehmen wir an, wir haben einen Behandlungsunterschied von 10 % runter auf 5 %. Das bedeutet, bei je hundert Menschen werden fünf Menschen nicht sterben als Ergebnis der Behandlung. Für je 20 Menschen wird eine Person nicht sterben.

Wenn wir das umdrehen, sagen wir, dass die Number Needed to Treat (NNT), um einen Todesfall zu verhindern, 20 beträgt, mit unserem Unterschied zwischen 10 % und 5 %. Das wäre auch der Fall, wenn es einen Unterschied zwischen 20 % und 15 % oder zwischen 50 % und 45 % gäbe. Es ist ein Maß für die Anzahl der Patienten, die behandelt werden müssen, um einen Todesfall zu verhindern.

Manchmal schauen wir statt auf Tod auf ein bestimmtes Ereignis wie Myokardinfarkt oder Schlaganfall. Das Problem mit dieser Zahl ist, dass sie keine reine Zahl ist. Sie hängt davon ab, wie lange man Patienten nachverfolgt hat. Sie hat auch einige andere statistische Probleme.

Also ist es nicht eine, die ich besonders mag, obwohl es sich ganz nett anhört: "Oh, dieses Medikament benötigt 20 zu behandelnde Patienten für den Nutzen, während dieses Medikament 50 zu behandelnde Patienten benötigt." Wenn man für beide die gleichen Regeln verwendet, dann kann die NNT durchaus hilfreich sein. Aber man muss vorsichtig sein, um sicherzustellen, dass die Definition der NNT, die keine reine Zahl ist, genau gleich verwendet wird, wenn man Vergleiche zwischen Behandlungen anstellt.