Beurteilungskriterien zur Aussagekraft von wissenschaftlichen Studien zur Homöopathie

(Überarbeitung am 14. 2. 2014) 

Vorbemerkung

Es liegen jetzt genügend Analysen wissenschaftlicher Arbeiten zur Wirkungsweise der Homöopathie vor – drei hier im Blog, eine ganze Reihe mehr in meinem Buch – dass es sinnvoll ist, über die Kriterien zu berichten, die ich dafür anwende. Es gibt jetzt genügend Material, meine Ansichten durch Beispiele zu veranschaulichen.

Einführung

Es gibt einige Studien, sogenannte Metastudien, die sich mit Untersuchungen zur Wirksamkeit homöopathischer Mittel beschäftigen. Auch dort wird anhand verschiedener Kriterien versucht, die Aussagekraft zu bewerten. [1], [2], [3] Dies ist dann die Grundlage, ob die Studienresultate in der Gesamtbewertung berücksichtigt werden oder nicht. Zumeist konzentrieren sich die Kriterien darauf ob

  • die Randomisierung angemessen ist
  • die Verblindung mit angemessenen Verfahren sichergestellt wurde
  • über die Ergebnisse vollständig und schlüssig berichtet wird 

Wie an anderer Stelle in diesem Blog ersichtlich, verfüge ich über keinen medizinischen Hintergrund, wohl aber über eine mehr als 25-jährige Erfahrung im Bereich Forschung und Entwicklung und Qualitätsmanagement im Ingenieurwesen, im Bereich Kompressoren und Vakuumpumpen sowie thermische Turbomaschinen. Dort sind Ergebnisse aus Labor- und Feldversuchen wesentliche Grundlagen dafür, ob mehr oder weniger große Geldströme in Bewegung gesetzt werden oder nicht. Kunden, Lieferanten, auch andere Abteilungen im Hause wollen ihren jeweiligen Standpunkt durch Versuchsergebnisse untermauern. Man selbst stellt eine Vielzahl von Versuchen an, um die Eigenschaften des Produkts zu optimieren oder die Ursachen für Fehlfunktionen zu ermitteln beziehungsweise die Wirksamkeit von Verbesserungen nachzuweisen. Dabei fällt man auch bisweilen sehr heftig auf die Nase, und muss feststellen, dass sich das Eine oder Andere trotz gegenteiliger Erkenntnis in der Realität nicht bewährt. Eine Argumentation, dass die Realität verkehrt sein muss, bringt meist auch nicht weiter. Alles dies führt zu einem Zuwachs an Erfahrung im Umgang mit Versuchsergebnissen. Richtige Entscheidungen trifft man mit viel Erfahrung. Erfahrungen sammelt man mit falschen Entscheidungen. Nach fast dreißig Berufsjahren hat man das alles zur Genüge erprobt und erlebt.

Quintessenz: Man hat sich in meiner Situation eine ganze Reihe von Kriterien mehr oder weniger leidvoll erarbeitet, wie man Versuchs- und Studienergebnisse hinsichtlich ihrer Aussagekraft bewertet. Kein eines davon wird in bisher vorliegenden Metastudien verwendet. Gegliedert nach der Wichtigkeit zur Beurteilung der Aussagekraft der Studien seien die in diesem Blog angewendeten Kriterien im Folgenden als zu beantwortende Fragen dargestellt. Dabei umfasst der Begriff ‚Messung‘ vereinfachend alle Maßnahmen, um einen bestimmten Zustand festzustellen, auch wenn dieser Vorgang im Einzelnen im medizinischen Sprachgebrauch anders genannt werden sollte.

Grundvoraussetzungen für aussagekräftige Studienergebnisse:

Ist das Messverfahren überhaupt geeignet, die Ergebnisse zu ermitteln?
Ein Messgerät und das Verfahren, wie es angewendet wird, ist dann für die Messaufgabe geeignet, wenn sichergestellt ist, dass die Messgröße (das, was man messen will, also beispielsweise die Körpertemperatur des Patienten) genau genug zu einem Messwert (das, was man abliest) führt, um die Beurteilung (‚die Körpertemperatur ist um 0,3 °C höher als gestern‘) sicher treffen zu können. Dabei muss nicht nur das Messgerät selbst betrachtet werden, sondern auch das Messobjekt und die Messbedingungen. Beispiel: Sie glauben, ein Zollstock sei ein geeignetes Messgerät, um Längen, sagen wir, zwischen einem Zentimeter und zwei Metern genau, also mit einem Messfehler unter 5 mm zu messen? Beim Messen der Länge von Brettern mag das ja stimmen. Aber messen Sie doch einmal wie breit Ihr Auto ist. Vermutlich ist das die Distanz zwischen dem äußersten linken Punkt des Gehäuses des linken Außenspiegels und dem entsprechenden Punkt rechts. Um meinen Punkt zu verstehen, sollten Sie dabei die Fenster geschlossen lassen.

Auch ist ein Messgerät, das für konstante oder sich nur langsam ändernde Messgrößen eignet, ist nicht unbedingt für ähnliche Messgrößen geeignet, die sich schnell ändern. Wenn Sie also mit dem Messen Ihres Autos fertig sind, dann nehmen Sie einen Tischtennisball, lassen den aus einer gewissen Höhe auf den Tisch fallen und messen, wie hoch er zurückspringt, auch auf 5 mm genau.

Wenn Sie beide Aufgaben erledigen können, mache ich was falsch.

Der Kennwert, um den es geht, wird als Messunsicherheit bezeichnet (umgangssprachlich ‚Genauigkeit‘). Er beschreibt, wie weit ein Messwert schwanken kann ohne dass sich die Messgröße geändert hat. Naturgemäß kann man nur dann Messgrößen unterscheiden, wenn der Unterschied der Messwerte größer ist als die Messunsicherheit (‚Auflösung‘). Das heißt in der Folge, wenn der Unterschied zwischen den beiden betrachteten Gruppen so klein ist, dass man ihn mit dem angewandten Verfahren nicht ermitteln könnte, dann könnte man die Wirkung an dem Durchschnittspatienten nicht feststellen. Dabei ist es bedeutungslos, ob man auf statistischem Wege einen Erwartungswert unterhalb der Auflösung errechnen kann.

Es wird hier öfters notwendig sein, die Messunsicherheit zu schätzen, wenn keine Informationen darüber in anderen Arbeiten gefunden werden können. Dennoch ist die Eignung des Messverfahrens ein fundamentales Kriterium um zu beurteilen, ob die Messungen glaubhaft sind. Bei der Analyse der Arbeit von Frei [4] hatten wir beispielsweise abgeschätzt, dass sein Verfahren eine Messunsicherheit von mindestens fünf Indexpunkten hat, eher mehr als weniger. Dann ist ein Unterschied von 1,67 Indexpunkten, wie sie als ein Hauptergebnis berichtet werden, bedeutungslos. Diese Zahl ist allenfalls so etwas wie ein Lotterieergebnis

Bestehen Zweifel, was die Verbesserung ausgelöst haben könnte?
Obwohl doch eigentlich selbstverständlich, wird dieser Aspekt weitestgehend missachtet, was ich nur immer wieder mit einem deutlichen Kopfschütteln registrieren kann. Beispielsweise berichtet Witt in ihrer Ergebnisstudie [6], dass rund die Hälfte der von ihr betrachteten Patienten noch andere Ärzte aufsuchte und dass auch fast die Hälfte der Patienten ihre konventionellen Mittel parallel zur homöopathischen Behandlung weiter einnahmen. Dennoch wird ganz selbstverständlich berichtet, dass das Verschwinden der Symptome nach zwei Jahren, das bei einem Viertel der Patienten festgestellt werden konnte, ganz offenbar auf die Wirkung der homöopathischen Behandlung zurückzuführen ist.

Da fehlen mir schlicht und einfach die Worte.

In die gleiche Richtung fällt der Umstand, der gelegentlich auftritt, wenn das Ergebnis unter anderweitigen fraglichen Umständen zustande kommt. Wenn, wie bei der Ergebnisstudie von Spence in Bristol [7], etwa Ärzte, die einem starken Interessenkonflikt unterliegen, direkt auf die subjektive Bewertungen der Patienten einwirken können, dann wird das Ergebnis sicher davon beeinflusst sein.

Gibt es ‚Mondscheintheorien‘ für unerwartete Ergebnisse?
Manchmal haben Forscher die Schwierigkeit, dass das Ergebnis nicht so ausfällt, wie man es gerne hätte. Oder dass irgendwie ein Loch im Gedankengebäude nicht geschlosssen werden kann. Wenn man das Ergebnis dennoch als Nachweis für seine Theorien benutzen will, dann muss man erklären, wie es entgegen der Erwartung zustande gekommen ist. Oder zumindest sein könnte. Wenn es Ansatzpunkte gibt, die die Erklärung plausibel erscheinen lassen, etwa weil die Gruppenzusammensetzung nachvollziehbar auf das Ergebnis hätte wirken können, dann ist da nichts einzuwenden. Es ist dann höchstens die Frage, ob die am Ende gezogene Schlussfolgerung diese Unsicherheit angemessen berücksichtigt.

Es gibt aber auch andere Fälle. Frei hat in seiner Studie [4] den merkwürdigen Ausgang des Crossover-Versuchs dadurch erklärt, dass die Eltern der Kinder in der Verum-Gruppe – und nur die – glaubten, sie hätten Placebo erhalten und daher die Wirksamkeit zu schlecht bewertet. Bei den Eltern der Kinder, die tatsächlich Placebo einnahmen, trat das allerdings genau nicht auf. Die Verschlechterung wurde sogar etwas weniger heftig bewertet als bei den Patienten, die tatsächlich noch Verum nahmen. Der Unterschied war zwar nur gering, ging aber in die falsche Richtung. Das sei nun wieder auf einen starken Carryover-Effekt zurückzuführen, der dazu führte, dass das Mittel in der Placebogruppe – und nur da – deutlich nachhaltiger wirkte als offenbar in der anderen, als es noch tatsächlich eingenommen wurde.

Solche sehr selektiv aber immer in die richtige Richtung wirkenden Effekte, auch solche, für die es in der Physik keine passende Vorlage gibt, wollen wir als ‚Mondscheintheorien‘ bezeichnen. Bei der Bewertung der Aussagekraft der Studie werden wir sie aber einfach ignorieren.

Ist die Anzahl der Versuchsteilnehmer ausreichend?
Grundsätzlich ist die Zahl der Studienteilnehmer immer zu klein, so dass aus dem Ergebnis nur mit einer gewissen begrenzten Sicherheit auf die Gesamtheit aller Patienten geschlossen werden kann. Das ist dem Wesen nach ein unvermeidliches Problem. Man kann zwar bestimmen, wie viele Teilnehmer man eigentlich brauchen würde, dass ein bestimmtes Ergebnis auch mit einer sehr großen Sicherheit auf die Allgemeinheit übertragen werden kann, aber es scheint ein generelles Problem zu sein, genügend Teilnehmer für eine Studie zu finden. Somit muss man mit diesem Problem leben.

Was uns aber beschäftigt, ist die Frage, ob denn die Anzahl der Patienten hinreichend groß ist, dass einzelne Patienten nicht das Ergebnis übermäßig stark beeinflussen. Beispielsweise ist das Ergebnis in der Asthma-Studie von Reilly [8] sehr stark nur von einem einzigen Patienten beeinflusst. Hätte der nicht an der Studie teilgenommen, dann wäre der Unterschied zwischen Placebo- und Verumgruppe um 20 % geringer ausgefallen, das Ergebnis läge hart an der Grenze der Messunsicherheit des Verfahrens. Dieses Ergebnis kann nicht sehr aussagekräftig sein, da es offenbar stark von Zufällen in den Gegebenheiten bei einzelnen Teilnehmern geprägt ist.

Leider reichen die in den Studien vorzufindenden Angaben nicht immer aus, um diese Überprüfung auch tatsächlich auszuführen. Wir werden im Einzelfall sehen, wie damit umzugehen ist.

Ist die ermittelte Wirkung des Medikaments für den Patienten relevant?
Es ist nicht selbstverständlich, dass die Wirkung auf den Patienten, die die Autoren nachgewiesen haben wollen, auch für ihn tatsächlich in bedeutsamem Umfang zu merken ist. Ferley [5] weist eine Wirkung des Oscillococcinum nach, diese besteht aber nur darin, dass die Zeitdauer des Infekts um 6 Stunden abgekürzt worden ist – bei einer durchschnittlichen Zeitdauer von 3,5 Tagen, einer maximalen Zeitdauer von 7 Tagen. Oder, dass nur 5% der Patienten einen Vorteil erreichen, die anderen 95 % werfen ihr Geld zum Fenster raus: sie wären entweder auch so genesen oder auch unter Verum nicht. Oder Witt [6] berichtet von einer Verbesserung der Lebensqualität von 39,3 auf 46,4 Punkte, was ja ein deutlicher Prozentsatz ist (18%). Misst man diese Verbesserung aber am durchschnittlichen Wert für die Gesamtbevölkerung, 82,6 Punkte, dann sieht die Verbesserung deutlich kleiner aus. Die Patienten haben gemessen an dem Ziel nur einen relativ kleinen Schritt getan.

Frei [4] berichtet allen Ernstes von einer Verbesseung von 1,7 Indexpunkten als Hauptergebnis, was noch nicht einmal bei zwei von zehn Kriterien einer Verbesserung um einen von vier Bewertungspunkten darstellt, beispielsweise von ’sehr stark‘ auf ‚ziemlich stark‘.

Auch hier ist es schwierig, eine allgemeine Vorgehensweise festzulegen. Es soll jedoch sichergestellt werden, dass es um eine Wirksamkeit geht, die ein Patient auch ohne feinfühlige Messapparatur merken kann. Eine Verbesserung, die nur die Akademiker, die die Studie durchführen, mit ausgefeilter Analysetechnik bemerken, ist keine Wirkliche.

Weitere Kriterien

Die oben angeführten Fragepunkte sind die wesentlichen Kriterien, die nach meiner Meinung von einer Studie erfüllt werden müssen, um als glaubwürdig und aussagekräftig zu gelten. Hinzu kommen einige weitere Beurteilungskriterien, die aber weitgehend darauf abzielen, die oben beschriebenen Fragen beantworten zu können. Wenn sie fehlen oder nur unzureichend dargestellt sind, dann kann man nicht zwangsläufig auf mangelnde Aussagekraft schließen – aber zumindest Zweifel haben, warum die Angaben nicht gemacht wurden. Eine ausführliche Erörterung der Punkte ist hier wohl nicht von Nöten:

– Sind die Gegebenheiten in den Patientengruppen angemessen dargestellt?

– Sind die Gruppen halbwegs ausgeglichen zusammengesetzt?

– Wurde der Ablauf der Untersuchung klar beschrieben?

– Wird in der Auswertung über alle zu Beginn aufgenommenen Patienten berichtet?

– Ist die Auswertung nachvollziehbar und das Ergebnis vollständig dargestellt?

Nicht berücksichtigt

Die im Folgenden genannten Fragepunkte sind zwar durchaus naheliegend, wir werden sie aber nur in Sonderfällen zu einer Bewertung heranziehen:

Ist die Therapie angemessen?
Dies ist ein weites Feld, das auch bei der Diskussionen zu Veröffentlichungen in den Fachzeitschriften eine Rolle spielt. Für den Skeptiker ist eine homöopathische Therapie natürlich nie angemessen, das heißt, geeignet eine Genesung herbeizuführen. Es geht aber um das Argument der Gegenseite: Sind die Wirkstoffe und deren Potenzierungen richtig ausgewählt worden, erfolgte die Einnahme zu sinnvollen Zeitpunkten, sind die Kontrollen zu den richtigen Zeitpunkten erfolgt? Sind alle diese Dinge nach den Regeln der Homöopathie korrekt gehandhabt worden, denn sonst ist ja gar nicht damit zu rechnen gewesen, dass bei den mit Verum behandelten Patienten eine Besserung eintritt.

So berechtigt diese Fragestellung auch ist, hat sie dennoch zwei gravierende Probleme: Erstens kann ich dies mangels Qualifikation als Homöopath nicht beurteilen. Das ist sicherlich ein gewisser Schwachpunkt. Aber andererseits bin ich ganz froh, hierzu nicht Stellung nehmen zu müssen, denn, zweitens, sind sich die verschiedenen homöopathischen Denkrichtungen auch nicht immer einig, welches nun das richtige Vorgehen gewesen wäre. Schließlich sind bei den allermeisten Studien zur Homöopathie auch Homöopathen beteiligt. Geht aber eine Studie daneben, dann werden einige Zeit später des öfteren Stellungnahmen von anderen Homöopathen publiziert, die genau darstellen, warum die Studie schon von der Anlage her kein positives Ergebnis bringen konnte, dass sie bei richtiger homöopathischer Betrachtung sogar grottenfalsch angelegt war und ein richtiges Vorgehen ohne Zweifel ein positives Ergebnis gebracht hätte, aber eben so, wie sie durchgeführt wurde, genau nicht.

(Derzeit habe ich kein passendes Zitat zur Hand, werde aber ein paar Beispiele hier einfügen, wenn ich in Zukunft darauf stoße.)

Würde ich mich in diesem Spannungsfeld dazu hinreißen lassen, über die Zweckmäßigkeit der Therapie zu urteilen, hätte ich hier wahrscheinlich eine langwierige Diskussion um das Behandlungskonzept selber, was aber zu der Frage, ob eine Wirkung nachgewiesen ist oder nicht, nicht viel beiträgt.

Gibt es unabhängige Replikationen?
Ein wesentlicher Punkt der Wissenschaft ist, dass ihre Befunde jederzeit wiederholbar sein sollen. Wir bewegen uns dazu noch im Bereich der schließenden Statistik, die nur mit Wahrscheinlichkeiten arbeitet, nie mit absoluten Gewissheiten. Ein Ergebnis kann also eigentlich erst dann als sicher gelten, wenn es wiederholbar ist, also wenn unabhängige Forscher mit dem gleichen Vorgehen ähnliche Ergebnisse erzielt haben. Dies wird dann zweifelsfrei erkennbar, wenn passende und unabhängige Replikationen der Studie tatsächlich vorliegen.

Wir können aus dem Nicht-Vorliegen von Replikationen allerdings nicht schließen, dass ein Ergebnis nicht nachvollziehbar ist – vielleicht hat das ja auch nur noch niemand probiert. Man überlege sich mal, ein Forscher möchte natürlich Ruhm und Ehre für neue Erkenntnisse und Entdeckungen erhalten (würde er nach Geld und Reichtum streben, hätte er die falsche Profession gewählt, wäre sein Seelenheil das Ziel, auch). Da ist das Nachfahren von Versuchen anderer Leute keine so sonderlich attraktive Beschäftigung. Es dürfte auch schwierig sein, hierfür einen Sponsor zu finden, der die anfallenden Kosten übernimmt. Das Ausbleiben replizierender Versuche sagt also nichts aus.

Selbst eine erfolgreiche Replikation sagt wenig aus – wir wissen nicht, wie oft die Untersuchung wiederholt werden musste, bis das gewünschte Ergebnis herauskam.

Dieser Punkt – obwohl theoretisch einer der wichtigsten überhaupt – ist für uns daher nur von geringer praktischer Bedeutung.

Anwendung der Kriterien

Damit seien die wesentlichen Kriterien einmal aufgeführt. Da es sehr viele verschiedene Arten gibt, eine Studie durchzuführen und die Ergebnisse zu präsentieren, kann dieser Katalog kein starres Konzept sein, das stur immer und immer wieder ausgeführt wird. Von daher verbietet sich auch eine Vergabe von Punkten mit einem Grenzwert zur Unterscheidung zwischen aussagekräftig und nicht aussagekräftig. Auch werden von Fall zu Fall sicher irgendwelche Auffälligkeiten in die Bewertung einfließen. Vielleicht werden auch neue Erkenntnisse zu einer Erweiterung des Katalogs führen, möglicherweise als Folge einer regen Diskussion zu diesem Beitrag.

Literatur / Quellen

[1] Kleijnen J, Knipschild P, terRiet G: ‚Clinical trials in homoeopathy‘, in: BMJ 302(1991): pp 316 – 323, siehe auch mein Buch

[2] Linde K, Clausius N, Ramirez G, Melchartd D, Eitel F, Hedges LV, Jonas WB: ‚Are the clinical effects of homeopathy placebo effects? A meta-analysis of placebo controlled trials‘, in: The Lancet 350 (1997): pp. 834 – 843, siehe auch mein Buch

[3] Shang A, Huwiler-Müntener K, Martey L, Jüni P, Dörig S, Sterne JA, Pewsner D, Egger M: ‚ Are the clinical effects of homoeopathy placebo effects? Comparative Study of placebo-controlled trials in Homoeopathy and allopathy‘, in: The Lancet 366 (2005): pp 726 – 732

 [4] Frei, H., Everts, R., v. Ammon, K., Thurneyson, A.:
‚Homöopathische Behandlung von hyperaktiven Kindern: Ergebnisse einer randomisierten, placebo-kontrollierten Doppelblindstudie mit Crossover‘, in: Zeitschrift für klassische Homöopathie, 2006; 50:5-12, siehe auch hier im Blog

 [5] Ferley JP, Zmirou D, d’Adhemar D, Balducci F: ‚A controlled evaluation of a homoeopathic preparation in the treatment of influenza-like syndromes‘ in: Br. J. Clin. Pharmac, 27 (1989) pp 329 – 335, siehe auch mein Buch

[6] Witt CM, Lüdtke R, Baur R, Willich SN: ‚Homeopathic medical practice: Long term result of cohort study with 3981 patients‘ in BMC Public Health 5 (2005) pp 115 ff, siehe auch mein Buch

[7] Spence DS, Thompson EA, Barron SJ: ‚Homeopathic treatment for chronic disease: a 6 year university hospital outpatient observational study‘, in: J. Altern. Complement. Med. 11 (2005) (5) S. 793 – 798, siehe auch mein Buch

[8] Reilly D, Taylor MA, Beattie NGM, Campbell JH, McSharry C, Aitchison TC, Carter R, Stevenson RD: ‚Is evidence for homoeopathy reproducible?‘ in: The Lancet 394 (1994) pp 1601 – 1606, siehe auch mein Buch

 

 

 

 

 

 

Dieser Beitrag wurde unter Blog, Hintergrund veröffentlicht. Setze ein Lesezeichen auf den Permalink.

6 Antworten zu Beurteilungskriterien zur Aussagekraft von wissenschaftlichen Studien zur Homöopathie

  1. Pingback: Homöopathen ohne Grenzen: Cola light für Hungergebiete @ gwup | die skeptiker

  2. Pingback: gwup | die skeptiker / Gefühllose Schaben und Typhus: Homöopathie zwischen Komödie und Tragödie | entropy wins!

  3. Pingback: Schaben und Typhus: Homöopathie zwischen Komödie und Tragödie @ gwup | die skeptiker

  4. Pingback: Beweisaufnahme in Sachen Homöopathie / Wasserlinsen sollen Wirkung von homöopathischen Mitteln zeigen | entropy wins!

  5. Pingback: Neuer Blog: Beweisaufnahme in Sachen Homöopathie @ gwup | die skeptiker

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.