Homöopathische Therapie von Fibromyalgie – Fisher (1989) und Bell (2004)

(Überarbeitet 15.2.2014)

Nachdem die letzte Analyse eigentlich recht erfreulich verlief, landen wir mit dieser Betrachtung leider wieder am anderen Ende der Skala. Über die homöopathische Behandlung der Fibromyalgie existieren drei kontrollierte Vergleichsstudien. Hauptthema dieser Analyse ist die in 2004 veröffentlichte Arbeit von Bell [1]. Wegen ihres nur geringen Umfangs und ihres schwachen Inhalts wird die Arbeit von Fisher aus dem Jahr 1989 ebenfalls behandelt [2].

Bei einer dritten Arbeit, die Relton 2009 veröffentlichte, handelt es sich nur um eine sogenannte Pilotstudie, die normalerweise einer größeren klinischen Studie vorausgeht [3]. Üblicherweise werden solche vorausgehenden Untersuchungen durchgeführt, um herauszufinden, in welche Richtung eine kontrollierte Vergleichsstudie angelegt werden sollte, welche Effekte auftreten können etc. Hiermit werden wir uns zu gegebener Zeit beschäftigen.

Fibromyalgie (auch Fibrositis)

Wie üblich werden wir uns hier nur insoweit mit dem Krankheitsbild der Fibromyalgie beschäftigen, wie es zum Verständnis der durchgeführten Vergleichsuntersuchungen erforderlich ist. Wer sich genauer informieren möchte, sei auf die Ausführungen des entsprechenden Beitrages in der Wikipedia verwiesen.

Die Fibromyalgie ist demnach eine Schmerzerkrankung mit einem etwas diffusen Erscheinungsbild, die für die Betroffenen sehr unangenehm und langwierig ist. Der Körper schmerzt an verschiedenen Stellen, ohne dass organische Ursachen hierfür festgestellt werden könnten. Als Folge erleiden die Patienten, in der überwiegenden Mehrzahl offenbar Frauen, nicht selten auch psychische Probleme, die neben der Belastung durch den Dauerschmerz auch auf die mit dem Krankheitsverlauf verbundenen Schlafstörungen einerseits und auf die mangelnde Akzeptanz der Beschwerden im Umfeld (‚Hypochonder‘) andererseits zurückgeführt werden können. Als Diagnosekriterium für eine Fibromyalgie werden in den Arbeiten die Angaben des American College of Rheumatology (ACR) verwendet: Fibromyalgie liegt dann vor, wenn großflächige Schmerzen auftreten und eine besondere Schmerzempfindlichkeit in mindestens 11 von 18 festgelegten Schmerzpunkten festgestellt werden kann, zumeist in den Sehnenansätzen in der Nähe großer Gelenke. Hinzu kommt, als Ausschlussdiagnose, dass keine andere Diagnose gegeben werden kann, die diese Symptome erklären würde.

Untersuchung von Fisher 1989

Diese Arbeit enthält nichts, nicht die kleinsten Anhaltspunkte, um das Ergebnis der Autoren irgendwie nachvollziehen zu können. Für einen heute recht prominenten Vertreter der Homöopathie (angeblich ist er (seit 2001) der ‚Leibhomöopath‘ der englischen Königin sowie Herausgeber der Fachzeitschrift ‚Homeopathy‘ und Autor vieler Fachartikel) ist diese Arbeit von beschämender Qualität.

Die Studie wurde an 30 Patienten durchgeführt, bei denen eine Fibromyalgie – damals noch als Fibrositis bezeichnet – festgestellt worden war und bei denen in einer homöopathischen Anamnese Rhus toxicodendron als wirksames Mittel erkannt worden war. Dieses Mittel wurde in C6-Potenz (entsprechend D12) den Patienten in einer doppelt verblindeten placebokontrollierten Vergleichsstudie im Crossover-Verfahren verabreicht. Bei einer Crossover-Studie tauschen Placebo- und Homöopathiegruppe während des Versuchs die Rollen, was die Wirkung besonders deutlich erkennbar machen soll – oder auch nicht, wenn die Effekte, die untersucht werden, langfristiger Natur sind.

Dann folgt das Ergebnis: Im Durchschnitt gibt es bei der Placebogruppe am Ende noch 14,1 Schmerzpunkte, bei der Homöopathiegruppe nur noch 10,6. Bei 27 Patienten in der Placebogruppe verbesserte sich die Schlafqualität, bei der Homöopathiegruppe hingegen bei 53. Man beachte: die Gesamtzahl der Patienten lag bei 30, und bei insgesamt 80 Patienten verbesserte sich die Schlafqualität. Da sage man noch, dass die Homöopathie keine Wunder wirken könnte. Alle Ergebnisse waren natürlich hochsignifikant.

Mehr Ergebnis ist nicht. Mehr Information über die Ausgangssituation allerdings auch nicht. Wir erfahren noch nicht einmal, wie groß die Gruppen waren, auch nicht, wie sie zusammengesetzt waren, ganz zu schweigen davon, welche Befunde zu Anfang vorlagen. Die Autoren versichern zwar, dass die Bedingungen vergleichbar waren, aber was sagt das schon? 100 ist auch mit 200 vergleichbar, das Ergebnis des Vergleichs ist, dass die eine Zahl deutlich größer ist als die andere.

Wenn man als Maßstab zur Bewertung einer Arbeit davon ausgeht, dass sie alle Informationen enthalten soll, dass jemand anderes in die Lage versetzt wird, sie unabhängig zu wiederholen, dann wundert man sich wieder einmal, wie ein solcher Artikel das Peer-review eines doch sehr renommierten Fachjournals (British Medical Journal) überstanden hat. Bei der Studie handelt es sich allenfalls um einen etwas besseren anekdotischen (erzählenden) Bericht über Heilungserfahrungen mit Homöopathie – mehr nicht. Eine weitere Analyse erübrigt sich daher.

Untersuchung von Bell – Studiendesign

Das wird jetzt etwas langwieriger, denn es wurde unheimlich viel gemessen und ausgewertet – und erst nachdem man sich dann die Daten zurechtgebogen hat, ist man auch auf ein positives Ergebnis gekommen. Dies dem Leser nahezubringen, ist etwas aufwändig und erfordert auch seitens des Lesers ein gewisses Maß an Durchhaltevermögen. Viel Glück.

Diese Studie wurde in Arizona/USA durchgeführt und umfasste, als die Gruppenaufteilung erfolgte, 62 Patienten mit nach den ACR-Kriterien festgestellter Fibromyalgie, davon 30 in der Homöopathie- und 32 in der Placebogruppe. Während der Studie schieden aus verschiedenen Gründen 9 Patienten aus, 4 aus der Homöopathie- und 5 aus der Placebogruppe, so dass schlussendlich 53 Patienten ausgewertet wurden.

Die Patienten wurden per öffentlicher Werbung rekrutiert und erhielten individuelle Mittel verordnet. Auf diese mussten sich zwei erfahrene Homöopathen während einer gemeinsam durchgeführten Eingangsuntersuchung einigen, um Fehler in der Medikamentierung zu vermeiden. Man wollte auf diese Weise sicherstellen, dass das Ergebnis nicht zu Ungunsten der Homöopathie verfälscht wurde. Es wurden insgesamt 41 verschiedene Mittel verordnet, vom recht giftigen Arsen (Arsenicum album) bis zum doch recht harmlosen Speisesalz (Natrium muriaticum). Nach einem Zufallsprinzip füllte die Apotheke die verordnete Arznei in die Flaschen oder das Placebo. So waren Ärzte und Patienten im Unklaren darüber, wer zu welcher Gruppe gehörte. Das Mittel wurde dann drei Monate lang eingenommen und danach das Ergebnis ermittelt.

Die Einnahme der Medikamente ist etwas konfus dargestellt. Es wird ausgeführt, dass die Patienten selbst die flüssige Arznei verschüttelten und in vier Unzen Wasser (ca. 0,12 l) verdünnten. Unklar ist aber, welche Mengen der angelieferten Arznei dazu verwendet wurden. Geliefert wurden ihnen pro Monat 16 Unzen (ca. 0,5 l) in steigender LM-Potenz, dass heißt im ersten Monat LM1, dann LM2 und LM3. Die LM-Potenzreihe werden in Verdünnungsschritten von 1 : 50.000 bei 100 Schüttelschlägen pro Schritt hergestellt(anstelle 1 : 10 und 10 Schüttelschlägen in der D-Reihe). LM2 liegt von der Konzentration her also zwischen D9 und D10, LM3 bei ungefähr D14. Ein Gramm Wirkstoff verteilt sich also zunächst auf etwa 50 Liter (Bierfass), dann auf 2500 Kubikmeter (Olympiaschwimmbecken)und schließlich auf 125 Millionen Kubikmeter Wasser (Möhnetalsperre). Irgendwie hat der Homöopath die Potenz nach Bedarf auch verändern können, aber das bleibt etwas im Dunkeln.

Interessant ist, warum man die LM-Potenzen gewählt hatte: Zum Einen seien die LM-Potenzen milder und könnten ohne Weiteres über einen längeren Zeitraum eingenommen werden, wären auch weniger empfindlich dagegen, dass die Wirkung durch parallele andere Medikamente aufgehoben würde. Da viele Patienten eine Unverträglichkeit gegen verschiedene Chemikalien entwickelt hätten, wäre zum Anderen das Risiko des Aufflackern von Symptomen (’symptom flare‘) geringer und die Potenz könnte auch nach den Erfordernissen des Patienten angepasst werden. Vielleicht forsche ich irgendwann einmal nach, worauf diese Erkenntnisse eigentlich beruhen und wie diese Aussagen verifiziert wurden.

Gemessen wurde eine ganze Menge, alleine als Hauptkriterien werden genannt:

  • Anzahl der Schmerzpunkte
  • Schmerzen beim Abtasten der Schmerzpunkte
  • Bewertung des affektiven Schmerzempfindens nach McGill
  • Bewertung des sensorischen Schmerzempfindens nach McGill
  • Einschätzung der Folgen auf die Lebensqualität durch die Fibromyalgie

Dies sind nur die Hauptkriterien, eine ganze Menge, wie man sieht, zwischen denen sich die Autoren offenbar nicht entscheiden konnten. Dabei soll es eigentlich nur ein Hauptkriterium geben, an dem beurteilt wird, ob die Therapie erfolgreich war oder nicht. Irgendwo in einem Nebensatz wird gesagt, diese Untersuchung sei auch eine Pilotstudie, was man sonst nirgendwo erfährt, auch in der Zusammenfassung nicht.

Hinzu kommen ja noch sekundäre Kriterien:

  • Änderungen in der Bewertung der Müdigkeit (POMS)
  •  Änderungen in der Bewertung der Depression (POMS)

In der Ergebnistabelle tauchen dann noch weitere Kriterien auf:

  • Änderung in der Bewertung der Ärgerlichkeit (POMS)
  • Generelle Bewertung der Gesundheit

Für eine Pilotstudie wäre das alles durchaus gerechtfertigt, schließlich will man damit ja herausfinden, wo die größten Effekte der Therapie liegen, um dies in einer darauf folgenden Vergleichsstudie dann genauer statistisch zu erfassen. In der Zusammenfassung wird dieser wichtige Umstand aber nicht erwähnt. Eine solche nachfolgende Hauptstudie ist offenbar auch bisher nicht publiziert worden. Bell hat zwar im gleichen Jahr noch einige Arbeiten veröffentlicht, diese befassen sich aber mit weiteren Untersuchungen an den Patienten dieser Studie, etwa mit der Messung von Hirnaktivitäten bei der Einnahme der Medikamente. Naheliegende Folgerung: Die Angabe, es sei eine Pilotstudie, ist eine müde nachträgliche Entschuldigung für das hier sehr offensichtliche Suchen nach irgendeinem Anhaltspunkt, an dem man ein positives Ergebnis festmachen könnte.

Gehen wir einmal die Messverfahren hierzu durch:

Anzahl der Schmerzpunkte
Hier ist nichts weiter zu sagen, der behandelnde Arzt tastet die festgelegten Punkte ab und stellt fest, ob der Patient dabei Schmerz empfindet, und zählt diese Punkte ab.

Schmerzen beim Abtasten der Schmerzpunkte
Hier lassen uns die Autoren im Unklaren darüber, was wie gemessen wurde. Aus den späteren Angaben in der Auswertung kann man schlussfolgern, dass es eine Skala von 0 bis 10 gibt, nach der für jeden einzelnen Schmerzpunkt das Empfinden des Patienten bewertet wird, aber wie das erfolgt bleibt offen. Es handele sich um einen ’stress test‘, der nicht näher beschrieben wird.

McGill-Fragebogen
Der McGill-Fragebogen ist ein Werkzeug, um das sehr subjektive Schmerzempfinden irgendwie greifbar und bewertbar zu machen. Der Fragebogen wird in sehr großem Umfang bei solchen Studien eingesetzt. Bell benutzt die Kurzform, bei der die Patienten beurteilen müssen, inwieweit die angegebenen Charakteristika des Schmerzempfindens zutreffen oder nicht. Hierzu steht ihnen eine Skala von 0 bis 3 zur Verfügung. (0 = gar nicht (none‘), 1 = mild (‚mild‘), 2 = mäßig (‚moderate‘), 3 = heftig (’severe‘). Die Summe der Punkte ist der Messwert. Dabei wird zwischen zwei verschiedenen Kategorien unterschieden. 11 Charakteristika beschreiben das sensorische Schmerzempfinden, das heißt, wie der Patient den Schmerz fühlt, beispielsweise großflächig oder lokal begrenzt, stark oder schwach, stechend oder dumpf etc. Das affektive Schmerzempfinden beschreibt hingegen, wie der Patient den Schmerz empfindet, z.B mehr oder weniger bedrohlich, beängstigend, quälend und wird mit vier Charakteristika abgefragt [4].

Einschätzung der Auswirkung die Fibromyalgie auf die Lebensqualität
Hierbei werden 7 Fragen gestellt, die der Patient auf einer Skala von 1 bis 5 von ‚gar nicht‘ bis ’sehr stark‘ beantworten muss. Es wird etwa gefragt, wie stark der Patient sich in seinem Leben durch seine Krankheit verunsichert sieht oder wie stark die Krankheit ihn daran hindert, seine Lebensziele zu erreichen. Auch hier ist die Summe der Punkte der Messwert [5].

Profile of Mood State (POMS)
Das ‚Profile Of Mood States‘ (POMS) ist ebenfalls ein Fragebogen, um das seelische Befinden und die Stimmung zu messen. Auch hier wurden eine Reihe Wörter zusammengestellt, die die Stimmung eines Menschen beschreiben können, je nach Version bis über 60 Stück, und die Patienten müssen auf einer Skala bewerten, in welchem Ausmaß dies augenblicklich oder in einem bestimmten Zeitraum (gestern, die letzte Woche oder ähnlich) für sie zutrifft [6]. Dies geht von ‚gar nicht‘ bis ’sehr stark‘ . Die positivste Alternative wird mit null Punkten bewertet, die schlechteste mit vier Punkten. Die Summe der Punkte ist der Messwert. Auch hier gibt es verschiedene Kategorien, für die vorliegende Arbeit werden die Müdigkeit/Abgespanntheit, Niedergeschlagenheit/Depression und Ärgerlichkeit/Aggressivität herangezogen. Dieser Online-Fragebogen vermittelt ein Gefühl für die Inhalte.

Gesamtbewertung der Gesundheit
Dieser Punkt taucht irgendwo in den Ergebnissen plötzlich auf, ohne dass erkennbar ist, wie die Ergebnisse ermittelt wurde. Es ist noch nicht einmal klar, ob ein größerer Wert besser oder schlechter ist.

Ergebnisse

Was haben die Forscher jetzt mit diesem ganzen Arsenal an Messmitteln herausgefunden?

Zunächst einmal nichts, so traurig das auch ist.

Die Messergebnisse sind in der folgenden Tabelle zusammengefasst, die einen Auszug aus Tabelle 2 der Arbeit darstellt.
 

KriteriumBereichHom.Plac.Diff.Vertrauensb.
Anzahl Pkte0 ...1814,816,1- 1,3-3,2 ... +0,56
Abtastung0 ... 18071,382,8-11,0-31,0 ... +8,9
Schm. affekt.0 ... 123,33,5-0,14-1,7 ... +1,4
Schm. sensor.0 ... 3312,912,4+0,48-3,6 ... +4,5
Lebensqual.7 ... 3519,219,9-0,62-3,6 ... +2,4
Erschöpfung0 ... 2810,013,4- 3,4-7,6 ... +0,73
Depression0 ... 607,38,1-0,82-6,3 ... +4,7
Ärgerlichkeit0 ... 482,93,7-0,74-3,8 ... +2,3
Gesundheit3 ... 158,27,70,47-1,2 ... +2,1
 
Erklärung:
Bereich: Kleinster und größter möglicher Wert
Differenz: Unterschied zwischen Homöopathie- und Placebowerten
Vertrauensbereich: Vertrauensbereich für die Differenz, s. Text

Wenn man einmal in Betracht zieht, wie die Daten ermittelt wurden, dann fallen zunächst die teilweise nur recht geringen Unterschiede auf. Einen Unterschied von weniger als 1.0 kann man sich so vorstellen, dass noch nicht einmal alle Gruppenmitglieder der einen Gruppe einen einzigen Fragepunkt um eine einzige Bewertungsstufe verschoben haben. Auch ohne sich Gedanken darüber zu machen, wie gut denn die Auflösung oder die Wiederholgenauigkeit der angewendeten Messverfahren ist, erscheint dies bar jeder Aussagekraft.

Ein negativer Wert der Differenz beider Gruppen bedeutet dabei einen Vorteil für die homöopathische Behandlung. Außer bei der generellen Gesundheit. Nach dem, wie die Autoren im weiteren Verlauf der Arbeit diskutieren, scheint hier ein höherer Wert positiv zu sein. Wie man sieht, also durchweg für die Homöopathie positive Ergebnisse, außer bei dem sensorischen Schmerzempfinden. Soweit so schön.

Aber: Bei Untersuchungen dieser Art beschäftigt man sich notgedrungen mit Stichproben. Dabei stellt sich dann die Frage, ob denn die Ergebnisse aus der Stichprobe auch die Realität wiedergeben. Genau genommen liefert die Stichprobe ja nur Schätzwerte für die Daten, die an der Gesamtheit aller Patienten in der Bevölkerung zu erwarten sind. Je größer die Stichprobe, desto genauer wird die Schätzung auch den realen Wert treffen. Hierzu wird rechnerisch der Vertrauensbereich (‚Konfidenzintervall‘) ermittelt, einige Ausführungen dazu können hier im Blog nachgelesen werden, oder in diesem Artikel in der Wikipedia. Der Vertrauensbereich gibt an, in welchem Bereich um den ermittelten Schätzwert herum der wahre Wert mit einer gewissen Wahrscheinlichkeit liegt, zumindest näherungsweise (die Vollblutstatistiker mögen mir die kleine Unkorrektheit verzeihen, aber mit der richtigen Definition kann man hier nichts anfangen). Üblicherweise wird der Vertrauensbereich für eine Wahrscheinlichkeit von 95 % angegeben, so auch in der obigen Tabelle.

Was sehen wir da? Für alle erzielten Ergebnisse erstreckt sich der Vertrauensbereich für den Unterschied zwischen Placebo- und Homöopathiegruppe über negative und positive Werte. Das heißt, die Vertrauensbereiche für die jeweils zu Grunde liegenden Einzelwerte überlappen sich recht deutlich. Folge: Die Studienergebnisse sagen eigentlich nur aus, dass die richtigen in der Gesamtbevölkerung zu erwartenden Werte ‚irgendwo dazwischen‘ liegen. Also nach Lage der Dinge könnte auch das glatte Gegenteil der dargestellten positiven Ergebnisse zutreffend sein.

Anhand der Gegebenheiten und Ergebnisse dieser Studie kann man also überhaupt nicht ausschließen, dass die beobachteten Verbesserungen in der Realität tatsächlich Verschlechterungen sein könnten. Nicht eines der Ergebnisse kommt auch nur in die Nähe einer statistischen Signifikanz. Hiernach wäre der ganze Versuch schlicht und einfach für die Katz, denn es kann eigentlich keine Aussage für oder gegen eine beobachtete Wirkung der homöopathischen Therapie getroffen werden. Im Sport wäre das ein Unentschieden, da aber die Studie den Nachweis erbringen sollte, dass Homöopathie wirkt, ist das ein glattes Eigentor.

Das ist aber nun wenig sachdienlich, nicht nur für die Homöopathie, sondern auch für die Autoren, die für ihre Untersuchung einiges an öffentlichem Geld der amerikanischen Gesundheitsbehörde verblasen haben dürften und daher sicher in der Verpflichtung stehen, die Ergebnisse auch zu veröffentlichen. Was macht man dann? Ganz einfach, man verbiegt die Zahlen etwas: Man versucht sich zu Nutze zu machen, dass es zwischen den Gruppen doch, trotz Randomisierung, bei der Zuordnung der Patienten zu kleinen Unterschieden gekommen ist, und versucht, dies durch statistische Korrekturverfahren auszugleichen. Die Autoren hier haben eine Varianzanalyse durchgeführt, die ich angesichts des nicht unbeträchtlichen Rechenaufwandes ohne Statistikprogramm nicht nachvollziehen kann.

Ich muss ebenfalls zugeben, mit solchen Verfahren nicht sonderlich vertraut zu sein, und möchte daher nur kurz umreißen, worum es geht (für weitergehende Informationen sei auf diese Seite in der Wikipedia verwiesen):

Nehmen wir einmal an, bei einer klinischen Untersuchung wären die beiden Gruppen hinsichtlich des Anteils der Frauen stark unterschiedlich zusammengesetzt. Wenn jetzt Frauen dazu neigen, sich bei dem betrachteten Krankheitsbild leichter zu erholen als Männer, dann ergäben sich alleine aus den unterschiedlichen Anteilen unterschiedliche Gruppenergebnisse, die gar nichts mit dem Medikament zu tun haben. Wenn man wüsste, wie stark sich die Frauen von den Männern hinsichtlich ihrer Genesung unterscheiden, dann könnte man das in der Auswertung berücksichtigen. Dies ist im wesentlichen das, was man mit einer Varianzanalyse erreichen will und was auch hier versucht wurde. Die Beschreibung, was getan wurde, ist allerdings recht knapp ausgefallen. Man hat ‚entsprechend der signifikanten Unterschiede in den Ausgangsdaten diese korrigiert‘.

Diese Unterschiede, auf denen die Korrektur beruht, sind aber alles andere als deutlich, jeweils um weniger als 10% der Gesamtskala:

  • Abtastung: 15,7 von 180 Punkten
  • Depression: 4,9 von 60 Punkten
  • Ärgerlichkeit: 3,1 von 48 Punkten.

Gemessen an der gesamten Bandbreite der möglichen Empfindungen lagen die beiden Gruppen auch am Anfang der Behandlung recht dicht beieinander, wie es mit einer Randomisierung schließlich auch erreicht werden sollte. Auch wenn man rein auf mathematischem Wege aus diesen Unterschieden Korrekturfaktoren errechnen kann, ist es doch fraglich, ob die kleinen Unterschiede auch ein unterschiedliches Reaktionsverhalten bedingen, insbesondere wenn man sich vergegenwärtigt, dass es sich hierbei um subjektive Bewertungen handelt: ein Punkt entspricht nur einer Änderung der Bewertung in einem Charakteristikum um einen Schritt.

Verzichten wir hier auf eine weitere langwierige Diskussion über die Angemessenheit der Anpassung, nehmen wir vereinfachend einfach an, dass es damit schon seine Richtigkeit haben würde, und betrachten wir die Ergebnisse in der nächsten Tabelle.

KriteriumHom.Plac.Diff.KorrigiertSignif..
Anzahl Schmerzp.82,089-7,2-10,5< 0,05
Abtastung39,645,9-6,1-12,5< 0.01
Schmerz affektiv27,529,2-1,2-8,3< 0,1
Schmerz sensorisch39,037,5+1,5-3,6
Lebensqualität43,646,1-2,2-7,5< 0,05
Erschöpfung35,747,9-12.1-10,3
Depression12,213,5-1,4-7,3< 0,1
Ärgerlichkeit6,07,7-1,5-5,0< 0,1
Gesamtgesundheit56,760,8-3,9-12,5< 0,05

(Anmerkung: Die getrennte Umrechnung der angegebenen Differenzen hat zum Teil recht große Rundungsfehler zur Folge.)

Um eine bessere Übersichtlichkeit zu erreichen, habe ich die Daten allerdings etwas aufbereitet. Wegen der Vielzahl der verwendeten unterschiedlichen Skalen sind die Zahlen in der originalen Darstellung nur wenig übersichtlich. Daher habe ich die Daten auf eine einheitliche Skala von 0 bis 100 Punkte umgerechnet, mit 0 als dem bestmöglichen und 100 als dem schlechtestmöglichen Wert. Die Spalte Differenz zeigt wieder den Unterschied zwischen beiden Gruppen, ebenfalls als Unterschied auf der 100-Punkte-Skala, negative Werte stellen Vorteile für die Homöopathie dar. Man sieht, dass zwar alle Kriterien einen Vorteil für die Homöopathie anzeigen, dieser aber bis auf ein Kriterium weniger als 10 Punkte beträgt.

Infolge der Korrektur hat man durchaus etwas größere Zahlenwerte erreicht – macht das aber überhaupt etwas aus? Nach Ansicht der Forscher wahrscheinlich schon, denn immerhin hat man einige Daten in den vermeintlich statistisch signifikanten Bereich bringen können. Aber das Ausmaß der Verbesserung, die Effektgröße, ist immer noch recht klein. Zur Verdeutlichung sei diese Skala von 0 bis 100 Punkte einmal auf die bekannte Skala der Schulnoten von 1 bis 6 gelegt. Dann entspricht ein Notensprung knapp 17 Punkten. Mithin entspricht nicht ein Effekt einer Veränderung um einen vollen Notensprung, auch nach dieser Korrektur nicht.

Aber, immerhin, hat man durch diese Korrektur einige Ergebnisse vermeintlich auf ein statistisch signifikantes Niveau gehoben. In der letzten Spalt von Tabelle 2 sind die Ergebniswahrscheinlichkeiten aufgetragen, so wie sie die Autoren angeben. Üblicherweise wird eine Wahrscheinlichkeit von 0,05 und darunter als ein statistisch signifikantes Ergebnis angesehen.

Zusätzlich führen die Autoren noch einen Gesichtspunkt ein, nämlich, dass eine Ergebniswahrscheinlichkeit von 0,1 und kleiner auf eine Tendenz zugunsten der Homöopathie schließen lasse. Auch wenn man das in anderen Arbeiten öfters liest, dass die Ergebnisse zwar nicht statistisch signifikant seien, aber eine Tendenz erkennen ließen – das macht die Sache nicht richtiger. Ergebnis eines Signifikanztests ist eine Wahrscheinlichkeit, mit der das Ergebnis zustande käme, wenn die dem Test zugrundeliegende Nullhypothese (‚das Medikament ist unwirksam‘) zutreffend wäre. Ist es hinreichend unwahrscheinlich, eben weniger als 5 %, dann geht man davon aus, dass die Nullhypothese nicht zutrifft. Das heißt, dass man damit rechnen muss, dass in jedem zwanzigsten Experiment zwar ein solches Ergebnis auftritt, aber immer noch durch Zufall zustande gekommen ist. Bei einer Wahrscheinlichkeit von 10 % wäre das bei jedem zehnten Experiment der Fall – und nichts weiter sagt eine solche Wahrscheinlichkeit aus.

Es ist einfach eine Fehlinterpretation, anzunehmen, dass das erzielte Ergebnis immer genauer den ‚richtigen‘ Sachverhalt trifft, je kleiner diese Wahrscheinlichkeit dafür ist, dass es ein Zufallsergebnis ist. Die einzige Aussage, die daraus folgt, ist und bleibt einfach, dass man mit höherer Wahrscheinlichkeit einen Fehler macht, wenn man die Nullhypothese, die Annahme, das Medikament sei unwirksam, ablehnt. Aus der Tabelle ist ersichtlich, dass die Verbesserung beim affektiven Schmerzempfinden ‚unwahrscheinlicher‘ war als die Verbesserung bei der Erschöpfung. Aber daraus zu schließen, dass die 12,5 Punkte damit näher am wahren Wert liegen als die 10,3 beim Schmerzempfinden ist nicht zutreffend.

Die Zahl stimmt wahrscheinlich – oder sie tut es nicht. Mehr ist nicht. Wenn Sie bei einem Wurf mit einem Würfel vorhersagen, dass eine Sechs fällt, dann sind alle anderen Ergebnisse falsch, eine Fünf genauso wie eine Drei. Irgendwie eine Fünf als weniger falsch zu betrachten als eine Drei, nur weil sie näher an der Sechs liegt, ist Unsinn.

Im Folgenden habe ich versucht, die Berechnung der Signifikanz nachzuvollziehen. In der Studie sind die Wahrscheinlichkeiten in den einzelnen Bewertungskriterien nach der Korrektur durch die Varianzanlyse ermittelt worden, ich kann aufgrund der Datenlage jeweils nur t-Tests durchführen. Dabei habe ich die zahlenmäßigen Ergebnisse der Homöopathiegruppe beibehalten und die Zahlen für die Placebogruppe durch Addition der aus den Korrekturen hervorgegangenen Differenzen ermittelt. Die Standardabweichungen wurden in beiden Gruppen beibehalten. Hiermit konnte ich folgende Daten gewinnen:

  • Anzahl Schmerzpunkte: p = 0,043
  • Abtastung: p = 0,027
  • Lebensqualität: p = 0,170
  • Gesundheit allgemein: p = 0,023

Im Vergleich zu Tabelle 2 ergeben sich beim Nachvollzug der Rechnung als t-Test zum Teil deutliche Unterschiede in den Zahlenangaben aus der Studie. Ich kann jedoch nicht beurteilen, ob dies auf den notwendigerweise anderen Rechenweg zurückzuführen ist. Dabei wurde noch nicht einmal berücksichtigt, dass ja mehrere Ergebnisse gleichzeitig betrachtet wurden und man deshalb die Grenze für die Signifikanz korrigieren müsste, s. Kommentare von Dierk D. zu diesem Beitrag.

Da durch die Bewertung von mehreren Kriterien die Chance auf ein signifikantes Ergebnis steigt, muss mit einem kleineren grenzwert gerechnet werden. Um ein bestimmtes Signifikanzniveau erreichen, muss bei fünf Kriterien, wie sie als Hauptkriterien für diese Studie genannt wurden, die kleinste Auftretenswahrscheinlichkeit unter einem Fünftel des Signifikanzniveaus unterschreiten. P müsste demnach im Minimum bei unter 0,01 liegen. Das ist nicht der Fall.

Wie schreiben die Autoren in der Diskussion der Ergebnisse:

Diese Daten stellen eine Replikation und Erweiterung der früheren Studie von Fisher et al. (s. oben) dar und zeigen, dass eine individualisierte homöopathische Therapie bei der Behandlung einer Fibromyalgie einem Placebo überlegen ist.

Nein, das nun wirklich nicht.

Zusammenfassung

Insgesamt wurden zwei Studien betrachtet, die sich mit der homöopathischen Behandlung von Fibromyalgie beschäftigen. Eine Studie liefert hierzu nur so wenige Informationen, dass sie sich auf diesem Wege einer Analyse entzieht.

In der zweiten Studie wurden eine Vielzahl von Daten erhoben, die bei einer Pilotstudie gerechtfertigt wären. Die Effektstärken sind dabei durchweg recht gering, es ist fraglich, ob ein Patient dies überhaupt deutlich spüren würde. Für alle Ergebnisse umfasst der Vertrauensbereich auch die Null und sowohl substanziell positive wie negative Bereiche. Erst eine Korrektur der Daten, die über eine Varianzanalyse erfolgt, bringt sie auf ein vermeintlich signifikantes Niveau. Bei Berücksichtung der mehrfachen Zielsetzung der Studie liefert eine Nachrechnung der Wahrscheinlichkeit, ob dieses Ergebnis durch Zufall entstanden sein könnte, dass kein einziges Ergebnis als signifikant gelten kann.

Die Studie eignet sich insgesamt nicht als Nachweis für eine Wirksamkeit einer homöopathischen Behandlung der Fibromyalgie.

Literatur

[1] Bell IR, Lewis DA, Brooks AJ, Schwartz GE, Lewis DE, Walsh BT, Baldwin CM: ‚Improved clinical status in fibromyalgia patients treated with individualized homeopathic remedies versus placebo‘ in: Rheumatology 2004; 43: 577-582 doi: 10.1093/rheumatology/keh111, Link zum Volltext

[2] Fisher P, Greenwood A, Huskisson EC, Turner P, Belon P.: ‚Effect of hoemeopathic treatment on fibrositis (primary fibromyalgia)‘ in: BMJ 299 (1989) pp365-366, Link zum Volltext  

[3] Relton C, Smith C, Raw J, Walters C, Adabajo AO, Thomas KJ, Young TA.: ‚Healthcare provided by a homeopath as an adjunct to usual care for Fibromyalgia (FMS): results of a pilot Randomised Controlled Trial‘ in: Homeopathy 98 (2009) 2 pp 77-82, doi: 10.1016/j.homp.2008.12.004, Link zum Abstract

[4] Melzack R: ‚The short-form McGill pain questionnaire‘, in: Pain 30 (1987) 2: pp 191-197, Link zum Abstract

[5] Walker EA, Keegan D, Gardner G, Sullivan M, Katon WJ, Bernstein D: ‚Psychosocial Factors in Fibromyalgia Compared With Rheumatic Arthritis: I. Psychaiatric Diagnoses and Functional Disability‘, in: Psychosomatic Medicine 59 (1997): pp 565 – 571. Link zum Volltext

[6] McNair D, Lorr M, Droppleman L: ‚Profile of Mood States (POMS)‘, Veröffentlichung der University of Buffalo 1989, Link zum Abstract

Dieser Beitrag wurde unter Blog, Klinische Einzelstudien, Wirksamkeitsstudien veröffentlicht. Setze ein Lesezeichen auf den Permalink.

Eine Antwort auf Homöopathische Therapie von Fibromyalgie – Fisher (1989) und Bell (2004)

  1. Pingback: Von wegen “Potenz”: Kein besserer Sex mit Homöopathie @ gwup | die skeptiker

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *