Wirkt Traumeel S® bei Entzündungen im Rachen ? (Oberbaum 2001)

Publiziert am 10. September 2013 von Norbert Aust

(Überarbeitung 15.2.2014)

Für diesen Blog bringe ich viel Zeit damit zu, die Arbeiten anderer Leute zu begutachten und zu kritisieren. Was man da zum Teil zu lesen bekommt, sträubt einem manchmal schon die noch verbliebenen Haare. Da ist es eine echte Freude, sich mit der für meine Begriffe gut gemachten Arbeit von M. Oberbaum zu beschäftigen, die 2001 veröffentlicht wurde [1].

Ich mache diese Einschränkung ‚für meine Begriffe‘ deshalb, weil diese Studie in Shangs Metaanalyse nicht als von hoher Qualität bewertet wurde [2]. Wir haben aber an anderer Stelle gesehen (beispielsweise hier und hier), dass eine gute Bewertung der Qualität in einem Review oder in einer Metaanalyse nicht unbedingt garantiert, dass die Studienergebnisse auch als Nachweis der Wirksamkeit taugen. Soweit ich erkennen kann, hat der Autor lediglich die Methode der Randomisierung nicht beschrieben, was nach Shang allerdings ein Beurteilungskriterium für die Qualität der Studie ist.

Studiendesign

Die Arbeit befasst sich mit der Behandlung von Stomatitis [1]. Nach der deutschen Wikipedia handelt es sich bei der Stomatitis um einen Befall der Mundschleimhäute durch Herpesviren. Wahrscheinlich ist hier aber eher die englische Beschreibung anzuwenden, nach der generell jede Entzündung der Schleimhäute im Mundraum so bezeichnet wird. Oberbaum untersuchte die Behandlung von Stomatitis, wie sie durch die orale Einnahme der Medikamente bei einer Chemotherapie offenbar recht häufig auftritt, mit dem homöopathischen Komplexmittel Traumeel S® als flüssige Verdünnung [3]. Erfreulich an seiner Arbeit ist, dass eindeutige und unzweifelhafte Maßstäbe verwendet wurden und alle erhobenen Daten angegeben werden, so dass ein Nachvollziehen der Auswertung möglich ist. Sogar aufgetretene Fehler werden aufgeführt und im Zweifelsfalle in die ungünstigere Richtung in die Auswertung einbezogen.

Die Untersuchung wurde an 32 Patienten im Alter zwischen 3 und 25 Jahren durchgeführt, die sich einer Stammzellentransplantation mit anschließender Chemotherapie unterzogen hatten. Obwohl Traumeel S® als flüssige Verdünnung offenbar zur Injektion gedacht ist, wurde es hier als Mundspülung verwendet. Die Patienten wurden nach einem Zufallsprinzip in zwei Gruppen aufgeteilt. Bei der Verumgruppe erfolgte die erste Behandlung zwei Tage nach der Transplantation und wurde im weiteren Verlauf fünfmal täglich angewendet. Die Placebogruppe erhielt die gleiche Therapie, wobei jedoch nur die Salzlösung der Trägerflüssigkeit verwendet wurde. Die Patienten sollten zusätzlich zu der in diesem Krankenhaus üblichen Standardprozedur ihren Mund mit der Lösung ausgiebig spülen und sie dabei möglichst lange auf die besonders betroffenen Stellen einwirken lassen. Diese Behandlung wurde mindestens 14 Tage lang durchgeführt oder bis die Anzeichen der Entzündung mindestens zwei Tage lang nicht mehr vorhanden waren.

Ergebnisse

Bei 77 % der Patienten lagen zu Beginn der Behandlung mit Traumeel S® noch keine Beschwerden vor.

Auswertbar waren in beiden Gruppen jeweils 15 Patienten. In der Verumgruppe traten bei fünf Patienten die Beschwerden erst gar nicht auf, in der Placebogruppe nur bei einem. Als wesentliche Bewertungskriterien wurde die Zeit gemessen, die verging, bis sich ausgehend von dem Zustand vor der Transplantation eine Verschlimmerung des Befundes ergab, und eine kombinierte Punktzahl, die sowohl die Intensität als auch die Dauer der Beschwerden beinhaltete. Die Intensität wurde nach objektiven Merkmalen bewertet (1 = Reizung ohne Schmerzen bis 4 = Nahrungsaufnahme nicht möglich). Die Dauer wurde als Anzahl der Tage gezählt, zu denen die jeweilige Intensitätsstufe vorlag. Die Punktzahl ergab sich aus der Multiplikation und Aufsummierung der Tage und Intensitäten.

In der Verumgruppe kam es bei nur 7 Patienten zu einer Verschlechterung der Stomatitis-Symptome und die Intensität der Beschwerden wurde durchschnittlich mit 10,4 Punkten bewertet, bei der Placebogruppe hingegen verschlechterte sich der Zustand von 14 Patienten – also fast von allen – und die Bewertung ergab 24,3 Punkte. Die Ergebnisse werden als sehr signifikant beschrieben mit p < 0,001 bzw. p < 0,01. Bemerkenswert ist, dass alle Daten angegeben werden, die man brauchen würde, diese Rechnungen nachzuvollziehen.

Dass bei der Verumgruppe nur bei 7 Patienten eine Verschlechterung eingetreten ist, in der Placebogruppe hingegen bei 14, wird in der Arbeit mit p < 0,001 als sehr signifikant bewertet. Bei der Intensität der Beschwerden, in der Verumgruppe nur 10,4 Punkte im Vergleich zu 24,3 Punkten bei Placebo, gab Oberbaum an, dass das Ergebnis mit p < 0,01 sehr signifikant sei.

Im weiteren Verlauf der Arbeit wird noch ausgeführt, dass die Patienten der Verumgruppe weniger Probleme mit Mundtrockenheit, Schmerzen im Mundraum und Schwierigkeiten beim Essen hatten. Die Verbesserung ist jedoch auf die Mundschleimhäute begrenzt, Traumeel S® wirkt nicht bei Beschwerden im weiteren Verdauungstrakt.

Soweit so gut. Also endlich ein positives Ergebnis für die Homöopathie!

Wirklich?

Es gibt mehrere Vorbehalte, die anzuführen sind, wenn man dieses Ergebnis als ‚Erfolg für die Homöopathie‘ bewerten möchte. Dies hat aber weniger mit der Qualität der Arbeit der Autoren zu tun als mit nach Lage der Dinge unvermeidlichen Problemen dieser Untersuchung.

Zunächst handelt es sich nur um ein einzelnes Ergebnis. Bekanntlich drückt die Signifikanz nur eine Wahrscheinlichkeit aus, dass ein Ergebnis nicht aus Zufall entstanden ist. Das heißt, es kann durchaus Ergebnisse geben, wie sie zwar nur mit einer geringen Wahrscheinlichkeit eintreten, die aber eben doch als Zufall entstanden sind. Bei einem Signifikanzniveau von 5 % wird dies im Durchschnitt bei jedem zwanzigsten Versuch der Fall sein. Erst wenn sich ein solches Ergebnis wiederholen lässt, möglichst in einem unabhängigen Versuch, kann man dies als gesichert ansehen.

Die Datenbank der Carstens-Stiftung zeigt unter dem Filter ‚remedy = Traumeel‘ insgesamt 23 verschiedene Studien an [4], aber außer der hier besprochenen Studie von Oberbaum und einer früheren Vorbetrachtung beschäftigt sich keine weitere mit der Behandlung von Stomatitis infolge einer Chemotherapie. Dies ist allerdings erstaunlich. Oberbaum hatte ausgeführt, dass es keine wirklich brauchbare Therapie für diese Beschwerden gibt und sein Behandlungserfolg daher von erheblicher Bedeutung sein könnte. Er hatte selbst darauf hingewiesen, dass seine Gruppen nur recht klein waren, dass er selbst daher plane, in einer weitaus größeren Studie, an der sich auch verschiedene andere Therapieeinrichtungen beteiligen sollten, seine Ergebnisse zu verifizieren.

Das war 2001. Inzwischen hat Oberbaum zwar zu anderen Themen weitergeforscht, aber bis heute (2013), also nach 12 Jahren, sind keine diesbezüglichen Ergebnisse veröffentlicht worden, auch nicht von anderen Autoren. Warum nicht? Hat wirklich niemand Interesse an dieser preiswerten, nebenwirkungsfreien und angeblich doch so wirksamen Methode, bei den Patienten die sehr unangenehmen Folgen ihrer Chemotherapie zu lindern? Nach den präsentierten Ergebnissen war die Verbesserung doch sehr groß, es wäre ja fast sträflich, dies nicht weiter zu verfolgen. Man kann doch keine Schwierigkeiten gehabt haben, andere Forscher, die beteiligten Gremien und Institutionen, die Geldgeber und was man sonst so braucht, anhand der vorliegenden Studie zu überzeugen.

Selbst der Hersteller des Medikaments hatte keine Neigung, diese Ausweitung der Anwendungsmöglichkeiten, entsprechend erhöhtem Umsatz, weiter zu verfolgen? Irgendwie ist das nicht zu glauben. Konnte man keine Patienten zur Teilnahme gewinnen? Ebenso unglaublich. Wenn das Medikament tatsächlich einen deutlichen Fortschritt darstellen würde, dann müssten sich in dieser langen Zeit doch auch Patienten gefunden haben, die bereit sind, an einer solchen Studie teilzunehmen.

Normalerweise kann man dem Fehlen von replizierenden Versuchen nicht allzu viel Bedeutung beimessen, wie hier ausführlich dargestellt. In der vorliegenden Konstellation aber drängt sich die Annahme auf, dass man zwar versucht hat, die Ergebnisse zu replizieren, dies aber nicht gelungen ist, und man daher – publication bias bei der Arbeit – auf eine Veröffentlichung verzichtet hat. Wie gesagt, nur eine Annahme, aber dennoch erscheint das eigentlich positive Ergebnis etwas zweifelhaft.

Ein anderer Aspekt ergibt sich aus der folgenden Überlegung: Selbst wenn nachgewiesen sein sollte, dass Traumeel S® in dieser Anwendung die Verbesserungen tatsächlich herbeigeführt hat – was bedeutet das für ‚die Homöopathie‘?

Die Homöopathie beruht auf zwei ganz wesentlichen Grundsätzen: Potenzierung und Ähnlichkeitsprinzip. Die Potenzierung ist bekanntlich ein stufenweises Verdünnen, wobei die Lösung zwischendurch heftig geschüttelt wird. Dieser Prozess soll die Wirksamkeit des Medikaments steigern, sogar, wenn der Wirkstoff soweit verdünnt ist, dass es völlig unwahrscheinlich ist, dass er noch eine pharmakologische Wirkung im Körper entfalten könnte. Besonders wirksam sind angeblich die Hochpotenzen, bei denen der Wirkstoff in der Arznei gar nicht mehr enthalten ist. Wenn also durch eine Studie belegt werden soll, dass ‚die Homöopathie‘ zumindest in Teilbereichen eine Wirksamkeit entfalten kann, dann muss genau dieser Punkt in der Untersuchung bestätigt werden. Anders gesagt, wenn ein Medikament nicht ausschließlich aus mittleren und hohen Potenzen besteht, dann enthält es fühlbare Mengen an Wirkstoffen und ist von daher kein homöopathisches Präparat mehr. Auch wenn es von einem Unternehmen hergestellt wurde, das ansonsten Homöopathika herstellt. Nicht das Gebäude entscheidet über den Charakter dessen, was darin erzeugt wird: Katzen, die im Kuhstall geboren werden, bleiben zeitlebens Katzen, werden nicht zu Kühen.

Die Zusammensetzung von Traumeel S® als flüssige Lösung zeigt die folgende Tabelle, siehe [3]. Traumeel S ist ein Kombinationspräparat, das aus insgesamt 14 einzelnen Bestandteilen besteht. Die Zusammensetzung als Injektionslösung, wie sie von Oberbaum benutzt wurde, pro 2,2-ml-Ampulle zeigt die folgende Tabelle. Die Tagesdosis ergibt sich bei der beschriebenen Anwendung von 5 Ampullen täglich.

Stoff	Konzentration	Menge (mg)	Tagesdosis (mg)
Calendula Officinalis	D2	2,2	0,11
Atropa bella-donna	D2	2,2	0,11
Aconitum napellus	D2	1,32	0,066
Bellis perennis	D2	1,1	0,055
Hypericum perforatum	D2	0,66	0,033
Echinacea	D2	0,55	0,028
Echinacea purpurea	D2	0,55	0,028
Symphytum officinale	D6	2,2	0,000
Matricaria recutita	D3	2,2	0,011
Achillea millefolium	D3	0,55	0,002
Mercurius Solubilis H.	D6	1,1	0,000
Hepar sulfuris	D6	2,2	0,000
Hamamelis virginiara	D1	0,22	0,11
Arnica montana	D2	2,2	0,11
Summe			0,663

Man erkennt, dass das Medikament eine ganze Reihe von Wirksubstanzen enthält, in den meisten Fällen in einer sehr niedrigen Potenz. Die letzte Spalte gibt die Tagesdosis an, die ein Patient nach den Vorgaben der Behandlung erhalten hat. Das sind sicher keine großen Mengen, aber am Ende des Tages hat der Patient diese Menge Wirkstoff ziemlich direkt auf die Problemzonen aufgebracht. Ich verfüge nicht über die notwendigen Kenntnisse, um schlussendlich beurteilen zu können, ob diese Stoffe wirksam werden können, sich dabei vielleicht gegenseitig verstärken, aber 0,6 mg/Tag liegt durchaus in der Größenordnung, in der einige pharmazeutisch wirksame Stoffe angewendet werden. Natürlich kann man jetzt anführen, dass es der Verstärkung durch die Potenzierung bedarf, wenn auch nur in vergleichsweise geringem Umfang, um eine doch recht geringe Menge an Bestandteilen eine Wirkung entfalten zu lassen – aber beweisen kann man das mit dieser Studie eher nicht.

Für die Gültigkeit des Ähnlichkeitsprinzips liefert die Studie schon gar keinen Hinweis. Bekanntlich soll nach homöopathischer Auffassung ein Medikament in der Lage sein, bei einem Kranken die Symptome erfolgreich zu bekämpfen, die es bei einem Gesunden hervorrufen kann. Die Auswahl des richtigen Medikaments erfolgt demnach in einem langen Gespräch, in dem die Symptomatik des Patienten festgestellt wird, um dann anhand der in den Repertorien gelisteten Arzneimittelbilder das passende Medikament auszuwählen. Von alledem ist hier nichts geschehen. Natürlich kann es sein, dass jeweils einer der vielen Inhaltsstoffe zufällig die erforderliche Ähnlichkeit aufwies – aber gesichert ist das nicht. Es ist nicht festgestellt worden, ob einer der Inhaltsstoffe der für den Patienten – nicht nur für die Beschwerden im Mund sondern ‚ganzheitlich‘ für den Patienten als Ganzes – passen könnte. Alleine aufgrund der Diagnose wurde das Mittel probeweise verabreicht, was genauso gut dem allopathischen Ansatz, die Beschwerden mit einem ‚Gegenmittel‘ zu bekämpfen, entsprechen könnte. Auch die zweite Säule der Homöopathie kann daher nicht als im Versuch bestätigt gelten.

Fazit: Auch wenn der Nachweis vielleicht gelingt, dass Traumeel S® bei diesen Beschwerden wirklich hilft – eine Verallgemeinerung dahingehend, dass dies eine Bestätigung dafür sei, dass die Homöopathie doch wirksam sein könnte, ist das Versuchsergebnis nicht, denn die Grundprinzipien der Homöopathie wurden möglicherweise gar nicht tangiert.

Zusammenfassung

Oberbaum erzielte bei der Behandlung von entzündlichen Beschwerden im Mundraum, hervorgerufen durch eine Chemotherapie bei Kindern, eine signifikante Verbesserung dahingehend, dass in der Verumgruppe deutlich weniger Patienten solche Beschwerden entwickelten bzw. sich die Symptomatik verschlechterte als bei der Placebogruppe. Eine Replizierung hat es bislang aber nicht gegeben, obwohl eigentlich doch ein sehr großes Interesse an dieser Therapie gegeben sein müsste. Dies legt den Schluss nahe, dass die vom Autor selbst angesprochene größere Studie nicht zum Erfolg geführt hat.

Selbst wenn es gelungen wäre, nachzuweisen, dass das Medikament eine Wirksamkeit gezeigt hätte, taugt dies wenig als Nachweis dafür, dass die Homöopathie eine Wirksamkeit entfalten könnte, denn die wesentlichen Grundprinzipien Potenzierung und Ähnlichkeitsprinzip haben wahrscheinlich keine Rolle gespielt.

Nachtrag (11. 9. 2013)

Gerade habe ich bei weiteren Literaturrecherchen eine interessante Arbeit gefunden [5], die nicht in der Carstens-Datenbank enthalten ist, obwohl sie schon 2012 veröffentlicht wurde. Darin wird über die von Oberbaum angekündigte größere Untersuchung berichtet, die an insgesamt 181 Patienten an mehreren internationalen Therapieeinrichtungen durchgeführt wurde. Es handelt sich um eine doppelt verblindete, placebokontrollierte Studie. Ergebnis:

‚Bei den 181 auswertbaren Patienten ergaben sich keine statistischen (= statistisch signifikanten, Anm. Übers.) Unterschiede bei Mucositis in der Traumeelgruppe (76,7 %) im Vergleich zu Placebo (67,3 %) (p = 0,13). Bei der Traumeelgruppe zeigte sich ein Trend zu geringerem Gebrauch an Narkotika. Für Traumeel konnte kein statistischer Nutzeffekt bei Mucositis nachgewiesen werden. Wir konnten nicht bestätigen, dass Traumeel eine wirksame Therapie für Mucositis bei Kindern ist, die sich einer Stammzellentransplantation unterziehen.‘
(Übersetzung von mir)

Im Gegensatz zum Hauptartikel wird hier von Mucositis gesprochen, also einer Schleimhautentzündung im gesamten Verdauungstrakt vom Rachen bis zum Darm. Oberbaum, der in dieser Studie als Mitautor genannt wird, hatte ja schon darüber berichtet, dass die Wirkung nur lokal auf den Rachenraum begrenzt ist. Selbst dieses Ergebnis konnte aber nicht bestätigt werden: Die Verumgruppe erzielte sogar ein schlechteres Ergebnis (24,4 Punkte) als die Placebogruppe (21,6 Punkte). Damit ist eine Replizierung nicht gelungen, wegen der erheblich größeren Teilnehmerzahl hat dies auch eine wesentlich größere Beweiskraft als die originale Studie.

Also: Kein Nachweis für Traumeel S® und erst recht keiner für Homöopathie.

Literatur

[1] Oberbaum M, Yaniv I, Ben-Gal Y, Stein J, Ben-Zvi N, Freedman LS, Branski D: ‚A Randomized, Controlled Clinical Trial of the Homeopathic Medication Traumeel S® in the Treatment of Chemotherapy-Induced Stomatitis in Children Undergoing Stem Cell Transplantation‘, in: Cancer 2001; 92: 684-90; Link zum Volltext auf Englisch und Deutsch

[2] Shang A, Huwiler-Müntener K, Nartey M, Jüni O, Dörig S, Sterne JA, Pewsner D, Egger M. Are the clinical effects of homoeopathy placebo effects? Comparative study of placebo-controlled trials of homoeopathy and allopathy. Lancet 2005: 336: 72632. Link zum Volltext

[3] Webseite der Biologische Heilmittel Heel Gmbh, Produktinformationen Traumeel S®, abgerufen 9. September 2013

[4] CORE Hom Datenbank auf der Webseite der Carstens Stiftung, abgerufen am 9. September 2013 (Link)

[5] Sencer SF, Zhou T, Freedman LS, Ives JA, Chen Z, Wall D, Nieder ML, Grupp SA, Yu LC, Sahdev I, Jonas WB, Wallace JD, Oberbaum M.: ‚Traumeel S in preventing and treating mucositis in young patients undergoing SCT: a report of the Children’s Oncology Group‘ in: Bone Marrow Transplantation (2012) 47, 1409 – 1411, doi: 10.1038/bmt.2012.30. Link zum Volltext

Dieser Beitrag wurde unter Blog, Klinische Einzelstudien, Wirksamkeitsstudien veröffentlicht. Setze ein Lesezeichen auf den Permalink.

11 Antworten zu Wirkt Traumeel S® bei Entzündungen im Rachen ? (Oberbaum 2001)

Pingback: Neu in der Homöopedia: Was ist „Homotoxikologie“? @ gwup | die skeptiker
Pingback: Beware of Homeopathy: Die Woche der Aufmerksamkeit geht wie üblich daneben @ gwup | die skeptiker
AlteWeser sagt:

16. Februar 2014 um 19:28

Das zeichnet den wissenschaftlich denkenden/handelnden Menschen aus: Fundierte Kritik wird angenommen und umgesetzt 🙂
Norbert Aust sagt:

15. Februar 2014 um 15:12

Nach einer langen Diskussion per email muss ich Herrn D. zustimmen: Ich bin bezüglich der Signifikanz einem Gedankenfehler aufgesessen. Dies hat mir auch Prof. Berger bestätigt. Da ich den Lesern dieses Blogs zutreffende Informationen liefern möchte, wurde dieser Beitrag jetzt entsprechend überarbeitet. Eine Überarbeitung der anderen Beiträge, in denen ich dieses Argument verwendet habe, ist derzeit in Arbeit.
Dierk D. sagt:

3. Februar 2014 um 17:55

Herr Aust,

ich glaube, so langsam verstehe Ihre Sichtweise. Allerdings liegen Sie meiner Meinung nach dennoch falsch.

Zunächst einmal muss man sich die Frage stellen, was man vergleichen will. In diesem Fall also ob das Arzneinmittel für das hier behandelte Symptom eine spezifische Wirkung hat. Weil es für die weitere Diskussion sprachlich einfacher ist, schreibe ich im Folgenden für die Placebogruppe „unbehandelt“, obwohl das nicht ganz korrekt ist.

Wenn sie wie von Ihnen genannt testen wollten, dann müssten Sie die Stichprobe „behandelt“ gegen die Grundgesamtheit „unbehandelt“ vergleichen. Jetzt muss man sich klar werden, was eigentlich die Grundgesamtheit ist. Wenn die Grundgesamtheit einfach alle Studienteilnehmer wären, dann bräuchte man keine Hypothesentests anwenden. Dann zählt man aus, macht einen Mittelwert oder was auch immer man vergleichen will und ist dann fertig. Wir wollen ja einen Rückschluß auf eine andere Grundgesamtheit ziehen. Im Idealfall alle Patienten mit der gleichen Krankheit, oder zumindest alle Patienten, die die gleichen Einschluss- und Ausschluss- Kriterien aufweisen.
Einfach alle Studienteilnehmer sind kein Surrogat für die Grundgesamtheit „alle unbehandelten Patienten“. Warum nicht? Wenn es tatsächlich eine Wirkung gäbe, dann würde diese „Stichprobe“ nicht mehr der Grundgesamtheit „alle unbehandelten Patienten“ entsprechen.
Selbstverständlich kann man die Grundgesamtheit „alle unbehandelten Patienten“ nicht bestimmen. Deshalb muss man die Charakteristika der Verteilung schätzen. Das macht man aus einer Stichprobe, und die richtige Stichprobe um diese Verteilung zu schätzen sind alle Studeinteilnehmer, die ein Placebo erhalten haben.
Mit dem angewendeten Hypothesentest „Studienteilnehmer Verum“ vs. „Studienteilnehmer Placebo“ prüft man nun korrekterweise, ob die (hypothetische) Grundgesamtheit „alle behandelten Patienten“ unterschiedlich zu der (eigentlich realen, aber im Prinzip doch reichlich hypothetischen) Grundgesamtheit „alle unbehandelten Patienten“ ist.
Wenn man das so sieht, dann ist schon einmal klar, warum das übliche Vorgehen auch das richtige ist. Sämtliche Studienteilnehmer sind idealerweise eine Zufallsstichprobe aus allen Patienten. (Ganz zufällig sind die zwar nicht, aber im Prinzip: Diejenigen, die zufällig gerade zur richtigen Zeit dieses Krankenhaus aufgesucht haben…). Und es ist unerheblich ob man aus dieser Gruppe „alle Patienten“ zufällig 30 auswählt und diese 30 dann zufällig in zwei Gruppen einteilt oder ob man aus der Gruppe „alle Patienten“ zuerst 15 für die Verumgruppe und 15 für die Placebogruppe zieht.

Ihr Argument, dass die Stichproben nicht unabhängig sind, weil wenn man in der einen Gruppe zufällig viele Extremwerte zieht, dann hat man in der anderen Gruppe nichtzufällig weniger Extremwerte fand ich nachdenkenswert. Wenn ich Sie richtig verstanden habe, dann sind Sie der Ansicht, dass wenn man aus einer großen Grundgesamtheit zwei kleine Stichproben zieht, dann kann man die üblichen Tests anwenden, aber wenn man aus einer sehr kleinen Grundgesamtheit zieht, dann würde das ziehen der ersten Stichprobe die Verteilung der übrigen Werte so ändern, dass man dann einen Fehler macht. Unabhängig von der oben erläuterten Ansicht, dass 30 Studienteilnehmer nicht die Grundgesamtheit darstellen, wollte ich das jetzt noch einmal in einer Simulation überprüfen.

Ich bin dazu so vorgegangen, wie letztes mal beschrieben: Aus verschiedenen Grundgesamtheiten habe ich jeweils 2 Stichproben mit 15 Werten (ohne Zurücklegen) gezogen. Eine Stichprobe heisst ab jetzt „Verum“, die andere „Placebo“. Die Grundgesamtheiten waren:
1) Eine bimodale Verteilung mit 15 kleinen und 15 großen Werten (10 +/- 1 und 1000 +/-1)
2) Eine bimodale Verteilung mit 1000 kleinen und gr0ßen Werten (werte wie zuvor).
3) Eine Gaußverteilung mit 30 Werten
4) Eine Gaußverteilung mit 1000 Werten.
5) Eine uniforme Verteilung der Werte 1 bis 1000
Die bimodalen Verteilungen habe ich genommen, um den Fall der Extremwerte zu betrachten, den Sie ja Ihren Überlegungen zu Grunde gelegt haben.

Auf die beiden Stichproben mit jeweils 15 Werten habe ich dann ebenfalls wieder zehntausendmal jweiels einen t-test und einen Wilcoxon-test berechnet, und zwar einmal Verum verum Placebo und einmal gegen Verum gegen alle 30 Werte. Dann habe ich wieder gezählt, wie oft man einen P-Wert von weniger als 0.05 erhält.
Da der P-Wert ja die Wahrscheinlichkeit für einen falsch positiven Test angibt und die Stichproben ja aus den gleichen Verteilungen gezogen wurden, habe ich nur falsch positive Ergebnisse. Die Häufigkeit dieser muss dann ungefähr 5% ergeben, sonst ist der P-Wert falsch.

Zu den Ergebnissen: Bei allen Grundgesamtheiten ergab der Wilcoxon-Test Verum gegen Placebo eine Häufigkeit von ungefähr 4.6 % falsch positive Ergebnisse, gibt also ein im Prinzip richtiges Ergebnis. Es war kein offensichtlicher Unterschied zu sehen, unabhängig davon ob die Grundgesamtheit aus 1000,2000 oder 30 Werten bestand. (Dass man bei den Arten der Verteilungen keinen Unterschied erwarten kann ist eigentlich sowieso klar: Der Wilcoxon-Test vergleicht ja Ränge und solange man alle Werte sortieren kann ist unerheblich wie die Verteilung aussieht).

Beim T-Test habe ich tatsächlich Unterschiede gefunden, und zwar beim Vergleich der kleinen (30 Werte) gegen die große (2000 Werte) bimodale Verteilung. In so einem Fall darf man den T-Test eigentlich sowieso nicht anwenden (zumindest nicht auf so einer kleinen Stichprobe), aber ich wollte ja mal die Extreme anschauen.
Der Unterschied geht aber nicht in die von Ihnen angenomme Richtung. Sie haben ja argumentiert, dass man bei der kleinen Grundgesamtheit eher ein falsch positives Ergebnis erhält als bei der Großen. Das Gegenteil ist richtig, bei der gr0ßen Verteilung erhält man ca 4,5% falsch positive Tests, bei der kleinen Verteilung ca. 2.9%, also noch weniger als erwartet (und im Gegensatz zu Ihren Überlegungen).
Das fand ich in der Tat auch verblüffend, ich fand Ihre Überlegung dazu nämlich durchaus nachvollziehbar. Ich denke aber, ich kann nachvollziehen woran das beobachtete Verhalten liegt: Bei der bimodalen Verteilung hat man ja den Fall, dass nur Extremwerte vorliegen. Man kann nun der Einfachheit halber überlegen was passiert, wenn man aus einem Sack rote und weisse Kugeln zieht.In dem Sack sollen gleich viele rote und weiße Kugeln sein. Eine (sehr große) Grundgesamtheit würde einem Ziehen mit Zurücklegen entsprechen. Die Wahrscheinlichkeit in eine Gruppe von 15 Kugeln nur Extremwerte der einen Sorte (entsprechend nur Kugel einer Farbe) zu ziehen wäre also 15^0.5
Wenn wir in dem Sack nur 30 Kugeln haben (15 weiße und 15 rote), und wir wollen diese in zwei Gruppen aufteilen, dann entspricht das einem Ziehen ohne Zurücklegen. Die Wahrscheinlichkeit, in einer Gruppe nur Extremwerte zu haben, ist demnach 0.5*(14/29)*(13/28)*…*(1/16), und diese Wahrscheinlichkeit ist kleiner als im Fall zuvor.
Daraus folgere ich, dass man bei einer kleineren Grundgesamtheit wohl eher „ausgeglichene“ Gruppen erzwingt als bei einer großen. Wenn man einen Extremwert in eine Gruppe gezogen hat, dann sinkt dadurch die Wahrscheinlichkeit, einen weiteren Extremwert (der gleichen Sorte) in die gleiche Gruppe zu ziehen. Oder anders gesagt: Die beiden Stichproben sind tatsächlich nicht unabhängig, der Effekt geht aber in die andere Richtung als der von Ihnen vorhergesagten. Dazu muss man noch feststellen, das dieser Effekt ausschließlich bei der extremen bimodalen Verteilung auftritt. Bei der gleichförmigen oder der Gaussverteilung kommt man immer auf ungefähr 5% falsch positive Tests, und zwar egal ob große oder kleine Verteilung.

Bei den Vergleichen Verum gegen (Verum+Placebo) kommt in keinem Falle etwas brauchbares heraus: Beim T-Test erhalte ich jeweils ca. 0.2% falsch positive Ergebnisse (immerhin eine Größenordnung weit weg von den 5% erwarteten). Bei den Wilcoxon-Tests ist es immer in der Größenordnung von 0.02% (0.0002). Die Auswertung, die Sie vorschlagen ist also in jedem Falle um Größenordnungen falsch.
Ich denke, dass liegt daran, dass dabei eine Voraussetzung für die Anwendung der Tests verletzt wird, nämlich die statistische Unabhängigkeit der Datenpunkte. Ich kenne aus meine beruflichen Praxis vor allem den Fall abhängiger Daten innerhalb der Gruppen (zum Beispiel Replikate). Dabei werden die P-Werte schnell um Größenordnungen zu klein. Es erscheint mir ziemlich plausibel, dass man in dem von Ihnen vorgeschlagenen Fall (doppelte Werte zwischen den Gruppen) um Größenordnungen in der anderen Richtung falch liegt und die Signifikanz massiv unterschätzt.
Norbert Aust sagt:

2. Februar 2014 um 23:10

Hallo Herr D.

Meine Sicht der Dinge ist dies:

Grundlage aller Signifikanztests ist es, unter der Annahme, dass die Nullhypothese zutrifft, die Wahrscheinlichkeit für das Auftreten eines vorliegenden Ergebnisses zu bestimmen. Welches Verfahren man dazu anwendet, ob Chi-Quadrat- oder Wilcoxon- oder Student-T-Test ist alleine davon abhängig, was für Daten man vorliegen hat. Prinzipiell kann man bei allen Verfahren entweder zwei Gruppen vergleichen (Homogenitätstest) oder eine Gruppe gegen eine theoretische Verteilung, die ich im Fall solcher Studien aus der Gesamtheit der Teilnehmer ableite. (Anpassungstest).

In einem Homogenitätstest wird geprüft ob zwei oder mehr unabhängige Stichproben wahrscheinlich der gleichen Verteilung entstammen. Die Betonung liegt hier auf dem Wort unabhängig. Unabhängig heißt, dass die zweite Stichprobe die gleiche Chance hat, die gleiche Verteilung zu zeigen wie die erste. Genau diese Voraussetzung ist aber hier nicht gegeben, die zweite Gruppe ist der Rest dessen, was die erste aus der Zahl der Teilnehmer hinterlassen hat.

Wenn man hingegen nur eine kleine Anzahl (z.B. 15 Teilnehmer) aus einer großen Gruppe auswählen würde (z.B. 1000 wie in Ihrem Beispiel), dann würde sich die Zusammensetzung der Grundgesamtheit durch die Entnahme der ersten Gruppe nicht merklich ändern. Für die zweite Gruppe besteht die gleiche Chance, eine bestimmte Verteilung zu erreichen wie für die erste. Die Unabhängigkeit der beiden Stichproben wäre also gegeben.

Der Homogenitätstest ist folglich aus meiner Sicht mangels Unabhängigkeit der Stichproben nicht anwendbar. Das hat nichts mit Form und Inhalt der Kontingenztafel zu tun, sondern mit der Voraussetzung zur Anwendbarkeit des Tests.

Weil beide Gruppen nicht unabhängig sind, halte ich das Modell der Entnahme einer Stichprobe (Gruppe 1) aus einer Grundgesamtheit (alle Studienteilnehmer) für besser geeignet den Sachverhalt darzustellen. Dann bezieht sich der Test aber auf den Vergleich der einen Gruppe mit der Gesamtheit, aus der sie gewonnen wurde. Ergo ein Anpassungstest.

Was Ihr numerischer Versuch exakt aussagt, übersehe ich nicht ganz. Ich habe den Verdacht, dass sie damit nur nachgewiesen haben, dass ihr Zufallsprozess der Verteilung auf die Gruppen auch tatsächlich ein solcher ist. Sie haben die 30 Teilnehmer per Zufallsalgorithmus auf die beiden Gruppen verteilt und finden, dass in 5 % der Fälle eine Verteilung herausgekommen ist, für die eine Wahrscheinlichkeit von 5 % besteht. Dass daraus folgt, dass mein Ansatz fehlerbehaftet sei, kann ich nicht so ohne Weiteres erkennen. Was mich insbesondere wundert, ist der extrem große Unterschied zwischen Verum gegen Placebo zu Verum gegen alle mit einem Faktor von 250. Das erscheint mir sehr viel. (Oder soll das 2 % heißen? Das wäre okay.) Letztendlich wird die Messlatte etwas höher gelegt, aber eben nur etwas.

Oder sehe ich da etwas falsch?
Dierk D. sagt:

2. Februar 2014 um 17:29

Hallo Herr Aust,

ich finde Ihre Vorbehalte der Auswertung der Gruppen als statististisch unabhängig nicht nachvollziehbar.
Ich muss zugeben, dass ich mit Chi-Quadrat Tests bisher nichts zu tun hatte (ich habe mehr mit quantitativen Daten zu tun, und leider gibt es wenig verständliche Onlineliteratur dazu, vor allem keine leicht verständliche Erklärung der Unterschiede der verschiednen Chi-Quadrat Tests. Die von Ihnen genannten Homogogenitäts- oder Unabhängigkeitstests habe ich aber nur im Zusammenhang von Chi-Quadrat-Tests gefunden.
Immerhin gibt es unter: http://www.luebbert.net/uni/statist/statb/statb0.php eine Erklärung. Da steht unter dem Homogenitätstest:

Der Chi-Quadrat-Homogenitätstest ist ein Test zur Prüfung der Unterschiede zwischen Anteilswerten aus mehr als zwei unabhängigen Stichproben.

(Hervorhebung von mir)
Zum Unabhängigkeitstest:

Testsituation:

zwei dichotome oder polytome Merkmale X und Y
eine Stichprobe mit n Objekten, die jeweils eine Ausprägung von X und Y haben

Mithin scheint es so zu sein, dass die Entscheidung, ob man einen Homogenitäts oder Unabhängigkeitstest danachtrifft, wie die Kontingenztabelle aussieht.Bei einer 2×2 Tabelle nimmt man den Unabhängigkeitstest.

In diesem Paper wird aber kein Chi-Square Test verwendet, sondern ein Wilcoxon-Test (und ein LogRank test). Es erscheint mir völlig klar, dass man vergleichen muss, wie sich Verum und Placebogruppe unterscheiden und nicht Verum gegen alle Studienteilnehmer. Bei diesem Vergleich sind die Gruppen gerade nicht mehr unabhängig. Sie schreiben da, dass es ja sein kann, dass zufällig mehr „Selbstheiler“ in der einen Gruppe landen könnten und dann der Unterschied auf Zufall beruhen würde. Es ist doch aber gerade diese Wahrscheinlichkeit, die die Hypothesentests ermitteln.
Ich verstehe Ihr Problem mit dem Ansatz so:
Die beiden Stichproben sind deshalb nicht unabhängig, weil wenn in einer Gruppe überzufällig viele „Selbstheiler“ landen, dann sind es in der anderen Gruppe gleichzeitig unterzufällig viele. Mithin könnten die Unterschiede größer ausfallen, als wenn man zwei Stichproben aus einer „großen“ Grundgesamtheit zieht. (Also wir zum Beispiel aus 1000 potentiellen Teilnehmern jeweils 15 in die Placebo und Verum Gruppe zuteilen würden). Das erschien mir aber unplausibel, deshalb habe ich versucht die Frage experimentell zu lösen.
Dazu habe ich die 30 AUC-Werte aus der Publikation in eine „Grundgesamtheit“ übernommen, und dann mehrere Tausend mal jeweils 15 Werte zufällig in eine Verum- und eine Placebogruppe gelost. Dann wurden jeweils zwei Wilcoxon-Tests berechnet, einmal Verum gegen Placebo und einmal Verum gegen alle 30 Werte. Ich habe dann einfach gezählt, wie oft der Test einen P-Wert von kleiner als 0.05 ergeben hat. Wenn der Test korrekt ausgeführt ist, dann müssten ca. 5% aller Versuche einen P-Wert kleiner als 0.05 ergeben.
Das Ergebnis ist völlig eindeutig: Bei dem Test Verum gegen Placebo kommen ungefähr 5% heraus, bei dem Test Verum gegen alle 0.02%. Bei der von Ihnen vorgeschlagenen Auswertung würde man einen riesigen Fehler machen.

Ich denke, die Frage ist damit geklärt, und es ist richtig den Vergleich Verum gegen Placebo durchzuführen und nicht anders. Ich habe das noch in paar anderen Varianten gerechnet (mit einer simulierten Normalverteilung und T-Test, jeweils mit einem Vergleich 15 gegen 15 aus einer Gundgesamtheit von 30 und 15 gegen 15 aus einer Grundgesamtheit von 10000), es kommt jedesmal das Gleiche heraus.
Bei Interesse kann ich gerne den Quellcode für die Rechnung zur Verfügung stellen, das sind nur wenige Zeilen in R.
Pingback: Von wegen “Potenz”: Kein besserer Sex mit Homöopathie @ gwup | die skeptiker
Breß sagt:

13. September 2013 um 12:09

Also von den Skeptikern gibt es bestimmt Zuspruch!!!

Hier schon Mal mein Zuspruch. Leider ging etwas im Bericht unter da es nur kurz angerissen wurde. Die Problematik wie man bei der statistischen Auswertung die Gruppen definiert ist nicht zu vernachlässigen. Diese Gruppeneinteilungen werden allgemein gerne als unabhängige definiert, da die meisten „Wissenschaftler“ nicht genau wissen was es bedeutet und nur die ein zwei Standardverfahren t-test usw. kennen bzw. die Formel in Excel vom Vorgänger erhalten haben.

Oh da fällt mir ein wer mal Spaß haben will fragt einfach jemanden was er glaubt, was der Unterschied zwischen two-tailed und one-tailed t-test ist.
Es ist schon erstaunlich wie wenig die Gesellschaft und leider noch viel schlimmer, wie wenig die Wissenschaftler über Mathe/Statistik wissen.

Ich kann es aus eigener Erfahrung sagen und es frustriert mich, zumal ich weiß warum es so ist. Unterirdischer Mathe/Statistik-Unterricht/Vorlesungen. Ein geläuterter Statistik-Freund, der noch viel zu wenig von Statistik weiß.

Dr. Breß
rectus sagt:

11. September 2013 um 20:54

@Norbert Aust,
nun müssten Sie eigentlich für diese feine Analyse Zuspruch von zwei völlig entgegengesetzten Fraktionen erhalten: den Skeptikern und klassischen Homöopathen. Schließlich sind für die letzteren Kombipräparate eh Teufelswerk:
„In keinem Falle von Heilung ist es nöthig und deßhalb allein schon unzulässig, mehr als eine einzige, einfache Arzneisubstanz auf einmal beim Kranken anzuwenden. Es ist nicht einzusehen, wie es nur dem mindesten Zweifel unterworfen sein könne, ob es naturgemäßer und vernünftiger sei, nur einen einzelnen, einfachen wohl gekannten Arzneistoff auf einmal in einer Krankheit zu verordnen, oder ein Gemisch von mehreren, verschiednen. In der einzig wahren und einfachen, der einzig naturgemäßen Heilkunst, in der Homöopathie, ist es durchaus unerlaubt, dem Kranken zwei verschiedne Arzneisubstanzen auf einmal einzugeben.“
(aus: Samuel Hahnemann; Organon der Heilkunst §273, 6. Auflage)
PS: ein toller Blog übrigens
Pingback: “Maischberger” in der Mediathek @ gwup | die skeptiker