{"id":598,"date":"2013-06-24T18:25:07","date_gmt":"2013-06-24T16:25:07","guid":{"rendered":"http:\/\/www.beweisaufnahme-homoeopathie.de\/?p=598"},"modified":"2014-02-15T01:06:09","modified_gmt":"2014-02-14T23:06:09","slug":"einige-statistische-begriffe-beim-vergleich-von-verteilungen","status":"publish","type":"post","link":"http:\/\/www.beweisaufnahme-homoeopathie.de\/?p=598","title":{"rendered":"Einige statistische Begriffe beim Vergleich von Verteilungen"},"content":{"rendered":"<div class=\"shariff shariff-align-flex-start shariff-widget-align-flex-start\" data-services=\"facebook%7Ctwitter\" data-url=\"http%3A%2F%2Fwww.beweisaufnahme-homoeopathie.de%2F%3Fp%3D598\" data-timestamp=\"1392426369\" data-hidezero=\"1\" data-backendurl=\"?rest_route=\/shariff\/v1\/share_counts&\"><ul class=\"shariff-buttons theme-default wcag_colors orientation-horizontal buttonsize-small\"><li class=\"shariff-button facebook shariff-nocustomcolor\" style=\"background-color:#000\"><a href=\"https:\/\/www.facebook.com\/sharer\/sharer.php?u=http%3A%2F%2Fwww.beweisaufnahme-homoeopathie.de%2F%3Fp%3D598\" title=\"Bei Facebook teilen\" aria-label=\"Bei Facebook teilen\" role=\"button\" rel=\"nofollow\" class=\"shariff-link\" style=\"; background-color:#38548F; color:#fff\" target=\"_blank\"><span class=\"shariff-icon\" style=\"\"><svg width=\"32px\" height=\"20px\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" viewBox=\"0 0 18 32\"><path fill=\"#3b5998\" d=\"M17.1 0.2v4.7h-2.8q-1.5 0-2.1 0.6t-0.5 1.9v3.4h5.2l-0.7 5.3h-4.5v13.6h-5.5v-13.6h-4.5v-5.3h4.5v-3.9q0-3.3 1.9-5.2t5-1.8q2.6 0 4.1 0.2z\"\/><\/svg><\/span><span class=\"shariff-text\">teilen<\/span>&nbsp;<span data-service=\"facebook\" style=\"color:#38548F\" class=\"shariff-count shariff-hidezero\"><\/span>&nbsp;<\/a><\/li><li class=\"shariff-button twitter shariff-nocustomcolor\" style=\"background-color:#000\"><a href=\"https:\/\/twitter.com\/share?url=http%3A%2F%2Fwww.beweisaufnahme-homoeopathie.de%2F%3Fp%3D598&text=Einige%20statistische%20Begriffe%20beim%20Vergleich%20von%20Verteilungen\" title=\"Bei Twitter teilen\" aria-label=\"Bei Twitter teilen\" role=\"button\" rel=\"noopener nofollow\" class=\"shariff-link\" style=\"; background-color:#115A92; color:#fff\" target=\"_blank\"><span class=\"shariff-icon\" style=\"\"><svg width=\"32px\" height=\"20px\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" viewBox=\"0 0 30 32\"><path fill=\"#55acee\" d=\"M29.7 6.8q-1.2 1.8-3 3.1 0 0.3 0 0.8 0 2.5-0.7 4.9t-2.2 4.7-3.5 4-4.9 2.8-6.1 1q-5.1 0-9.3-2.7 0.6 0.1 1.5 0.1 4.3 0 7.6-2.6-2-0.1-3.5-1.2t-2.2-3q0.6 0.1 1.1 0.1 0.8 0 1.6-0.2-2.1-0.4-3.5-2.1t-1.4-3.9v-0.1q1.3 0.7 2.8 0.8-1.2-0.8-2-2.2t-0.7-2.9q0-1.7 0.8-3.1 2.3 2.8 5.5 4.5t7 1.9q-0.2-0.7-0.2-1.4 0-2.5 1.8-4.3t4.3-1.8q2.7 0 4.5 1.9 2.1-0.4 3.9-1.5-0.7 2.2-2.7 3.4 1.8-0.2 3.5-0.9z\"\/><\/svg><\/span><span class=\"shariff-text\">twittern<\/span>&nbsp;<span data-service=\"twitter\" style=\"color:#115A92\" class=\"shariff-count shariff-hidezero\"><\/span>&nbsp;<\/a><\/li><li class=\"shariff-button rss shariff-nocustomcolor\" style=\"background-color:#000\"><a href=\"http:\/\/www.beweisaufnahme-homoeopathie.de\/?feed=rss\" title=\"RSS-feed\" aria-label=\"RSS-feed\" role=\"button\" class=\"shariff-link\" style=\"; background-color:#aa2e00; color:#fff\" target=\"_blank\"><span class=\"shariff-icon\" style=\"\"><svg width=\"32px\" height=\"20px\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" viewBox=\"0 0 32 32\"><path fill=\"#fe9312\" d=\"M4.3 23.5c-2.3 0-4.3 1.9-4.3 4.3 0 2.3 1.9 4.2 4.3 4.2 2.4 0 4.3-1.9 4.3-4.2 0-2.3-1.9-4.3-4.3-4.3zM0 10.9v6.1c4 0 7.7 1.6 10.6 4.4 2.8 2.8 4.4 6.6 4.4 10.6h6.2c0-11.7-9.5-21.1-21.1-21.1zM0 0v6.1c14.2 0 25.8 11.6 25.8 25.9h6.2c0-17.6-14.4-32-32-32z\"\/><\/svg><\/span><span class=\"shariff-text\">RSS-feed<\/span>&nbsp;<\/a><\/li><\/ul><\/div><p><strong>(\u00dcberarbeitet 14.2.2014)<\/strong><\/p>\n<p>In diesem Blog werden in der Hauptsache Ergebnisse analysiert und diskutiert, die mit Mitteln der Statistik erzielt worden sind. Statistik ist \u00fcblicherweise kein Schulfach. Auch in den Hochschulen wird Statistik nur denen vermittelt, die damit auch arbeiten m\u00fcssen &#8211; und ist dann auch noch (reine subjektive Wertung!) sterbenslangweilig. Es erscheint daher sinnvoll, ein paar Begriffe zu kl\u00e4ren. Dabei soll es bewusst nicht allzu sehr in die Tiefe gehen, auch die zum Teil recht aufw\u00e4ndige Mathematik wird nicht betrachtet. Es gen\u00fcgt, wenn sich der Leser am Ende unter den Begriffen etwas vorstellen kann und ihm klar ist, was die verschiedenen Gr\u00f6\u00dfen aussagen.<\/p>\n<p lang=\"de-DE\"><!--more-->Wer tiefer einsteigen will, sei auf die durchweg recht guten &#8211; wenn auch manchmal etwas schwer verst\u00e4ndlichen &#8211; Artikel in der Wikipedia verwiesen. Wer sich intensiv mit Statistik befassen m\u00f6chte, der sei auf die Lehrb\u00fccher [1], [2] verwiesen, wobei [2] sich dem Leser vielleicht etwas einfacher erschlie\u00dft.<\/p>\n<p lang=\"de-DE\"><strong>Normalverteilung<\/strong><\/p>\n<p lang=\"de-DE\">Die Statistik befasst sich mit der Analyse gleichartiger Daten, die in einer mehr oder weniger gro\u00dfen Anzahl vorliegen. Man teilt hierzu den gesamten Bereich, in dem die Zahlenwerte vorkommen, in mehrere Intervalle ein und z\u00e4hlt dann ab, wie viele Zahlenwerte in den jeweiligen Intervallen zu liegen kommen. Tr\u00e4gt man die ermittelten H\u00e4ufigkeiten als S\u00e4ulen auf, dann ergibt sich h\u00e4ufig &#8211; aber beileibe nicht immer &#8211; eine bestimmte Verteilung, wie z. B. hier im Bild:<\/p>\n<p lang=\"de-DE\"><a href=\"http:\/\/www.beweisaufnahme-homoeopathie.de\/blog\/wp-content\/uploads\/2013\/06\/UncertFIGURE1_Kekse.jpg\"><img loading=\"lazy\" class=\"alignnone size-full wp-image-600\" alt=\"UncertFIGURE1_Kekse\" src=\"http:\/\/www.beweisaufnahme-homoeopathie.de\/blog\/wp-content\/uploads\/2013\/06\/UncertFIGURE1_Kekse.jpg\" width=\"600\" height=\"600\" srcset=\"http:\/\/www.beweisaufnahme-homoeopathie.de\/blog\/wp-content\/uploads\/2013\/06\/UncertFIGURE1_Kekse.jpg 600w, http:\/\/www.beweisaufnahme-homoeopathie.de\/blog\/wp-content\/uploads\/2013\/06\/UncertFIGURE1_Kekse-150x150.jpg 150w, http:\/\/www.beweisaufnahme-homoeopathie.de\/blog\/wp-content\/uploads\/2013\/06\/UncertFIGURE1_Kekse-300x300.jpg 300w\" sizes=\"(max-width: 600px) 100vw, 600px\" \/><\/a><\/p>\n<p lang=\"de-DE\">Bei einer hinreichend gro\u00dfen Anzahl von Daten ergibt sich bei vielen Prozessen in Natur und Technik eine solche Verteilung, die durch die schwarze Kurve angen\u00e4hert werden kann und als Normalverteilung oder auch Gau\u00df-Verteilung, manchmal auch ihrer Form wegen als Glockenkurve bezeichnet wird.<\/p>\n<p lang=\"de-DE\">Das Bild habe ich aus der Wikipedia deshalb ausgew\u00e4hlt, weil das Zustandekommen der Verteilung hier besonders gut zu erkennen ist. Allerdings wurde etwas ganz anderes dargestellt, dessen Erkl\u00e4rung hier zu aufw\u00e4ndig w\u00e4re und nur verwirren w\u00fcrde. Um eine m\u00f6glichst bildhafte Vorstellung generieren zu k\u00f6nnen, wurde das Bild daher umgearbeitet und soll jetzt eine Versuchsreihe aus der Herstellung von Keksen darstellen.<\/p>\n<p lang=\"de-DE\">Es wurde demnach eine Stichprobe von 2040 Kekse aus der laufenden Produktion entnommen und gewogen, was die im Bild dargestellte Kurve ergab. Man erkennt, dass die Kekse nicht alle gleich schwer waren, sondern, bedingt durch unterschiedliche Einfl\u00fcsse, das Gewicht durchaus f\u00fchlbar streute. Solche Streuungen sind unvermeidlich, denn sowohl die Zutaten als auch die Herstellungsmaschinen sind den unterschiedlichsten St\u00f6rgr\u00f6\u00dfen ausgesetzt,\u00a0beispielsweise kleinsten Schwankungen in den Eigenschaften der Rohstoffe, kleinsten Schwankungen beim Zumessen der Zutaten, in den Prozessgr\u00f6\u00dfen (Ofentemperatur, tats\u00e4chliche Backzeit) und letztendlich in den Umgebungsbedingungen (Umgebungstemperatur, Luftfeuchtigkeit). Die Streuung wird umso kleiner sein, wenn man diese Bedingungen gut im Griff hat (Herstellung in klimatisierten R\u00e4umen auf vollautomatischen Maschinen) oder gr\u00f6\u00dfer, wenn man sie nicht so genau einhalten kann, beispielsweise bei der handwerklichen Herstellung in einer B\u00e4ckerei.<\/p>\n<p lang=\"de-DE\">Wenn eine Verteilung tats\u00e4chlich einer Normalverteilung entspricht, dann gen\u00fcgen zwei Daten (&#8218;Parameter&#8216;), um die Verteilung zu beschreiben: der Mittelwert und die Standardabweichung. Beide Werte sind mit Tabellenkalkulationsprogrammen (Excel) recht einfach aus vorliegenden Messwerten zu berechnen: Der Mittelwert ist der Durchschnitt aller Einzelwerte, in unserem Beispiel also die Summe des Gewichts aller Kekse dividiert durch deren Anzahl. Die Standardabweichung kann ebenfalls aus den Daten errechnet werden, wenn auch nicht mehr ganz so einfach. F\u00fcr die im Bild dargestellte Verteilung betr\u00e4gt der Mittelwert 30,87 g, die Standardabweichung wurde zu 0,6 g ermittelt.<\/p>\n<p lang=\"de-DE\"><strong>Standardabweichung<\/strong><\/p>\n<p lang=\"de-DE\">Was bedeuten diese Zahlen aus dem vorigen Kapitel?<\/p>\n<p lang=\"de-DE\">Bei einer Normalverteilung liegen rund zwei Drittel aller gemessenen Werte (genau 68,27 %) in einem Intervall von +\/- der Standardabweichung um den Mittelwert. Dies ist im Bild der Bereich zwischen den beiden inneren roten Linien, am Doppelpfeil mit 2 x SW gekennzeichnet. Hier im Beispiel liegt das Gewicht von 1392 Keksen zwischen 30,27 und 31,47 g.<\/p>\n<p lang=\"de-DE\">In dem doppelt so breiten Bereich von 2 x Standardabweichung um den Mittelwert liegen rund 95 % aller Messwerte (genau 95,45 %). Im Beispiel hei\u00dft das, dass 1947 Kekse zwischen 29,67 und\u00a032,07 g gewogen haben. Im Bereich +\/- 3 x Standardabweichung liegen schlie\u00dflich fast alle Messwerte (genau 99,73 %), im Beispiel sind 2035 Kekse zwischen\u00a028,47 und 32,67 g schwer.<\/p>\n<p lang=\"de-DE\">Offenbar ist die Standardabweichung ein Ma\u00df f\u00fcr die Streuung. W\u00e4re die Standardabweichung nur halb so gro\u00df, dann w\u00fcrden zum Beispiel 1392 Kekse zwischen 30,57 und 31,17 g wiegen anstelle der oben genannten 30,27 und 31,47 g. Die Kurve w\u00e4re wesentlich schmaler und spitzer.<\/p>\n<p lang=\"de-DE\">Die Standardabweichung ist also eine Eigenschaft der Verteilung der Daten. Der Zahlenwert h\u00e4ngt nicht davon ab, wie gro\u00df der Umfang der Stichprobe ist. Die Verteilung selbst mag sich vielleicht \u00e4ndern, je mehr Elemente betrachtet werden &#8211; der Mittelwert wird nach dem Messen von nur 5 Keksen ein anderer sein als nach dem Messen von 100, aber das liegt daran, dass sich die Verteilung in der Stichprobe \u00e4ndert.<\/p>\n<p lang=\"de-DE\">Wir halten fest: je kleiner die Standardabweichung, desto enger gruppieren sich die Messwerte um den Mittelwert. Prinzipiell gilt dies f\u00fcr jede Verteilung, nicht nur f\u00fcr die Normalverteilung. F\u00fcr die Normalverteilung charakteristisch ist, dass die Standardabweichung, wie oben beschrieben, Bereiche abgrenzt, in denen ganz bestimmte Anteile der Daten liegen.<\/p>\n<p lang=\"de-DE\"><strong>Vertrauensbereich<\/strong><\/p>\n<p lang=\"de-DE\">Wozu hat man den obigen Versuch mit den Keksen gemacht? Man m\u00f6chte offenbar wissen, ob der Produktionsprozess das liefert, was geplant wurde. Dazu kann man alle produzierten Kekse wiegen, was bei einem Massenprodukt recht aufw\u00e4ndig w\u00e4re. Stattdessen entnimmt man eine mehr oder weniger gro\u00dfe Menge als Stichprobe, untersucht diese, und nimmt an, dass es sich mit der Gesamtmenge (&#8218;Grundgesamtheit&#8216;) \u00e4hnlich verhalte wie mit der Stichprobe.<\/p>\n<p lang=\"de-DE\">Das Ziehen der Stichprobe erfolgt aber zuf\u00e4llig, daher ist nicht unbedingt sicher, dass die Stichprobe auch genau der Grundgesamtheit entspricht. Generell gilt aber, je gr\u00f6\u00dfer die Stichprobe ist, desto besser wird die Ann\u00e4herung sein. Ein Ma\u00df daf\u00fcr ist der Vertrauensbereich. Er gibt an, wie weit beispielsweise der Mittelwert der Grundgesamtheit von dem Mittelwert der Stichprobe abweichen kann. (Man k\u00f6nnte\u00a0ebenfalls einen Vertrauensbereich f\u00fcr die Standardabweichung ermitteln.) Dieser Bereich\u00a0kann aber kein fester Wert sein, sondern es kann nur ein Bereich angegeben werden, in dem der Mittelwert\u00a0mit einer gewissen Wahrscheinlichkeit\u00a0liegt. \u00dcblich ist es, eine Wahrscheinlichkeit von 95 % zu Grunde zu legen. Mit einer Wahrscheinlichkeit von 5 % l\u00e4ge der Mittelwert der Grundgesamtheit dann au\u00dferhalb des angegebenen Vertrauensbereichs. (Hinweis: Diese Darstellung ist mathematisch gesehen nicht ganz korrekt, aber einpr\u00e4gsam und f\u00fcr den Zweck, den wir hier betreiben v\u00f6llig ausrechend. Genaueres kann <a href=\"http:\/\/de.wikipedia.org\/wiki\/Vertrauensbereich\">diesem<\/a> Artikel in der Wikipedia antnommen werden.)<\/p>\n<p lang=\"de-DE\">F\u00fcr den Mittelwert der obigen Stichprobe l\u00e4sst sich ein Vertrauensbereich von +\/- 0,026 g errechnen. Das hei\u00dft, der Mittelwert des Gewichts der Kekse aus der gesamten Produktion liegt mit 95 % Wahrscheinlichkeit zwischen 30,87 &#8211; 0,026 g und 30,87 + 0,026 g, also zwischen 30,84 und 30,90 g.<\/p>\n<p lang=\"de-DE\">Dieser vergleichsweise kleine Vertauensbereich kommt durch die extrem hohe Anzahl der Stichprobe zu Stande. H\u00e4tte man beispielsweise nur 1000 oder 100 Kekse als Stichprobe gewogen, dann w\u00e4re der Vertrauensbereich deutlich gr\u00f6\u00dfer, n\u00e4mlich 0,038 beziehungsweise 0,12 g. Der Vertrauensbereich f\u00fcr eine Verteilung ist, wie man sieht, au\u00dfer von den Parametern der Verteilung selbst (Mittelwert, Standardabweichung) auch vom Umfang der Stichprobe abh\u00e4ngig. Je gr\u00f6\u00dfer die Stichprobe, desto sicherer stimmt sie mit der Grundgesamtheit \u00fcberein und desto schmaler der Vertrauensbereich.<\/p>\n<p lang=\"de-DE\">Nochmals deutlich zum Vergleich:<\/p>\n<p lang=\"de-DE\">Die Standardabweichung ist ein Ma\u00df daf\u00fcr, wie eng die Messwerte an einer Stichprobe um den Mittelwert streuen, der Vertrauensbereich ist ein Ma\u00df daf\u00fcr, wie gut die Stichprobe die Grundgesamtheit abbildet.<\/p>\n<p lang=\"de-DE\">Anmerkung:<br \/>\nBei der Berechnung des Vertrauensbereichs (und einiger anderer Werte) kommt eine Gr\u00f6\u00dfe vor, die Standardfehler genannt wird. Dies ist die Standardabweichung dividiert durch die Wurzel aus der Anzahl der Objekte in der Stichprobe. Da diese Zahl erheblich kleiner ist als die Standardabweichung, wird sie gerne in den Grafiken der Ver\u00f6ffentlichungen verwendet, denn dann kann es so aussehen, als w\u00fcrden sich die Wertebereiche zweier Verteilungen nicht \u00fcberlappen. Ich sehe darin allerdings nur eine Sch\u00f6nf\u00e4rberei der Messergebnisse, denn eine Absch\u00e4tzung der Streuung ist aus diesem Wert alleine nicht m\u00f6glich.<\/p>\n<p lang=\"de-DE\"><strong>Vertrauensbereich und Signifikanz<\/strong><\/p>\n<p lang=\"de-DE\">In den Untersuchungen, die hier im Blog analysiert werden, werden normalerweise die Ergebnisse an zwei Gruppen miteinander verglichen, beispielsweise die Ergebnisse, die sich bei hom\u00f6opathischer Behandlung ergaben, mit den Ergebnissen einer anderen Gruppe, die nur Placebo erhielt. Einige Grundgedanken zur Signifikanz wurden bereits <a href=\"http:\/\/www.beweisaufnahme-homoeopathie.de\/?page_id=72\">hier<\/a>\u00a0dargelegt. Daher sei\u00a0an dieser Stelle\u00a0nur daran erinnert, dass die statistische Signifikanz ein Ma\u00df daf\u00fcr ist, dass ein Ergebnis nicht alleine durch Zufall entstanden sein kann. Mit dem Begriff des Vertrauensbereichs kann man aber noch einen weiteren Effekt anschaulich machen.<\/p>\n<p lang=\"de-DE\">Wenn die Daten zweier Gruppen signifikant verschieden sind, dann sind sie sehr wahrscheinlich nicht durch Zufall zu Stande gekommen. Das hei\u00dft aber auch, dass sich die Vertrauensbereiche beider Verteilungen nicht \u00fcberlappen. Dies ist m\u00f6glich, wenn die Mittelwerte beider Gruppen weit auseinander liegen oder die Vertrauensbereiche sehr schmal sind. Letzteres kann wie oben ausgef\u00fchrt dadurch erreicht werden, dass die Anzahl der Teilnehmer in den Gruppen hinreichend gro\u00df ist. Bildlich ist dann erreicht, dass sich die Ergebnisse der beiden Gruppen zwar nur wenig unterscheiden, vielleicht sogar recht stark streuen, aber man sehr sicher sein kann, dass dies auch in den zu Grunde liegenden Grundgesamtheiten genau so der Fall ist.<\/p>\n<p lang=\"de-DE\">Daraus kann gefolgert werden, dass eine statistische Signifikanz nicht unbedingt eine Aussage dazu macht, wie weit die Daten auseinanderliegen. Es kann also durchaus sein, dass<\/p>\n<ul>\n<li>\n<p lang=\"de-DE\">die Ergebnisse zweier Gruppen stark streuen, das hei\u00dft, dass die Standardabweichung relativ gro\u00df ist<\/p>\n<\/li>\n<li>\n<p lang=\"de-DE\">die zugeh\u00f6rigen Vertrauensbereiche aber wegen der hohen Zahl der Teilnehmer recht schmal sein k\u00f6nnen<\/p>\n<\/li>\n<li>\n<p lang=\"de-DE\">und daher auch bei kleinen Unterschieden trotz starker Streuungen ein signifikantes Ergebnis erzielt wird.<\/p>\n<\/li>\n<\/ul>\n<p lang=\"de-DE\">Zur Illustration:<\/p>\n<p lang=\"de-DE\">Nehmen wir an, der obige Versuch w\u00e4re mit einer anderen gleich gro\u00dfen Stichprobe wiederholt worden und man h\u00e4tte einen Mittelwert von 31,00 g anstelle 30,87 g gefunden. Wenn beide Stichproben \u00fcber 2000 Kekse umfasst h\u00e4tten, dann w\u00e4re das Ergebnis signifikant, denn die Vertrauensbereiche \u00fcberlappen sich nicht (30,87 + 0,026 = 30,90 und 31,00- 0,026 = 30,97). Dies w\u00fcrde auf eine systematische \u00c4nderung hindeuten, entweder der St\u00f6rgr\u00f6\u00dfen oder irgendwo am Produktionsprozess.<\/p>\n<p lang=\"de-DE\">W\u00e4ren die gleichen Verteilungen bei zwei Untersuchungen an jeweils nur 100 Keksen zu Stande gekommen, dann w\u00e4re das Ergebnis nicht signifikant, da sich die Vertrauensbereiche \u00fcberlappen (30,87 + 0,12 = 30,99; 31,00 &#8211; 0,12 = 30,88). Das Ergebnis kann durch reinen Zufall entstanden sein, etwa weil zuf\u00e4llig mehr schwere Kekse in die Stichprobe geraten sind, was sich durch eine gr\u00f6\u00dfere Zahl in der Stichprobe wahrscheinlich ausgleichen w\u00fcrde.<\/p>\n<p lang=\"de-DE\"><strong>Effektst\u00e4rke<\/strong><\/p>\n<p lang=\"de-DE\">Da auch kleine Unterschiede signifikant sein k\u00f6nnen, ist die Signifikanz als Aussage des Ergebnisses noch relativ unbefriedigend. Daf\u00fcr wird oft die Effektst\u00e4rke benutzt, die den Unterschied zwischen den Mittelwerten zweier Verteilungen mit der Standardabweichung, also mit deren Streuung, vergleicht. Dazu wird der Unterschied der Mittelwerte durch den Mittelwert der Standardabweichungen dividiert. Eine Effektsst\u00e4rke von 1 bedeutet also, dass die beiden Mittelwerte um eine Standardabweichung auseinander liegen.<\/p>\n<p lang=\"de-DE\">Es wird angegeben, dass eine Effektst\u00e4rke von 0,1\u00a0ein schwacher Effekt, 0,5 ein mittlerer Effekt und 0,8 ein starker Effekt sei. Dies mag eine rein statistisch-theoretisch brauchbare Einteilung sein, ich selbst teile diese Ansicht aber eher nicht. Selbst eine Effektst\u00e4rke von 1,0 f\u00fchrt dazu, dass sich etwa ein Drittel der Daten \u00fcberlappt, rund 10 % sogar \u00fcber den Mittelwert der jeweils anderen Verteilung herausragen.<\/p>\n<p lang=\"de-DE\">Im obigen Fall w\u00e4re die Effektst\u00e4rke (31,00 &#8211; 30,87) \/ 0,60 = 0,22, also auf jeden Fall recht gering.<\/p>\n<p lang=\"de-DE\">Aus meiner Sicht ist es aber viel wesentlicher, ob der Unterschied auch relevant ist, das hei\u00dft irgendwie f\u00fchlbar ist. Das ist aber auch davon abh\u00e4ngig, was man eigentlich betrachtet. Wenn der Produktionsprozess betrachtet wird, dann k\u00f6nnte in dem obigen Beispiel eine \u00c4nderung um 0,13 g schon wesentlich daf\u00fcr sein, dass sich etwas am Prozess ver\u00e4ndert, beispielsweise ein Werkzeug anf\u00e4ngt zu verschlei\u00dfen oder eine andere Prozessst\u00f6rung sich ank\u00fcndigt. Erfolgt die Betrachtung aber im Hinblick darauf, was diese Kekse in dem Menschen, der sie isst, anrichten, dann sind 0,1 g gar nichts, ja sogar 1 g w\u00e4re noch v\u00f6llig bedeutungslos. Zugegeben, dann w\u00fcrde man nicht das Geld f\u00fcr so gro\u00dfe Stichproben aufwenden, aber diese Betrachtung soll ja nur den grunds\u00e4tzlichen Sachverhalt verdeutlichen.<\/p>\n<p lang=\"de-DE\"><strong>Messunsicherheit<\/strong><\/p>\n<p lang=\"de-DE\">Ein wesentliches Kriterium zur Beurteilung der Aussagekraft ist es aber auf jeden Fall, ob die vorgefundenen Unterschiede noch innerhalb der Unsicherheiten der Messung liegen oder nicht.<\/p>\n<p lang=\"de-DE\">Dass Messungen grunds\u00e4tzlich mit Messfehlern behaftet sind, ist vielleicht noch einleuchtend, aber Messtechnik ist ein Gebiet, das dem Laien normalerweise gar nicht zug\u00e4nglich ist. Man schaut gerne auf die Anzeige, z\u00e4hlt wie viele Stellen das Display anzeigen kann und h\u00e4lt dies dann f\u00fcr die Messgenauigkeit &#8211; was leider nicht zutrifft. Im Detail w\u00e4re es wohl angemessen, dem Thema einen eigenen Blogbeitrag zu widmen, was wahrscheinlich auch irgendwann einmal erfolgen wird.<\/p>\n<p lang=\"de-DE\">F\u00fcr jetzt muss allerdings einfach die Feststellung gen\u00fcgen, dass jede Messung durch St\u00f6rgr\u00f6\u00dfen mehr oder weniger stark verf\u00e4lscht wird. Das hei\u00dft, dass es selbst bei einer unver\u00e4nderten Messgr\u00f6\u00dfe (das, was man messen will, also z. B. das K\u00f6rpergewicht) zu unterschiedlichen Messergebnissen kommen kann. Man denke einmal an den Einfluss auf das Wiegeergebnis, wie man auf der Waage steht (jeder \u00dcbergewichtige kennt die Suche nach der optimalen Position!). Das hei\u00dft aber auch, dass Messergebnisse nur dann sicher auf eine \u00c4nderung der Messgr\u00f6\u00dfe schlie\u00dfen lassen, wenn sie sich um mehr als die Messunsicherheit unterscheiden. Die Messunsicherheit legt also die Aufl\u00f6sung des Messsystems fest, kleinere Unterschiede als die Messunsicherheit kann man nicht unterscheiden.<\/p>\n<p lang=\"de-DE\">Bleiben wir beim K\u00f6rpergewicht. Wenn Sie sich t\u00e4glich wiegen, werden Sie merken, dass Ihr Gewicht sich von Tag zu Tag um vielleicht ein ganzes Kilo nach oben oder unten bewegen kann, selbst wenn Sie sich jeweils nach dem Aufstehen und dem Gang zur Toilette wiegen. Soweit ich wei\u00df, ist dies vom Wasserhaushalt abh\u00e4ngig, was, wie viel und wann Sie am Abend zuvor gegessen haben, wie viel Sie am Tag zuvor getrunken haben, wie viel Salz Sie aufgenommen haben und vieles mehr. Einen Erfolg eventueller Bem\u00fchungen, das Gewicht zu reduzieren, k\u00f6nnen Sie erst dann sicher feststellen, wenn die Anzeige aus dem Bereich der normalen t\u00e4glichen Schwankung herauskommt.<\/p>\n<p lang=\"de-DE\">Ein Problem der Messunsicherheit und der damit verbundenen Messaufl\u00f6sung ist, dass man mit keinem Trick der Welt ein genaueres Messergebnis erzielen kann als durch die Messaufl\u00f6sung vorgegeben. Diese Tatsache ist auch offensichtlich manchen Wissenschaftlern nicht bewusst. Man kann die Messunsicherheit selbst verringern, indem man die Bedingungen genau kontrolliert, aber diese ist und bleibt eine Grenze f\u00fcr die Genauigkeit eines Messergebnisses. Man kann zwar durchaus mit Mitteln der Statistik aus einer Vielzahl von Messungen Zahlenwerte ermitteln, die genauer zu sein scheinen, als die Aufl\u00f6sung des Messystems, aber der Einzelwert ist nicht genauer bestimmbar. Wenn man aber zwei solcher statistisch zustande gekommene Ergebnisse miteinander vergleicht und der Unterschied ist kleiner als die Aufl\u00f6sung &#8211; kann man den rechnerischen Unterschied in der Realit\u00e4t nicht nachvollziehen.<\/p>\n<p lang=\"de-DE\">Ein zugegeben etwas konstruiertes Beispiel:<\/p>\n<p lang=\"de-DE\">Nehmen Sie an, Sie haben eine Di\u00e4t zur sanften Gewichtsreduktion erfunden. Sie machen den Versuch an\u00a0einen gro\u00dfen Zahl von\u00a0Probanden Ihrer Zielgruppe, indem Sie eine Ausgangsmessung machen, dann Ihre Kur verabreichen und eine Woche sp\u00e4ter wieder messen. Nehmen wir an Sie h\u00e4tten nur ein Messystem zur Verf\u00fcgung, dass das Gewicht Ihrer Probanden nur auf ein Kilogramm genau ermitteln kann, indem die weiteren Ziffern einfach abgeschnitten werden. Aus verschiedenen Gr\u00fcnden ist eine\u00a0Messung des K\u00f6rpergewichts\u00a0mittels handels\u00fcblicher Personenwaagen in der Tat nicht genauer, obwohl tats\u00e4chlich noch Zwischenwerte angezeigt werden. Aber, um dies jetzt nicht weiter auswalzen zu m\u00fcssen, stellen Sie sich eine Waage vor, die nur Kilogramm anzeigen kann.<\/p>\n<p lang=\"de-DE\">Wenn man die Ausgangsmessung durchf\u00fchrt und dann den Mittelwert (&#8218;Erwartungswert&#8216;)bildet, dann kann man durchaus auch Zahlenwerte errechnen, die im Grammbereich liegen. Nach dem Zentralen Grenzwertsatz wird dieser Zwischenwert wahrscheinlich auch immer besser dem tats\u00e4chlichen Mittelwert in der\u00a0Gesamtheit aller Menschen Ihrer Zielgruppe entsprechen, je mehr Probanden Sie verpflichtet haben.<\/p>\n<p lang=\"de-DE\">Nun geben Sie ihr Mittel und machen eine Woche sp\u00e4ter die gleiche Messung. Auch hier k\u00f6nnen Sie wieder einen Zwischenwert bestimmen, der bei hinreichend hoher Anzahl von Teilnehmern das Ergebnis repr\u00e4sentiert, wie die Menschen Ihrer Zielgruppe wahrscheinlich reagieren. Wenn man das Ergebnis genauer errechnen kann als es der Messaufl\u00f6sung entspricht, dann ist es auch m\u00f6glich, dass es Unterschiede in den Durchschnittswerten gibt, die kleiner sind als die Aufl\u00f6sung des Messystems.\u00a0Es k\u00f6nnte sich zum BEispiel ergeben, dass der Durchschnitt der Ausgangsmessung bei 89,7 kg lag, jetzt liegt der Wert bei 89,3 kg. \u00a0<\/p>\n<p lang=\"de-DE\">Das mag ja rechnerisch ein ganz toller Erfolg sein, aber der Durchschnittproband merkt den Unterschied nicht. Da die Waage einfach die Gramm-Stellen abschneidet, bekommt er vor wie nach 89 kg als sein K\u00f6rpergewicht angezeigt. F\u00fcr ihn hat sich subjektiv nichts ge\u00e4ndert, der Vorteil ist, obwohl in der Summe der Probanden vielleicht f\u00fchlbar, f\u00fcr den einzelnen Nutzer\u00a0irrelevant (&#8218;Und kannnst Du&#8217;s nicht messen, dann kannst Du&#8217;s vergessen!&#8216;). Nat\u00fcrlich kann es in dieser Konstellation einzelne Nutzer geben, die einen ganz erheblichen Vorteil erzielen, dem werden aber auch solche gegen\u00fcberstehen, die einen Nachteil zu verzeichnen haben.<\/p>\n<p lang=\"de-DE\">Aus diesen \u00dcberlegungen heraus erscheint es mir gerechtfertigt, Unterschiede der Gruppenergebnisse klinischer Stuien, die unterhalb der Aufl\u00f6sung des Messsystems liegen, als irrelevant zu betrachten.\u00a0In den\u00a0Augen des Nutzers kann\u00a0man die Nachkommastellen in unserem Beispiel auch w\u00fcrfeln. Mehr\u00a0Bedeutung aht es f\u00fcr ihn nicht.\u00a0<\/p>\n<p lang=\"de-DE\">Gut, in\u00a0dem hier betrachteten\u00a0Fall wird die Werbung des Rest machen m\u00fcssen, um weitere emotionale Vorteile mit dem Produkt zu verbinden, aber im Hinblick auf das Prim\u00e4rziel bringt das nichts, zumindest nichts Messbares.<\/p>\n<p lang=\"de-DE\">Wenn mit den Messwerten noch Kennwerte ermittelt werden, insbesondere wenn dabei zwei oder mehr Messwerte verkn\u00fcpft werden, gibt es noch den Effekt der Fehlerfortpflanzung.\u00a0Der Vollst\u00e4ndigkeit halber soll hier ein klassisches Beispiel dargestellt werden: Wie gro\u00df ist der Fl\u00e4cheninhalt eines Quadrats mit 2,5 m Seitenl\u00e4nge? Jeder nennt, gegebenenfalls mit etwas Rechnen, 6,25 m\u00b2 als Ergebnis, vermeintlich mit einer Genauigkeit von drei Stellen, obwohl die Eingangsdaten nur eine Genauigkeit von zwei Stellen aufwiesen (ich sagte 2,5, nicht 2,50!). Nach allgemeiner \u00dcbereinkunft ist 2,5 m irgendein Wert zwischen 2,45 m und 2,55 m. Der Fl\u00e4cheninhalt kann also zwischen 2,45 x 2,45 = 6,00 m\u00b2 und 2,55 x 2,55 = 6,50 m\u00b2 liegen. In der Genauigkeit ist nicht eine Stelle gewonnen worden, sondern eine ging verloren! Die zweite Stelle kann irgendwo zwischen 0 und 5 liegen, die Dritte ist vollends Lotterie. Als Faustregel fordert man daher in der Messtechnik, dass die Aufl\u00f6sung des Messsystems etwa eine Zehnerpotenz besser sein muss als die gew\u00fcnschte Genauigkeit des Ergebnisses.<\/p>\n<p lang=\"de-DE\">Wegen der Einpr\u00e4gsamkeit noch eine Tabelle zur Fehlerfortpflanzung schon bei den Grundrechenarten. Die Tabelle zeigt die extremen Ergebnisse der mit den Zahlen 4 und 5 ausf\u00fchrbaren Grundrechenoperationen, wenn die Zahlen um jeweils 0,5 schwanken, &#8218;4&#8216; also\u00a0ein Wert\u00a0zwischen 3,5 und 4,5 ist und &#8218;5&#8216; ebenso zwischen 4,5 und 5,5.<\/p>\n\n<table id=\"tablepress-4\" class=\"tablepress tablepress-id-4\">\n<thead>\n<tr class=\"row-1 odd\">\n\t<th class=\"column-1\">Operation<\/th><th class=\"column-2\">Kleinstwert<\/th><th class=\"column-3\">Gr\u00f6\u00dftwert<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr class=\"row-2 even\">\n\t<td class=\"column-1\">Addition 5 + 4<\/td><td class=\"column-2\">8<\/td><td class=\"column-3\">10<\/td>\n<\/tr>\n<tr class=\"row-3 odd\">\n\t<td class=\"column-1\">Subtraktion 5 - 4<\/td><td class=\"column-2\">0<\/td><td class=\"column-3\">2<\/td>\n<\/tr>\n<tr class=\"row-4 even\">\n\t<td class=\"column-1\">Multiplikation 5 x 4<\/td><td class=\"column-2\">15,75<\/td><td class=\"column-3\">24,75<\/td>\n<\/tr>\n<tr class=\"row-5 odd\">\n\t<td class=\"column-1\">Division 5 \/ 4<\/td><td class=\"column-2\">1,0<\/td><td class=\"column-3\">1,57<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<!-- #tablepress-4 from cache -->\n<p>Ich finde es jedenfalls immer wieder erstaunlich, wie schnell sich Ungenauigkeiten bei Rechenoperationen vergr\u00f6\u00dfern.<\/p>\n<p lang=\"de-DE\">Jetzt die Kurve zur\u00fcck auf die Statistik: Die Arithmetik kann vort\u00e4uschen, dass die Ergebnisse aussehen, als seien sie genauer als von der Aufl\u00f6sung des Messsystems vorgegeben, das ist aber blo\u00dfe Arithmetik und nicht real. Daher ist ein Ergebnis, also beispielsweise der Unterschied der Messwerte zweier Gruppen, v\u00f6llig ohne Aussage, wenn er geringer ist als die Messunsicherheit &#8211; die man allerdings eventuell sch\u00e4tzen muss. Aus mir nicht nachvollziehbaren Gr\u00fcnden wird das Thema der Messaufl\u00f6sung in den allermeisten Ver\u00f6ffentlichungen nicht diskutiert. Da mag das Ergebnis noch so signifikant sein, wenn die Messgenauigkeit das nicht hergibt, ist das Ergebnis nicht zu gebrauchen.<\/p>\n<p lang=\"de-DE\"><strong>Anwendung auf ein Beispiel<\/strong><\/p>\n<p lang=\"de-DE\">Im Licht dieser Ausf\u00fchrungen k\u00f6nnen wir uns nochmal das Ergebnis der <a href=\"http:\/\/www.beweisaufnahme-homoeopathie.de\/?page_id=461\">Analyse der Krebsstudie von Rostock<\/a> betrachten. Man hatte dort ermittelt, dass der Index der Lebensqualit\u00e4t f\u00fcr die hom\u00f6opathisch behandelten Patienten von 75,6 auf 81,1 Punkte angestiegen war, der der konventionell behandelten Patienten von 75,3 nur auf 76,6 (nehmen wir mal die Zahlen, wie sie im Text der Arbeit zitiert werden), die ganze Entwicklung spielte sich also in einem Bereich von noch nicht einmal 6 Punkten ab. Die Standardabweichung betrug jeweils rund 15 bis 16 Punkte, die Aufl\u00f6sung des Messverfahrens wurde von seinem Erfinder mit 3 bis 7 Punkten angegeben.<\/p>\n<p lang=\"de-DE\">Ohne Zweifel zeigen die Ergebnisse in den einzelnen Gruppen eine starke Streuung, aber solche Ergebnisse gibt es. Die Effektst\u00e4rke ist mit ca. 0,35 nicht gerade hoch. Allerdings liegt aufgrund der vergleichsweise hohen Teilnehmerzahl der Vertrauensbereich bei nur rund zwei Punkten. Das hei\u00dft, die Stichproben geben mit gro\u00dfer Sicherheit die Verh\u00e4ltnisse in der Grundgesamtheit wieder. Damit sind die Unterschiede statistisch signifikant. Aber das ist rein die Mathematik, die nicht wissen kann, auf welch dubiose Art und Weise die Eingangsdaten zustande gekommen sind. Auch hier gilt die Regel Unsinn rein &#8211; Unsinn raus.<\/p>\n<p lang=\"de-DE\">Wenn die Ergebnisse mit einem Messverfahren ermittelt worden w\u00e4ren, das eine Aufl\u00f6sung von etwa 0,5 Punkten gehabt h\u00e4tte (etwa ein Zehntel des Datenbereichs), dann k\u00f6nnte man das sogar glauben. Unser Ansatzpunkt der Kritik ist aber gerade die Genauigkeit der Datenerfassung. Das Auswerteprogramm f\u00fcr die Daten macht sich keine Gedanken dar\u00fcber, dass neben jedem Zahlenwert, der eingetippt wird, eigentlich die Angabe &#8218;+\/- 3 bis 7 Punkte&#8216; stehen m\u00fcsste, und dass es merkw\u00fcrdig ist, dass Krebskranke hierzulande in den Wirren der Akutbehandlung eine nur wenig schlechtere Lebensqualit\u00e4t verzeichnen als die durchschnittliche Bev\u00f6lkerung in den USA.<\/p>\n<p lang=\"de-DE\">Nat\u00fcrlich stimmt diese kurze Analyse \u00fcberhaupt nur, wenn die Messergebnisse der Studie tats\u00e4chlich jeweils eine Normalverteilung ergeben. Wenn nicht, k\u00f6nnen noch sehr viele weitere Ungenauigkeiten aufgetreten sein, die wir rechnerisch nicht erfassen k\u00f6nnen. Dar\u00fcber schweigen sich aber die Verfasser aus.<\/p>\n<p lang=\"de-DE\"><strong>Zusammenfassung:<\/strong><\/p>\n<ul>\n<li>\n<p lang=\"de-DE\">Die Standardabweichung ist eine Eigenschaft der Verteilung der Daten und sagt etwas \u00fcber deren Streuung.<\/p>\n<\/li>\n<li>\n<p lang=\"de-DE\">Der Vertrauensbereich sagt etwas dar\u00fcber aus, wie gut die Stichprobe die Grundgesamtheit wiedergibt.<\/p>\n<\/li>\n<li>\n<p lang=\"de-DE\">Die statistische Signifikanz kann man als Ma\u00df deuten, wie weit sich die Vertrauensbereiche zweier Verteilungen \u00fcberlappen.<\/p>\n<\/li>\n<li>\n<p lang=\"de-DE\">Die Effektst\u00e4rke vergleicht den Unterschied zwischen zwei Verteilungen mit deren Standardabweichung, ist also ein Ma\u00df daf\u00fcr, wie gut sich die Ergebnisse voneinander unterscheiden.<\/p>\n<\/li>\n<li>\n<p lang=\"de-DE\">Die Messunsicherheit ist ein Ma\u00df f\u00fcr die Genauigkeit der Daten, die in die Betrachtung eingeflossen sind. Dies ist eine nicht zu \u00fcberwindende Grenze f\u00fcr die Pr\u00e4zision des Ergebnisses.<\/p>\n<\/li>\n<\/ul>\n<p><strong>Bildnachweis:<\/strong><\/p>\n<p>Quelle: Wikimedia, UncertFIGURE1.jpg\u00a0 Autor: Rb88guy, Modifikation: Verfasser<\/p>\n<p lang=\"de-DE\"><strong>Weiterf\u00fchrende Literatur:<\/strong><\/p>\n<p lang=\"de-DE\">[1] Fahrmeir L, K\u00fcnstler R, Pigeot I, Tutz G. Statistik &#8211; Der Weg zur Datenanalyse. Springer Verlag, 2011. ISBN: 978-3-642-01938-8<\/p>\n<p lang=\"de-DE\">[2] B\u00fchner M, Ziegler M. Statistik f\u00fcr Psychologen und Sozialwissenschaftler. Pearson GmbH, M\u00fcnchen 2009. ISBN: 978-3-8273-7274-1<\/p>\n","protected":false},"excerpt":{"rendered":"<p>(\u00dcberarbeitet 14.2.2014) In diesem Blog werden in der Hauptsache Ergebnisse analysiert und diskutiert, die mit Mitteln der Statistik erzielt worden sind. Statistik ist \u00fcblicherweise kein Schulfach. Auch in den Hochschulen wird Statistik nur denen vermittelt, die damit auch arbeiten m\u00fcssen &hellip; <a href=\"http:\/\/www.beweisaufnahme-homoeopathie.de\/?p=598\">Weiterlesen <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[13,4],"tags":[],"_links":{"self":[{"href":"http:\/\/www.beweisaufnahme-homoeopathie.de\/index.php?rest_route=\/wp\/v2\/posts\/598"}],"collection":[{"href":"http:\/\/www.beweisaufnahme-homoeopathie.de\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.beweisaufnahme-homoeopathie.de\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.beweisaufnahme-homoeopathie.de\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"http:\/\/www.beweisaufnahme-homoeopathie.de\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=598"}],"version-history":[{"count":27,"href":"http:\/\/www.beweisaufnahme-homoeopathie.de\/index.php?rest_route=\/wp\/v2\/posts\/598\/revisions"}],"predecessor-version":[{"id":1655,"href":"http:\/\/www.beweisaufnahme-homoeopathie.de\/index.php?rest_route=\/wp\/v2\/posts\/598\/revisions\/1655"}],"wp:attachment":[{"href":"http:\/\/www.beweisaufnahme-homoeopathie.de\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=598"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.beweisaufnahme-homoeopathie.de\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=598"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.beweisaufnahme-homoeopathie.de\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=598"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}