Warum genau 0,05?
Das Verdienst für die Wahl eines Signifikanzniveaus von 5 % wird dem Statistiker Ronald A. Fisher (1890 – 1962) zugeschrieben. Fisher war einer der Begründer der modernen Forschungsmethodik und der statistischen Analyse. Seine Methoden wurden für den Einsatz in der landwirtschaftlichen Forschung und der Genetik entwickelt und wurden seitdem in einer Reihe von Disziplinen angewendet. Am bekanntesten ist er für die Entwicklung der Varianzanalyse und randomisierter Studien (2).
Im Jahr 1925 veröffentlichte er das Buch Statistical methods for research workers, in dem er schreibt, dass ein Signifikanzniveau von 5 % eine angemessene Wahl ist (3): „Der Wert, für den P = .05, oder 1 in 20, …; es ist bequem, diesen Punkt als Grenze zu nehmen, um zu beurteilen, ob eine Abweichung als signifikant zu betrachten ist oder nicht“ (3, S. 45).
Es kann der Eindruck entstehen, dass ein p-Wert von ≤ 0,05 und die Bedeutung dieses Wertes in der späteren Forschung dadurch entstanden sein könnte, dass Ronald A. Fisher ein Signifikanzniveau von 5 % mehr oder weniger zufällig gewählt hat. Hätte er stattdessen 2 %, 7 % oder 10 % gewählt, würde die medizinische Forschung und klinische Praxis heute anders aussehen? Stimmt es, dass Ergebnisse und Schlussfolgerungen aus weiten Teilen der medizinischen Forschung davon abhängen, welche Zahl ein Statistiker vor fast hundert Jahren im Kopf hatte?
Obwohl Ronald A. Fisher zweifellos einen großen Einfluss auf die Entwicklung von Studienmethoden und Statistik hatte, wäre es vereinfachend, ihm das gesamte Verdienst (oder die Schuld) für die Wahl von 5 % zuzuschreiben. Es ist auch nicht richtig, dass er dieses Niveau völlig zufällig wählte; andere Statistiker verwendeten ähnliche Werte (4).
Cowles & Davis (5) untersuchte, warum Fisher 5 % als Signifikanzniveau wählte. Sie glauben, dass er nur das verwendete, was bereits ein etabliertes Konzept war. Karl Pearson (1857 – 1936), ein weiterer Begründer der modernen Statistik, entwickelte Methoden zur Beurteilung, wie gut Daten mit einer mathematischen Wahrscheinlichkeitsverteilung übereinstimmen, was ein Teil der Grundlage für den häufig verwendeten Chi-Quadrat-Test von Kreuztabellen ist. Er behauptete, dass es mit einer Wahrscheinlichkeit von 10 % (d. h. p = 0,1) nicht unwahrscheinlich ist, dass die beobachteten Daten zufällig sind, und weiter, dass es mit einer Wahrscheinlichkeit von 1 % (d. h. p = 0,01) höchst unwahrscheinlich ist, dass die beobachteten Daten auf zufällige Schwankungen zurückzuführen sein können. Ein geeigneter Punkt zwischen diesen Extremen ist 5 %. William Gosset (1876 – 1937), der den t-Test entwickelte, schlug ebenfalls 5 % als natürliche Wahl des Signifikanzniveaus vor, obwohl er dies in anderen statistisch-mathematischen Begriffen ausdrückte (4, 5).
Gibt es etwas Besonderes an einer Wahrscheinlichkeit von 5 %? Inspiriert von ihren historischen Untersuchungen zu empfohlenen Signifikanzniveaus, untersuchten Cowles und Davis, ob es ein intuitives und natürliches Signifikanzniveau gibt (6). Wie selten muss ein Ereignis im Verhältnis zu dem, was erwartet wird, auftreten, bevor wir erkennen, dass die ursprüngliche Annahme, also die Nullhypothese, unwahr ist? Sie geben ein einfaches Beispiel. Sie und Ihr Kollege werfen eine Münze, um zu bestimmen, wer den Kaffee zum Mittagessen kauft, aber Tag für Tag verlieren Sie. Wie viele Tage werden Sie bereit sein, weiterhin Kaffee für Ihren Kollegen zu kaufen, bevor Sie anfangen zu vermuten, dass Ihre Verluste nicht zufällig sind? Ich würde annehmen, dass viele bereit sind, dies für vier (p = 0,0625) oder fünf (p = 0,03125) Tage zu akzeptieren, aber ich glaube, dass nur wenige akzeptieren würden, dass es sich nur um Zufall handelt, wenn sie zehn Tage hintereinander verlieren und den Kaffee bezahlen müssen (p < 0,001).
Um dies systematisch zu untersuchen, entwickelten sie ein psychologisches Experiment (6). Probanden nahmen an einem Glücksspiel teil. Drei Tassen wurden vor ihnen platziert, und ihnen wurde gesagt, dass sich in einer von ihnen ein kleiner roter Knopf verbarg. Wenn sie die richtige Tasse wählten, würden sie etwas Geld gewinnen. Dieses Glücksspiel wurde so lange wiederholt, bis die Teilnehmer aufhören wollten.
Für die Teilnehmer ist die intuitive Nullhypothese, dass sie in jeder Runde des Spiels eine Wahrscheinlichkeit von einem Drittel für das Erraten der richtigen Tasse haben. Den Teilnehmern war jedoch nicht bewusst, dass sich hinter keiner der Tassen ein roter Knopf verbarg und dass sie somit jedes Mal verlieren würden. Mit anderen Worten: Die intuitive Nullhypothese war unwahr. Ziel des Experiments war es, zu untersuchen, wie oft die Teilnehmer das Spiel wiederholen würden, bevor sie den Verdacht bekämen, dass etwas nicht stimmt, d.h. dass sie die Nullhypothese anzweifeln würden. Mehr als die Hälfte der Teilnehmer waren nach sechs Runden mit wiederholten Verlusten misstrauisch (p = 0,088) und fast 90 % nach acht Runden (p = 0,039). Das Experiment zeigt, dass viele Menschen ganz natürlich und intuitiv ein Signifikanzniveau von etwa 5 % wählen werden.