Waarom precies 0,05?
De keuze voor een significantieniveau van 5 % komt op het conto van de statisticus Ronald A. Fisher (1890 – 1962). Fisher was een van de grondleggers van de moderne onderzoeksmethodologie en statistische analyse. Zijn methoden werden ontwikkeld voor gebruik in landbouwkundig onderzoek en genetica, en zijn sindsdien in een aantal disciplines toegepast. Hij is vooral bekend geworden door de ontwikkeling van variantieanalyses en gerandomiseerde studies (2).
In 1925 publiceerde hij het boek Statistical methods for research workers, waarin hij schrijft dat een significantieniveau van 5 % een geschikte keuze is (3): “De waarde waarvoor P = .05, of 1 op 20, …; het is handig om dit punt als grens te nemen bij het beoordelen of een afwijking als significant moet worden beschouwd of niet” (3, p. 45).
We kunnen de indruk krijgen dat een p-waarde van ≤ 0,05 en het belang van deze waarde in later onderzoek veroorzaakt kunnen zijn doordat Ronald A. Fisher min of meer willekeurig een significantieniveau van 5 % heeft gekozen. Als hij in plaats daarvan 2 %, 7 % of 10 % had gekozen, zouden medisch onderzoek en klinische praktijk er dan vandaag anders hebben uitgezien? Is het waar dat de resultaten en conclusies van grote delen van het medisch onderzoek afhangen van het getal dat een statisticus bijna honderd jaar geleden in gedachten had?
Hoewel Ronald A. Fisher ongetwijfeld een grote invloed heeft gehad op de ontwikkeling van proefmethoden en statistiek, zou het simplistisch zijn hem alle eer (of schuld) toe te kennen voor deze keuze van 5 %. Evenmin is het juist dat hij dit niveau geheel willekeurig koos; andere statistici gebruikten soortgelijke waarden (4).
Cowles & Davis (5) onderzocht waarom Fisher 5 % als significantieniveau koos. Volgens hen gebruikte hij alleen wat al een gevestigd concept was. Karl Pearson (1857 – 1936), een andere grondlegger van de moderne statistiek, ontwikkelde methoden om te beoordelen hoe goed gegevens passen bij een wiskundige waarschijnlijkheidsverdeling, die deel uitmaken van de basis voor de vaak gebruikte chi-kwadraat toets van kruistabellen. Hij beweerde dat het met een waarschijnlijkheid van 10 % (d.w.z. p = 0,1) niet onwaarschijnlijk is dat de waargenomen gegevens willekeurig zijn, en verder dat het met een waarschijnlijkheid van 1 % (d.w.z. p = 0,01) hoogst onwaarschijnlijk is dat de waargenomen gegevens het gevolg kunnen zijn van willekeurige variaties. Een geschikt punt tussen deze uitersten is 5 %. William Gosset (1876 – 1937), die de t-toets ontwikkelde, stelde ook 5 % voor als een natuurlijke keuze van significantieniveau, hoewel hij dit in andere statistisch-wiskundige termen uitdrukte (4, 5).
Is er iets bijzonders aan een waarschijnlijkheid van 5 %? Geïnspireerd door hun historische onderzoek naar aanbevolen significantieniveaus, onderzochten Cowles en Davis of er een intuïtief en natuurlijk significantieniveau bestaat (6). Hoe vaak moet een gebeurtenis zich voordoen in verhouding tot wat wordt verwacht voordat we erkennen dat de oorspronkelijke aanname, d.w.z. de nulhypothese, onwaar is? Zij geven een eenvoudig voorbeeld. U en uw collega gooien een muntje op om te bepalen wie de koffie voor de lunch zal kopen, maar dag na dag blijft u verliezen. Hoeveel dagen bent u bereid om koffie te blijven kopen voor uw collega voordat u begint te vermoeden dat uw verliezen geen toeval zijn? Ik zou aannemen dat velen bereid zullen zijn dit voor vier (p = 0,0625) of vijf (p = 0,03125) dagen te accepteren, maar ik denk dat weinigen zullen accepteren dat er alleen maar toeval in het spel is als ze tien dagen achter elkaar verliezen en voor de koffie moeten betalen (p < 0,001).
Om dit systematisch te onderzoeken, ontwikkelden ze een psychologisch experiment (6). Vrijwilligers namen deel aan een gokspel. Drie bekers werden voor hen neergezet, en hun werd verteld dat in één ervan een kleine rode knop verborgen zat. Als zij de juiste beker kozen, zouden zij wat geld winnen. Deze gok werd herhaald totdat de deelnemers wilden stoppen.
Voor de deelnemers is de intuïtieve nulhypothese dat zij een waarschijnlijkheid van een derde hebben voor het raden van de juiste beker in elke ronde van het spel. De deelnemers waren zich er echter niet van bewust dat geen van de bekers een rode knop bevatte, en dat zij dus elke keer zouden verliezen. Met andere woorden, de intuïtieve nulhypothese was onwaar. Het doel van het experiment was te onderzoeken hoe vaak de deelnemers het spel zouden herhalen voordat ze begonnen te vermoeden dat er iets mis was, dat wil zeggen dat ze aan de nulhypothese gingen twijfelen. Meer dan de helft van de deelnemers werd achterdochtig na zes ronden van herhaald verlies (p = 0,088) en bijna 90 % na acht ronden (p = 0,039). Het experiment geeft aan dat veel mensen van nature en intuïtief een significantieniveau van ongeveer 5 % zullen kiezen.