Dlaczego dokładnie 0,05?
Współodpowiedzialność za wybór poziomu istotności 5% przypisuje się statystykowi Ronaldowi A. Fisherowi (1890 – 1962). Fisher był jednym z twórców nowoczesnej metodologii badań i analizy statystycznej. Jego metody zostały opracowane na użytek badań rolniczych i genetyki, a od tego czasu są stosowane w wielu dyscyplinach. Najbardziej znany jest z opracowania analizy wariancji i badań randomizowanych (2).
W 1925 roku opublikował książkę Statistical methods for research workers, w której pisze, że poziom istotności 5% jest odpowiednim wyborem (3): „Wartość, dla której P = .05, lub 1 na 20, …; wygodnie jest przyjąć ten punkt jako granicę w ocenie, czy odchylenie ma być uznane za znaczące, czy nie” (3, s. 45).
Możemy odnieść wrażenie, że wartość p ≤ 0,05 i znaczenie tej wartości w późniejszych badaniach mogły być spowodowane tym, że Ronald A. Fisher wybrał poziom istotności 5% mniej lub bardziej przypadkowo. Czy gdyby zamiast tego wybrał 2%, 7% lub 10%, badania medyczne i praktyka kliniczna wyglądałyby dziś inaczej? Czy to prawda, że wyniki i wnioski z dużej części badań medycznych zależą od tego, jaką liczbę miał na myśli statystyk prawie sto lat temu?
Chociaż Ronald A. Fisher niewątpliwie wywarł ogromny wpływ na rozwój metod badawczych i statystyki, byłoby uproszczeniem przypisywanie mu wszystkich zasług (lub winy) za wybór 5%. Nie jest też prawdą, że wybrał ten poziom zupełnie przypadkowo; inni statystycy używali podobnych wartości (4).
Cowles Davis (5) zbadał, dlaczego Fisher wybrał 5% jako poziom istotności. Uważają oni, że używał on tylko tego, co było już ustaloną koncepcją. Karl Pearson (1857 – 1936), kolejny twórca nowoczesnej statystyki, opracował metody oceny, jak dobrze dane pasują do matematycznego rozkładu prawdopodobieństwa, co stanowi część podstawy często używanego testu chi kwadrat dla tabel krzyżowych. Twierdził on, że przy prawdopodobieństwie 10% (tj. p = 0,1) nie jest mało prawdopodobne, że obserwowane dane są przypadkowe, a następnie, że przy prawdopodobieństwie 1% (tj. p = 0,01) jest bardzo mało prawdopodobne, że obserwowane dane mogą być spowodowane przypadkowymi zmianami. Odpowiednim punktem pomiędzy tymi ekstremami jest 5 %. William Gosset (1876 – 1937), który opracował test t, również zasugerował 5% jako naturalny wybór poziomu istotności, choć wyraził to w innych kategoriach statystyczno-matematycznych (4, 5).
Czy jest coś szczególnego w prawdopodobieństwie 5%? Zainspirowani historycznymi badaniami zalecanych poziomów istotności, Cowles i Davis zbadali, czy istnieje intuicyjny i naturalny poziom istotności (6). Jak rzadko musi wystąpić zdarzenie w stosunku do tego, co jest oczekiwane, zanim uznamy, że pierwotne założenie, tj. hipoteza zerowa, jest nieprawdziwe? Podają oni prosty przykład. Ty i twój kolega rzucacie monetą, aby ustalić, kto postawi kawę na lunch, ale dzień po dniu przegrywacie. Ile dni będziesz gotów kontynuować kupowanie kawy dla swojego kolegi, zanim zaczniesz podejrzewać, że Twoje straty nie są przypadkowe? Założyłbym, że wielu będzie gotowych zaakceptować to przez cztery (p = 0,0625) lub pięć (p = 0,03125) dni, ale wierzę, że niewielu zaakceptuje, że tylko przypadek jest zaangażowany, jeśli przegrają dziesięć dni z rzędu i będą musieli zapłacić za kawę (p < 0,001).
Aby zbadać to systematycznie, opracowali eksperyment psychologiczny (6). Ochotnicy uczestniczyli w grze hazardowej. Trzy kubki zostały umieszczone przed nimi, a oni zostali poinformowani, że jeden z nich skrywa mały czerwony przycisk. Jeśli wybiorą właściwy kubek, wygrają trochę pieniędzy. Ta gra była powtarzana, dopóki uczestnicy nie chcieli przestać.
Dla uczestników intuicyjną hipotezą zerową jest to, że mają prawdopodobieństwo jednej trzeciej zgadnięcia poprawnego kubka w każdej rundzie gry. Uczestnicy nie byli jednak świadomi, że żaden z kubków nie kryje czerwonego przycisku, a zatem przegraliby za każdym razem. Innymi słowy, intuicyjna hipoteza zerowa była nieprawdziwa. Celem eksperymentu było zbadanie, ile razy uczestnicy powtórzą grę, zanim zaczną podejrzewać, że coś jest nie tak, czyli zwątpią w hipotezę zerową. Ponad połowa uczestników była podejrzliwa po sześciu rundach powtarzających się porażek (p = 0,088) i prawie 90% po ośmiu rundach (p = 0,039). Eksperyment wskazuje, że wiele osób naturalnie i intuicyjnie wybierze poziom istotności około 5 %.