Perché esattamente 0,05?
Il merito della scelta di un livello di significatività del 5% è attribuito allo statistico Ronald A. Fisher (1890 – 1962). Fisher è stato uno dei fondatori della moderna metodologia di ricerca e dell’analisi statistica. I suoi metodi sono stati sviluppati per l’uso nella ricerca agricola e nella genetica, e da allora sono stati applicati in un certo numero di discipline. È meglio conosciuto per aver sviluppato l’analisi della varianza e gli studi randomizzati (2).
Nel 1925 pubblicò il libro Statistical methods for research workers, in cui scrive che un livello di significatività del 5% è una scelta appropriata (3): “Il valore per il quale P = .05, o 1 su 20, …; è conveniente prendere questo punto come limite nel giudicare se una deviazione è da considerarsi significativa o meno” (3, p. 45).
Possiamo avere l’impressione che un valore di p ≤ 0,05 e l’importanza di questo valore nelle ricerche successive possano essere stati causati dal fatto che Ronald A. Fisher scelse un livello di significatività del 5 % più o meno a caso. Se invece avesse scelto il 2 %, il 7 % o il 10 %, la ricerca medica e la pratica clinica sarebbero state diverse oggi? È vero che i risultati e le conclusioni di gran parte della ricerca medica dipendono dal numero che uno statistico aveva in mente quasi cento anni fa?
Anche se Ronald A. Fisher ha indubbiamente avuto un grande impatto sullo sviluppo dei metodi di sperimentazione e della statistica, sarebbe semplicistico attribuirgli tutto il merito (o la colpa) per questa scelta del 5 %. Né è corretto che abbia scelto questo livello del tutto a caso; altri statistici stavano usando valori simili (4).
Cowles & Davis (5) ha indagato sul perché Fisher abbia scelto il 5 % come livello di significatività. Essi ritengono che egli stesse solo usando ciò che era già un concetto consolidato. Karl Pearson (1857 – 1936), un altro fondatore della statistica moderna, ha sviluppato metodi per valutare quanto bene i dati si adattano a una distribuzione matematica di probabilità, che è parte della base per il test chi-quadrato frequentemente usato per le tabulazioni incrociate. Sosteneva che con una probabilità del 10% (cioè p = 0,1) non è improbabile che i dati osservati siano casuali, e inoltre che con una probabilità dell’1% (cioè p = 0,01) è altamente improbabile che i dati osservati possano essere dovuti a variazioni casuali. Un punto adatto tra questi estremi è il 5%. Anche William Gosset (1876 – 1937), che ha sviluppato il test t, ha suggerito il 5 % come scelta naturale del livello di significatività, sebbene lo abbia espresso in altri termini statistico-matematici (4, 5).
C’è qualcosa di speciale in una probabilità del 5 %? Ispirati dalle loro indagini storiche sui livelli di significatività raccomandati, Cowles e Davis hanno esplorato se esiste un livello di significatività intuitivo e naturale (6). Quanto raramente deve verificarsi un evento in relazione a ciò che ci si aspetta prima di riconoscere che l’ipotesi originale, cioè l’ipotesi nulla, è falsa? Essi forniscono un semplice esempio. Tu e il tuo collega lanciate una moneta per determinare chi comprerà il caffè per pranzo, ma giorno dopo giorno continuate a perdere. Per quanti giorni sarete disposti a continuare a comprare il caffè al vostro collega prima di iniziare a sospettare che le vostre perdite non siano casuali? Suppongo che molti saranno disposti ad accettarlo per quattro (p = 0,0625) o cinque (p = 0,03125) giorni, ma credo che pochi accetterebbero che si tratta solo di coincidenze se perdono dieci giorni di fila e devono pagare il caffè (p < 0,001).
Per indagare sistematicamente questo, hanno sviluppato un esperimento psicologico (6). Dei volontari hanno partecipato a un gioco d’azzardo. Tre tazze sono state poste davanti a loro, e gli è stato detto che una di esse nascondeva un piccolo bottone rosso. Se avessero scelto la tazza giusta, avrebbero vinto del denaro. Questo gioco d’azzardo è stato ripetuto fino a quando i partecipanti hanno voluto fermarsi.
Per i partecipanti, l’ipotesi nulla intuitiva è che essi hanno una probabilità di un terzo di indovinare la tazza giusta in ogni round del gioco. I partecipanti non sapevano, tuttavia, che nessuna delle tazze nascondeva un pulsante rosso, e che quindi avrebbero perso ogni volta. In altre parole, l’ipotesi nulla intuitiva era falsa. L’obiettivo dell’esperimento era quello di indagare quante volte i partecipanti avrebbero ripetuto il gioco prima di iniziare a sospettare che qualcosa fosse sbagliato, cioè che avrebbero dubitato dell’ipotesi nulla. Più della metà dei partecipanti erano sospettosi dopo sei round di perdite ripetute (p = 0,088) e quasi il 90% dopo otto round (p = 0,039). L’esperimento indica che molte persone sceglieranno naturalmente e intuitivamente un livello di significatività di circa il 5%.