¿Por qué exactamente 0,05?
El mérito de la elección de un nivel de significación del 5% se atribuye al estadístico Ronald A. Fisher (1890 – 1962). Fisher fue uno de los fundadores de la metodología de investigación y el análisis estadístico modernos. Sus métodos se desarrollaron para su uso en la investigación agrícola y la genética, y desde entonces se han aplicado en varias disciplinas. Se le conoce sobre todo por haber desarrollado el análisis de la varianza y los estudios aleatorios (2).
En 1925 publicó el libro Statistical methods for research workers (Métodos estadísticos para investigadores), en el que escribe que un nivel de significación del 5 % es una opción adecuada (3): «El valor para el que P = 0,05, o 1 en 20, …; es conveniente tomar este punto como límite para juzgar si una desviación debe considerarse significativa o no» (3, p. 45).
Podemos quedarnos con la impresión de que un valor p de ≤ 0,05 y la importancia de este valor en la investigación posterior pueden haber sido causados por Ronald A. Fisher al elegir un nivel de significación del 5 % más o menos al azar. Si en su lugar hubiera elegido el 2 %, el 7 % o el 10 %, ¿la investigación médica y la práctica clínica habrían sido diferentes hoy en día? ¿Es cierto que los resultados y las conclusiones de gran parte de la investigación médica dependen de qué número tenía en mente un estadístico hace casi cien años?
Aunque Ronald A. Fisher ha tenido sin duda un gran impacto en el desarrollo de los métodos de ensayo y de la estadística, sería simplista asignarle todo el mérito (o la culpa) por esta elección del 5 %. Tampoco es correcto que eligiera este nivel totalmente al azar; otros estadísticos estaban utilizando valores similares (4).
Cowles & Davis (5) investigó por qué Fisher eligió el 5 % como nivel de significación. Creen que sólo utilizó lo que ya era un concepto establecido. Karl Pearson (1857 – 1936), otro de los fundadores de la estadística moderna, desarrolló métodos para evaluar la adecuación de los datos a una distribución de probabilidad matemática, lo que forma parte de la base de la prueba de chi-cuadrado de las tabulaciones cruzadas, de uso frecuente. Afirmó que con una probabilidad del 10 % (es decir, p = 0,1) no es improbable que los datos observados sean aleatorios, y además que con una probabilidad del 1 % (es decir, p = 0,01) es muy improbable que los datos observados puedan deberse a variaciones aleatorias. Un punto adecuado entre estos extremos es el 5 %. William Gosset (1876 – 1937), que desarrolló la prueba t, también sugirió el 5 % como elección natural del nivel de significación, aunque lo expresó en otros términos estadístico-matemáticos (4, 5).
¿Hay algo especial en una probabilidad del 5 %? Inspirándose en sus investigaciones históricas sobre los niveles de significación recomendados, Cowles y Davis exploraron si existe un nivel de significación intuitivo y natural (6). ¿Con qué frecuencia debe ocurrir un acontecimiento en relación con lo que se espera para que reconozcamos que la suposición original, es decir, la hipótesis nula, no es cierta? Ofrecen un ejemplo sencillo. Usted y su colega lanzan una moneda para determinar quién comprará el café para el almuerzo, pero día tras día siguen perdiendo. ¿Cuántos días estará dispuesto a seguir comprando café a su colega antes de empezar a sospechar que sus pérdidas no son casuales? Supongo que muchos estarán dispuestos a aceptarlo durante cuatro (p = 0,0625) o cinco (p = 0,03125) días, pero creo que pocos aceptarían que sólo se trata de una coincidencia si pierden diez días seguidos y tienen que pagar el café (p < 0,001).
Para investigar esto de forma sistemática, desarrollaron un experimento psicológico (6). Los voluntarios participaron en un juego de apuestas. Se colocaron tres vasos delante de ellos y se les dijo que uno de ellos ocultaba un pequeño botón rojo. Si elegían la taza correcta, ganarían algo de dinero. Esta apuesta se repitió hasta que los participantes quisieron parar.
Para los participantes, la hipótesis nula intuitiva es que tienen una probabilidad de un tercio para adivinar la taza correcta en cada ronda del juego. Sin embargo, los participantes desconocían que ninguna de las copas ocultaba un botón rojo y que, por tanto, perderían todas las veces. En otras palabras, la hipótesis nula intuitiva era falsa. El objetivo del experimento era investigar cuántas veces repetirían los participantes el juego antes de empezar a sospechar que algo iba mal, es decir, que dudarían de la hipótesis nula. Más de la mitad de los participantes sospechaban después de seis rondas de pérdidas repetidas (p = 0,088) y casi el 90% después de ocho rondas (p = 0,039). El experimento indica que muchas personas elegirán de forma natural e intuitiva un nivel de significación de aproximadamente el 5 %.