Porquê exactamente 0,05?
Crédito para a escolha de um nível de significância de 5% é atribuído ao estatístico Ronald A. Fisher (1890 – 1962). Fisher foi um dos fundadores da moderna metodologia de investigação e análise estatística. Os seus métodos foram desenvolvidos para utilização na investigação agrícola e genética, e têm sido desde então aplicados em várias disciplinas. É mais conhecido por desenvolver análises de variância e estudos randomizados (2).
Em 1925 publicou o livro Métodos estatísticos para investigadores, no qual escreve que um nível de significância de 5% é uma escolha apropriada (3): “O valor para o qual P = .05, ou 1 em 20, …; é conveniente tomar este ponto como limite para julgar se um desvio deve ser considerado significativo ou não” (3, p. 45).
p>Podemos ficar com a impressão de que um valor p de ≤ 0,05 e a importância deste valor em pesquisas posteriores pode ter sido causado por Ronald A. Fisher escolhendo ao acaso um nível de significância de 5% mais ou menos. Se ele tivesse escolhido 2 %, 7 % ou 10 % em vez disso, será que a investigação médica e a prática clínica teriam sido diferentes hoje em dia? É verdade que os resultados e conclusões de grandes partes da investigação médica dependem do número que um estaticista tinha em mente há quase cem anos atrás?
P>Embora Ronald A. Fisher tenha sem dúvida tido um grande impacto no desenvolvimento de métodos e estatísticas de ensaio, seria simplista atribuir-lhe todo o crédito (ou culpa) por esta escolha de 5%. Nem é correcto que ele tenha escolhido este nível inteiramente ao acaso; outros estatísticos estavam a utilizar valores semelhantes (4).
Cowles & Davis (5) investigou porque é que Fisher escolheu 5% como nível de significância. Eles acreditam que ele estava apenas a utilizar o que já era um conceito estabelecido. Karl Pearson (1857 – 1936), outro fundador da estatística moderna, desenvolveu métodos para avaliar a adequação dos dados a uma distribuição matemática de probabilidades, que faz parte da base para o teste qui-quadrado frequentemente utilizado das tabulações cruzadas. Afirmou que com uma probabilidade de 10% (i.e. p = 0,1) não é improvável que os dados observados sejam aleatórios, e ainda que com uma probabilidade de 1% (i.e. p = 0,01) é altamente improvável que os dados observados possam ser devidos a variações aleatórias. Um ponto adequado entre estes extremos é 5 %. William Gosset (1876 – 1937), que desenvolveu o teste t, também sugeriu 5% como uma escolha natural de nível de significância, embora tenha expressado isto em outros termos estatísticos-matemáticos (4, 5).
Existe algo de especial numa probabilidade de 5%? Inspirados pelas suas investigações históricas dos níveis de significância recomendados, Cowles e Davis exploraram se existe um nível de significância natural e intuitivo (6). Quão raramente um evento deve ocorrer em relação ao que é esperado antes de reconhecermos que a hipótese original, ou seja, a hipótese nula, não é verdadeira? Eles fornecem um exemplo simples. Você e o seu colega atiram uma moeda ao ar para determinar quem vai comprar café para o almoço, mas dia após dia continuam a perder. Quantos dias estará preparado para continuar a comprar café para o seu colega antes de começar a suspeitar que as suas perdas não são coincidentes? Presumo que muitos estarão preparados para aceitar isto durante quatro (p = 0,0625) ou cinco (p = 0,03125) dias, mas creio que poucos aceitarão que só há coincidência se perderem dez dias seguidos e tiverem de pagar pelo café (p < 0,001).
Para investigar isto sistematicamente, desenvolveram uma experiência psicológica (6). Os voluntários participaram num jogo de jogo. Três copos foram colocados à sua frente, e foi-lhes dito que um deles escondeu um pequeno botão vermelho. Se escolhessem a taça certa, ganhariam algum dinheiro. Este jogo foi repetido até os participantes quererem parar.
Para os participantes, a hipótese nula intuitiva é que eles têm uma probabilidade de um terço para adivinhar a taça correcta em cada rodada do jogo. Os participantes desconheciam, contudo, que nenhuma das taças ocultava um botão vermelho, e que, portanto, perderiam sempre. Por outras palavras, a hipótese intuitiva de nulidade era falsa. O objectivo da experiência era investigar quantas vezes os participantes repetiriam o jogo antes de começarem a suspeitar que algo estava errado, o que significava que duvidariam da hipótese nula. Mais de metade dos participantes suspeitaram após seis rondas de perdas repetidas (p = 0,088) e quase 90% após oito rondas (p = 0,039). A experiência indica que muitas pessoas escolherão natural e intuitivamente um nível de significância de aproximadamente 5%.