Pourquoi exactement 0,05?
Le mérite du choix d’un niveau de signification de 5 % est attribué au statisticien Ronald A. Fisher (1890 – 1962). Fisher est l’un des fondateurs de la méthodologie de recherche moderne et de l’analyse statistique. Ses méthodes ont été développées pour être utilisées dans la recherche agricole et la génétique, et ont depuis été appliquées dans un certain nombre de disciplines. Il est surtout connu pour avoir développé l’analyse de la variance et les études randomisées (2).
En 1925, il publie le livre Statistical methods for research workers, dans lequel il écrit qu’un niveau de signification de 5 % est un choix approprié (3) : » La valeur pour laquelle P = 0,05, ou 1 sur 20, … ; il est commode de prendre ce point comme limite pour juger si un écart doit être considéré comme significatif ou non » (3, p. 45).
On peut avoir l’impression que la valeur p de ≤ 0,05 et l’importance de cette valeur dans les recherches ultérieures ont pu être causées par Ronald A. Fisher choisissant un niveau de signification de 5 % plus ou moins au hasard. S’il avait plutôt choisi 2 %, 7 % ou 10 %, la recherche médicale et la pratique clinique auraient-elles été différentes aujourd’hui ? Est-il vrai que les résultats et les conclusions de grandes parties de la recherche médicale dépendent du chiffre qu’un statisticien avait en tête il y a près de cent ans ?
Bien que Ronald A. Fisher ait sans aucun doute eu un grand impact sur le développement des méthodes d’essai et des statistiques, il serait simpliste de lui attribuer tout le mérite (ou le blâme) de ce choix de 5 %. Il n’est pas non plus exact qu’il ait choisi ce niveau entièrement au hasard ; d’autres statisticiens utilisaient des valeurs similaires (4).
Cowles & Davis (5) ont cherché à savoir pourquoi Fisher avait choisi 5 % comme niveau de signification. Ils pensent qu’il ne faisait qu’utiliser ce qui était déjà un concept établi. Karl Pearson (1857 – 1936), autre fondateur de la statistique moderne, a mis au point des méthodes permettant d’évaluer dans quelle mesure les données correspondent à une distribution de probabilité mathématique, ce qui constitue en partie la base du test du chi-deux fréquemment utilisé pour les tableaux croisés. Il a affirmé qu’avec une probabilité de 10 % (c’est-à-dire p = 0,1), il n’est pas improbable que les données observées soient aléatoires, et qu’avec une probabilité de 1 % (c’est-à-dire p = 0,01), il est très improbable que les données observées soient dues à des variations aléatoires. Un point approprié entre ces deux extrêmes est 5 %. William Gosset (1876 – 1937), qui a développé le test t, a également suggéré 5 % comme un choix naturel de niveau de signification, bien qu’il l’ait exprimé dans d’autres termes statistiques-mathématiques (4, 5).
Y a-t-il quelque chose de spécial dans une probabilité de 5 % ? Inspirés par leurs recherches historiques sur les niveaux de signification recommandés, Cowles et Davis ont cherché à savoir s’il existe un niveau de signification intuitif et naturel (6). Combien de fois un événement doit-il se produire par rapport à ce qui est attendu avant que nous reconnaissions que l’hypothèse initiale, c’est-à-dire l’hypothèse nulle, est fausse ? Ils fournissent un exemple simple. Vous et votre collègue tirez à pile ou face pour déterminer qui achètera le café pour le déjeuner, mais jour après jour, vous continuez à perdre. Combien de jours serez-vous prêt à continuer à payer le café de votre collègue avant de commencer à soupçonner que vos pertes ne sont pas une coïncidence ? Je suppose que beaucoup seront prêts à l’accepter pendant quatre (p = 0,0625) ou cinq (p = 0,03125) jours, mais je crois que peu d’entre eux accepteront que seule la coïncidence soit en cause s’ils perdent dix jours de suite et doivent payer le café (p < 0,001).
Pour étudier cela de manière systématique, ils ont mis au point une expérience psychologique (6). Des volontaires ont participé à un jeu de hasard. Trois gobelets étaient placés devant eux, et on leur a dit que l’un d’eux cachait un petit bouton rouge. S’ils choisissaient la bonne tasse, ils gagnaient de l’argent. Ce pari a été répété jusqu’à ce que les participants veuillent arrêter.
Pour les participants, l’hypothèse nulle intuitive est qu’ils ont une probabilité d’un tiers de deviner la bonne tasse à chaque tour de jeu. Les participants ignoraient cependant qu’aucun des gobelets ne cachait un bouton rouge, et qu’ils perdaient donc à chaque fois. En d’autres termes, l’hypothèse nulle intuitive était fausse. L’objectif de l’expérience était de déterminer combien de fois les participants devaient répéter le jeu avant de commencer à soupçonner que quelque chose n’allait pas, c’est-à-dire qu’ils devaient douter de l’hypothèse nulle. Plus de la moitié des participants étaient méfiants après six tours de pertes répétées (p = 0,088) et près de 90 % après huit tours (p = 0,039). L’expérience indique que de nombreuses personnes choisiront naturellement et intuitivement un niveau de signification d’environ 5 %.