Auteur : Trent Buskirk, PhD.
Comme en histoire, en littérature, en criminologie et dans bien d’autres domaines, le contexte est important en statistique. Savoir d’où proviennent vos données donne des indices sur ce que vous pouvez faire avec ces données et sur les inférences que vous pouvez en tirer.
Dans les échantillons d’enquête, le contexte est essentiel car il vous informe sur la façon dont l’échantillon a été sélectionné et à partir de quelle population il a été sélectionné.
Tout échantillon sélectionné n’est pas un échantillon aléatoire simple, donc le fait de connaître les informations sur le plan d’échantillonnage fournit le contexte nécessaire qui permet aux chercheurs de créer des estimations appropriées et de générer des inférences correctes et projetables.
L’une des toutes premières étapes, donc, pour travailler avec des données d’enquête est de comprendre le plan d’échantillonnage. Il y a quelques concepts clés que vous devez non seulement comprendre en général, mais définir dans votre échantillon afin de fournir le contexte approprié pour calculer des estimations et tirer des inférences.
Le premier est l’unité d’échantillonnage.
C’est l’unité réelle que nous incluons dans notre échantillon. Habituellement, cette unité fait référence à une personne individuelle, mais il peut s’agir d’une entreprise, d’une école ou d’un quartier, selon ce que vous mesurez et la façon dont vous le mesurez.
Mettez maintenant les unités d’échantillonnage dans leur contexte approprié et vous avez le cadre d’échantillonnage qui consiste en une liste de toutes les unités d’échantillonnage possibles.
La population cible fournit le contexte global et représente l’ensemble des personnes, des unités de logement, des écoles, etc. au sujet desquelles on souhaite faire des déductions et des estimations.
Idéalement, le cadre d’échantillonnage coïncide parfaitement avec la population cible. Bien sûr, cet idéal n’est pas toujours possible. Parfois, la base de sondage sera plus ou moins grande, en fonction des moyens pratiques d’entrer en contact avec chaque membre de l’échantillon.
Pourquoi les bases de sondage sont si importantes
Disons que vous réalisez une étude sur les opinions des adultes américains sur les hommes politiques actuels.
Bien sûr, vous n’avez pas les numéros de téléphone de *tous* les adultes américains. Mais vous êtes en mesure d’obtenir un cadre principal de tous les numéros de téléphone cellulaire disponibles, que vous pouvez échantillonner en utilisant la numérotation aléatoire.
La population cible (les adultes américains) sera en grande partie « couverte » par le cadre d’échantillonnage (ceux des banques de téléphones cellulaires).
Cependant, certains numéros de téléphone cellulaire de la banque sont détenus par des enfants, qui ne font pas partie de la population cible.
De même, les adultes qui n’ont qu’un téléphone fixe ou pas de téléphone du tout ne seront pas couverts par cette base de sondage.
Si ces adultes sont différents d’une manière ou d’une autre de ceux qui possèdent un téléphone cellulaire sur les résultats de notre enquête, alors un biais de sélection peut en résulter. Dans ce cas particulier, on parle de biais de couverture.
Il se peut que vous n’ayez pas de meilleure option pour une base de sondage ou que la base ait été décidée par quelqu’un d’autre avant que les données ne soient disponibles pour vous. Dans tous les cas, il est vital que vous sachiez comment l’échantillon a été obtenu et comment la base de sondage peut ne pas avoir couvert toute la population cible.
Connaître ces informations vous permet de dériver des estimations statistiques raisonnables et, ce qui est peut-être plus important, vous permet de faire des déductions qui peuvent être mises dans un contexte approprié.