Comment calculer la taille d'un échantillon de sondage - Blog

Q: Pourquoi utiliser p = 0,5 quand je ne connais pas la répartition ?

Parce que p fois (1 - p) est maximal à p = 0,5, son utilisation produit l'échantillon le plus grand et le plus sûr. Si vous vous attendez réellement à une répartition déséquilibrée, une valeur comme 0,2 ou 0,8 abaisse l'échantillon requis.

Apprenez à calculer la taille d'un échantillon de sondage étape par étape - comprenez le niveau de confiance, la marge d'erreur et la taille de la population, avec la formule et des exemples résolus.

« Combien de personnes dois-je interroger ? » est l'une des questions de recherche les plus courantes - et l'une des plus mal comprises. La bonne taille d'échantillon n'est pas un pourcentage fixe de votre audience ; elle dépend du degré de précision et de confiance dont vous avez besoin pour vos résultats. Ce guide parcourt les concepts sous-jacents, la formule proprement dite et des exemples résolus afin que vous puissiez calculer une taille d'échantillon défendable pour n'importe quel sondage.

Pourquoi la taille de l'échantillon compte

Vous interrogez un échantillon parce qu'interroger tout le monde est généralement irréalisable. Mais un échantillon ne fait qu'approcher la vérité, et l'ampleur de cette erreur d'approximation dépend du nombre de personnes que vous interrogez. Trop peu de réponses et vos résultats sont trop bruités pour être exploitables ; trop nombreuses et vous gaspillez temps et argent pour une précision dont vous n'avez pas besoin. Calculer délibérément la taille de l'échantillon vous donne exactement la confiance qu'exige votre décision - ni plus, ni moins.

Point crucial : ce qui compte statistiquement, c'est le nombre absolu de réponses, et non la fraction de votre population. Interroger 384 personnes offre à peu près la même précision que votre population soit de 20 000 ou de 20 millions. Ce fait contre-intuitif explique pourquoi des sondages nationaux portant sur quelques milliers de personnes peuvent décrire des pays entiers, et pourquoi une règle du type « interroger 10 % de mes utilisateurs » n'a aucun sens statistique - elle exigerait des échantillons absurdement grands pour les grandes populations et dangereusement petits pour les toutes petites.

Il est utile de séparer deux idées que les débutants confondent souvent. La taille de l'échantillon détermine la précision de votre estimation - la dispersion aléatoire autour de la valeur réelle. Elle ne contrôle pas le biais, qui est une distorsion systématique due à un cadre défectueux ou à une non-réponse sélective. Un échantillon de 50 000 tiré d'un cadre biaisé n'est qu'une mesure très précise de la mauvaise chose. Calculer correctement la taille de l'échantillon est nécessaire, mais cela ne vous achète que de la précision ; la représentativité provient d'un bon échantillonnage et de taux de réponse élevés. Gardez cette distinction à l'esprit en travaillant la formule ci-dessous.

Les trois paramètres : confiance, marge, population

Le niveau de confiance exprime à quel point vous voulez être sûr que la valeur réelle de la population se situe dans la fourchette que vous indiquez. Les choix courants sont 90 %, 95 % et 99 %. Un niveau de confiance de 95 % signifie que si vous répétiez le sondage de nombreuses fois, environ 95 % des intervalles de confiance obtenus contiendraient la valeur réelle. Chaque niveau de confiance correspond à un score z : 1,645 pour 90 %, 1,96 pour 95 % et 2,576 pour 99 %.

La marge d'erreur (aussi appelée intervalle de confiance) est la précision de votre estimation, exprimée en plus ou moins un pourcentage. Si 60 % des répondants choisissent une option avec une marge d'erreur de 5 %, la valeur réelle de la population se situe probablement entre 55 % et 65 %. Des marges plus étroites exigent des échantillons plus grands.

La taille de la population est le nombre total de personnes dans le groupe que vous étudiez. Elle n'affecte le calcul de manière significative que pour les petites populations finies ; pour les grandes populations, son influence est négligeable, raison pour laquelle de nombreux calculateurs l'ignorent dès que la population dépasse environ 20 000.

Un quatrième paramètre, caché, est la proportion de la population (p) - la répartition attendue des réponses. Lorsque vous ne la connaissez pas, utilisez 0,5 (une répartition 50/50), car cela produit le plus grand échantillon requis et donc l'estimation la plus prudente et la plus sûre.

La formule de la taille d'échantillon

Pour une population grande ou inconnue, la taille d'échantillon requise est :

n = (z² × p × (1 - p)) / e²

où z est le score z de votre niveau de confiance, p la proportion attendue et e la marge d'erreur en décimale. Pour une population finie de taille N, appliquez la correction pour population finie :

n_adjusted = n / (1 + ((n - 1) / N))

La correction réduit toujours l'échantillon requis, et la réduction n'est importante que lorsque la population est petite par rapport à n.

Exemples résolus

Exemple 1 - grande population. Vous voulez un niveau de confiance de 95 % et une marge d'erreur de 5 %, avec une répartition inconnue donc p = 0,5. Alors z = 1,96, donc n = (1,96² × 0,5 × 0,5) / 0,05² = (3,8416 × 0,25) / 0,0025 = 0,9604 / 0,0025 = 384,16. Il vous faut environ 385 réponses complètes. C'est le fameux chiffre « 384 » qui sous-tend de nombreux sondages nationaux.

Exemple 2 - précision accrue. Conservez 95 % de confiance mais exigez une marge d'erreur de 3 %. Désormais n = (3,8416 × 0,25) / 0,03² = 0,9604 / 0,0009 = 1067,1, il vous faut donc environ 1 068 réponses. Diviser la marge par deux quadruple grosso modo l'échantillon - la précision coûte cher.

Exemple 3 - population finie. Supposons que vous n'ayez que 2 000 clients et souhaitiez la précision de l'exemple 1 (n = 385 avant correction). Appliquez la correction : n_adjusted = 385 / (1 + (384 / 2000)) = 385 / 1,192 = 323. Il vous faut environ 323 réponses parmi vos 2 000 clients. C'est courant pour un sondage NPS ciblé envoyé à une base de clients existante.

Ajuster en fonction du taux de réponse

Les chiffres ci-dessus correspondent à des réponses complètes, et non à des invitations. Si vous prévoyez un taux de réponse de 20 %, divisez l'objectif par 0,20 pour trouver combien de personnes inviter. Pour 385 réponses complètes à un taux de 20 %, vous devez inviter 385 / 0,20 = 1 925 personnes. Les taux de réponse réalistes varient largement - les sondages par e-mail auprès de clients engagés peuvent atteindre 20 à 40 %, tandis que la prospection à froid tombe souvent en dessous de 5 % - alors confirmez toujours votre taux historique avant de vous engager sur la taille d'une liste. Envoyer des rappels et garder le sondage court sont les moyens les plus fiables d'augmenter le taux d'achèvement.

Erreurs courantes à éviter

Premièrement, ne confondez pas la taille de l'échantillon avec le nombre de réponses nécessaire pour les sous-groupes : si vous prévoyez d'analyser des segments séparément, chaque segment a besoin de son propre échantillon adéquat, ce qui peut multiplier votre total. Deuxièmement, ne supposez pas qu'un échantillon plus grand corrige le biais - la taille de l'échantillon ne traite que l'erreur d'échantillonnage aléatoire, pas le biais systématique d'un cadre défectueux ou de la non-réponse. Troisièmement, évitez les règles empiriques du type « pourcentage de la population » comme « interroger 10 % » ; elles suréchantillonnent les grandes populations et sous-échantillonnent les petites. Enfin, rappelez-vous qu'un échantillon énorme peut produire des différences statistiquement significatives trop faibles pour compter en pratique ; jugez toujours les tailles d'effet, pas seulement la signification.

Lorsque vous étudiez un segment de marché défini - par exemple un sondage d'étude de marché visant les startups SaaS - décidez de vos découpages en sous-groupes avant le terrain afin de pouvoir dimensionner chacun correctement. Une habitude de planification utile consiste à noter, avant le lancement, chaque comparaison que vous comptez faire dans le rapport final : « gratuit contre payant », « nouveaux contre anciens », « région A contre région B ». Chacune de ces comparaisons implique deux sous-groupes qui ont chacun besoin d'un échantillon adéquat. Si vous découvrez au moment de la planification qu'un segment petit mais important ne fournira que 40 réponses, vous pouvez le suréchantillonner délibérément plutôt que de vous retrouver incapable d'en dire quoi que ce soit.

Il est également judicieux de prévoir un budget pour le nettoyage des données. Toutes les réponses soumises ne sont pas exploitables : certains répondants cochent en ligne droite dans une grille, d'autres échouent aux contrôles d'attention, d'autres abandonnent à mi-parcours. Si vous prévoyez d'écarter, disons, 10 % des réponses complètes jugées de faible qualité, gonflez votre objectif d'autant afin que votre échantillon propre atteigne toujours la précision que vous avez calculée. Combiner l'ajustement du taux de réponse avec une marge de nettoyage vous donne une liste d'invitations réaliste plutôt qu'une liste optimiste qui vous laisse à court une fois les données arrivées.

Questions fréquentes

De combien de réponses ai-je besoin pour être statistiquement valide ? Pour la plupart des études à 95 % de confiance et 5 % de marge d'erreur, environ 385 réponses complètes suffisent lorsque la population est grande. Des marges plus étroites ou une analyse de sous-groupes en exigent davantage.

La taille de la population n'a-t-elle vraiment pas d'importance ? Pour les grandes populations, cela importe à peine - 385 réponses offrent à peu près la même précision que la population soit de 50 000 ou de 5 millions. La taille de la population ne modifie le résultat de façon significative que pour de petits groupes finis, où la correction pour population finie réduit l'échantillon requis.

Quel niveau de confiance et quelle marge d'erreur utiliser ? Un niveau de confiance de 95 % avec une marge d'erreur de 5 % est la valeur par défaut standard pour les sondages en entreprise. N'utilisez 99 % de confiance ou 3 % de marge que lorsqu'une décision à fort enjeu justifie l'échantillon nettement plus grand.

Pourquoi utiliser p = 0,5 quand je ne connais pas la répartition ? Parce que p × (1 - p) est maximal à p = 0,5, son utilisation produit l'échantillon le plus grand et le plus sûr. Si vous vous attendez réellement à une répartition déséquilibrée, une valeur comme 0,2 ou 0,8 abaisse l'échantillon requis.

Oubliez les calculs sur tableur. Créez votre sondage dans SurveyMaker et suivez en temps réel les réponses complètes par rapport à votre objectif.

Commencez gratuitement ou utilisez un modèle d'étude de marché prêt à l'emploi.

Formulaire de commande

Formulaire de réservation

Enquête de feedback pour startup

Enquête d'évaluation des fournisseurs

Enquête de satisfaction des clients

Formulaire d'intégration des fournisseurs

Retour des donateurs (association)

Enquête acheteur immobilier

Satisfaction service bancaire

Enquête sur le conseiller financier

Enquête sur la perception de la marque d'entreprise

Retour d'expérience sur le service professionnel

Retour des partenaires commerciaux

Enquête sur le leadership

Enquête sur l'efficacité des réunions

Enquête de satisfaction du support informatique

Retour d'expérience d'achat

Enquête sur l'expérience client

Enquête de satisfaction client

Formulaire de feedback client

Enquête de fidélisation client

Enquête de satisfaction client restaurant

Enquête de satisfaction des clients de l'hôtel

Enquête Net Promoter Score (NPS)

Enquête Customer Effort Score (CES)

Enquête de satisfaction du café

Enquête de sortie de magasin

Avis sur le paiement en ligne

Enquête sur l'expérience de livraison

Enquête d'annulation d'abonnement

Enquête d'intégration client

Retour restaurant

Expérience client hôtel

Enquête post-achat e-commerce

Retour de voyage

Enquête sur l'expérience de restauration rapide

Enquête sur l'expérience à l'aéroport

Enquête sur le covoiturage

Enquête de satisfaction client en assurance

Enquête sur la demande de prêt

Enquête sur l'expérience du centre d'appels

Avis sur le support par chat en direct

Enquête sur la box par abonnement

Enquête d'évaluation de cours

Enquête de feedback étudiant

Enquête d'évaluation des enseignants

Enquête de satisfaction des parents d'élèves

Enquête sur l'expérience des étudiants universitaires

Enquête de retour sur le cours en ligne

Formulaire d'évaluation de l'atelier

Enquête sur les services de la bibliothèque

Enquête sur les installations du campus

Enquête auprès des anciens élèves

Retour sur la plateforme d'apprentissage en ligne

Formulaire d'inscription aux cours

Enquête sur le bien-être des étudiants

Retour sur la réunion parents-enseignants

Enquête de retour sur le tutorat

Enquête sur le climat scolaire

Formulaire de demande de bourse

Retour cours en ligne

Enquête sur le bootcamp

Formulaire d'inscription des étudiants

Enquête auprès du corps enseignant

Enquête sur les repas scolaires

Formulaire d'autorisation de sortie scolaire

Enquête sur la préparation à l'apprentissage à distance

Formulaire d'inscription à la maternelle

Enquête d'intérêt pour les études à l'étranger

Enquête de fin de MOOC

Enquête sur l'expérience de l'événement

Enquête de planification d'événements

Enquête de planification de réunion

Enquête de retour sur la conférence

Formulaire de confirmation de mariage

Enquête de retour sur le webinaire

Formulaire de prospects pour salon professionnel

Formulaire d'inscription à l'événement

Enquête de planification de fête

Enquête sur l'expérience du festival