Nettoyage des données d'enquête : un guide pratique - Blog

Un guide pratique, étape par étape, pour nettoyer les données d'enquête : éliminer les répondants trop rapides, les réponses en ligne droite, les doublons et les mauvaises réponses avant d'analyser.

Chaque jeu de données d'enquête arrive un peu sale. Certains répondants se précipitent sans lire, d'autres cochent la même option sur chaque ligne, certains sont des doublons et d'autres donnent des combinaisons logiquement impossibles. Si vous analysez ces données brutes, vous risquez de tirer des conclusions assurées à partir de rebut. Le nettoyage des données est l'étape peu glorieuse mais essentielle entre la collecte et l'analyse. Ce guide parcourt un flux de travail de nettoyage pratique que vous pouvez appliquer à presque toute enquête.

Pourquoi le nettoyage compte

Le coût des mauvaises données est invisible jusqu'à ce qu'il morde. Une poignée de réponses négligentes ou frauduleuses peut déplacer une moyenne, renverser une comparaison serrée ou inventer une tendance qui n'existe pas. Comme les enseignements d'enquête alimentent souvent de vraies décisions sur le produit, le marketing ou la stratégie, l'intégrité des réponses sous-jacentes importe autant que la sophistication de l'analyse. Le nettoyage est une gestion du risque : il vous protège d'agir sur du bruit.

Le but du nettoyage n'est pas de supprimer les réponses qui vous déplaisent. C'est de retirer les réponses qui échouent à des critères de qualité objectifs que vous fixez à l'avance. Définir ces critères avant de regarder les résultats vous garde honnête et empêche la tentation de modeler les données vers une conclusion préférée.

Éliminer les répondants trop rapides

Les répondants trop rapides sont ceux qui terminent l'enquête bien plus vite qu'il n'est humainement possible s'ils lisaient réellement les questions. L'approche standard consiste à mesurer le temps de complétion et à signaler les réponses en dessous d'un seuil raisonnable. Une règle empirique courante est d'estimer le temps de complétion médian, puis de traiter comme suspectes les réponses terminées en moins d'environ un tiers à la moitié de cette médiane. Quelqu'un qui termine une enquête de dix minutes en quatre-vingt-dix secondes a presque certainement cliqué sans lire.

Capturez les données de temps automatiquement au niveau de la plateforme plutôt que d'essayer de les reconstituer ensuite. Attention à ne pas trop élaguer : un répondant réellement rapide mais attentif existe aussi, alors combinez l'indicateur de rapidité avec d'autres signaux de qualité avant de retirer quiconque. Utilisez la rapidité comme une voix dans une décision multicritère, et non comme une guillotine unique.

Repérer les réponses en ligne droite

La réponse en ligne droite se produit lorsqu'un répondant sélectionne la même réponse pour chaque item d'une grille ou d'une matrice, par exemple en choisissant « tout à fait d'accord » sur toute une longue batterie d'affirmations. C'est un signe révélateur de désengagement. Pour la détecter, cherchez une variance nulle ou quasi nulle sur un ensemble d'items qui devraient naturellement produire une certaine variation. Si un répondant a donné une réponse identique à vingt affirmations, y compris des formulations inversées, il ne lisait presque certainement pas.

Les items formulés à l'inverse sont une astuce de conception utile ici. Si vous incluez une affirmation formulée dans le sens opposé et qu'un répondant est d'accord à la fois avec une affirmation positive et sa négation, cette contradiction révèle une réponse inattentive. Intégrer quelques items de ce type dans vos questions matricielles rend les réponses en ligne droite bien plus faciles à repérer.

Contrôles d'attention et questions pièges

Les contrôles d'attention sont des questions insérées spécifiquement pour vérifier que les répondants lisent. La forme classique est un item à réponse imposée comme « Pour montrer que vous êtes attentif, veuillez sélectionner "Plutôt en désaccord" pour cette question. » Les répondants qui répondent autre chose ont échoué au contrôle. Utilisez-les avec parcimonie, car en abuser peut agacer les participants honnêtes et même introduire son propre biais, mais un ou deux dans une longue enquête constituent une sauvegarde raisonnable.

Associez les contrôles d'attention à des contrôles de cohérence logique. Si quelqu'un dit n'avoir jamais utilisé votre produit puis note sa fonctionnalité la plus récente, ces réponses se contredisent et la réponse mérite un examen. Concevoir ces contrôles est plus facile quand vous partez d'un instrument éprouvé ; notre modèle d'enquête d'étude de marché vous offre une structure propre à laquelle ajouter des contrôles de qualité.

Doublons et robots

Les réponses en double surviennent lorsqu'une même personne soumet plus d'une fois, que ce soit par accident, en rafraîchissant ou pour tricher sur une incitation. Détectez-les à l'aide d'identifiants que vous pouvez collecter de manière éthique, comme un identifiant de répondant, un e-mail le cas échéant ou une déduplication au niveau de la plateforme. Soyez prudent avec les signaux techniques comme les adresses IP, car des réseaux partagés peuvent produire des faux positifs, mais un groupe de réponses identiques provenant d'une seule source mérite un examen plus attentif.

Les soumissions automatisées par des robots sont une préoccupation croissante pour les enquêtes ouvertes ou incitées. Le texte libre est souvent le meilleur détecteur de robots : des réponses en texte libre absurdes, copiées-collées ou hors sujet révèlent des réponses non humaines ou frauduleuses que les questions fermées masquent. Lire un échantillon de verbatims est une étape de nettoyage rapide et à forte valeur.

Gérer les données manquantes et incohérentes

Toutes les réponses imparfaites ne doivent pas être supprimées. Certains répondants sautent simplement les questions facultatives, laissant des lacunes que vous devez décider comment traiter. L'approche la plus simple consiste à exclure les réponses incomplètes des analyses qui ont besoin de ces champs précis tout en les conservant pour les analyses qui n'en ont pas besoin, ce qui préserve autant de données exploitables que possible. Des approches plus avancées imputent les valeurs manquantes, mais l'imputation introduit des hypothèses et doit être utilisée avec prudence et transparence.

Les valeurs incohérentes ou hors plage, comme un âge de 200 ans ou une date dans le futur, doivent être corrigées lorsque la valeur voulue est évidente, et signalées ou supprimées lorsqu'elle ne l'est pas. Normalisez aussi les formats, afin que « USA », « U.S. » et « United States » soient traités comme une même catégorie avant de tabuler. Ce type de normalisation empêche qu'un seul véritable groupe soit fractionné entre plusieurs variantes orthographiques.

Documenter vos décisions

Le nettoyage implique du jugement, et le jugement doit être auditable. Gardez une trace de chaque règle que vous avez appliquée, du nombre de réponses que chaque règle a retirées et du nombre restant. Ce journal de nettoyage permet à d'autres de reproduire votre jeu de données, défend votre analyse quand quelqu'un conteste un résultat et vous aide à affiner vos critères pour de futures études. Indiquez la taille finale de votre échantillon exploitable à côté du nombre collecté à l'origine afin que les lecteurs comprennent la base de vos chiffres. Les équipes qui mènent des études fréquentes peuvent codifier ces règles une fois et les réutiliser d'un projet à l'autre grâce aux modèles pour équipes de recherche, et les associer à une enquête d'étude de marché standard pour que le nettoyage soit cohérent à chaque vague.

L'approche la plus défendable est de décider vos règles et seuils de nettoyage avant l'arrivée des données, puis de les appliquer mécaniquement. Fixer les critères à l'avance supprime la tentation de garder les réponses qui soutiennent votre hypothèse et d'écarter celles qui ne la soutiennent pas, ce qui est une source de biais subtile mais réelle. Lorsque c'est possible, préférez le signalement à la suppression : ajoutez une colonne de qualité qui marque chaque réponse comme propre ou suspecte, afin de pouvoir exécuter votre analyse avec et sans les cas signalés et de voir si vos conclusions tiennent dans les deux cas. Si le constat principal survit aux deux versions, vous pouvez le rapporter avec confiance ; s'il dépend entièrement de réponses douteuses, il est crucial de le savoir avant de le présenter. Traitez le nettoyage comme une capacité continue plutôt que comme une corvée ponctuelle. Après chaque étude, examinez quelles règles ont attrapé le plus de problèmes et si des réponses honnêtes ont été retirées à tort, puis ajustez vos seuils pour la fois suivante. Une équipe qui investit dans un processus de nettoyage documenté et reproductible dépense moins d'effort par étude et produit des résultats qui résistent à l'examen, ce qui, en fin de compte, permet aux parties prenantes de faire assez confiance aux données pour agir dessus.

Foire aux questions

Quelle quantité de données est-il normal de retirer lors du nettoyage ? Cela varie largement selon la source et la longueur de l'enquête. Les échantillons de panels et incités nécessitent souvent plus de nettoyage que les listes de clients engagés. Il n'y a pas de pourcentage fixe ; ce qui compte, c'est d'appliquer des règles cohérentes, définies à l'avance, et de documenter le résultat.

Dois-je nettoyer les données avant ou après l'analyse ? Avant. Le nettoyage est une étape préalable à l'analyse. Analyser d'abord et retirer des réponses ensuite invite le biais, car vous pourriez être tenté d'écarter les réponses qui contredisent le résultat que vous voulez.

Quelle est la différence entre un répondant trop rapide et une réponse en ligne droite ? Un répondant trop rapide termine l'enquête de façon suspecte, signalé par le temps de complétion. Une réponse en ligne droite sélectionne la même réponse à répétition sans égard au contenu, signalée par l'absence de variance. Une réponse peut être les deux, et chacune se détecte différemment.

Les contrôles d'attention sont-ils toujours nécessaires ? Pas toujours. Pour de courtes enquêtes destinées à des publics très engagés, ils peuvent être superflus. Pour de longues enquêtes ou des panels rémunérés, un ou deux contrôles d'attention améliorent sensiblement la qualité des données sans surcharger les répondants.

Collectez des données plus propres dès le départ. Créez des enquêtes avec des contrôles de qualité intégrés. Créez votre compte gratuit ou parcourez nos modèles pour commencer.

Formulaire de commande

Formulaire de réservation

Enquête de feedback pour startup

Enquête d'évaluation des fournisseurs

Enquête de satisfaction des clients

Formulaire d'intégration des fournisseurs

Retour des donateurs (association)

Enquête acheteur immobilier

Satisfaction service bancaire

Enquête sur le conseiller financier

Enquête sur la perception de la marque d'entreprise

Retour d'expérience sur le service professionnel

Retour des partenaires commerciaux

Enquête sur le leadership

Enquête sur l'efficacité des réunions

Enquête de satisfaction du support informatique

Retour d'expérience d'achat

Enquête sur l'expérience client

Enquête de satisfaction client

Formulaire de feedback client

Enquête de fidélisation client

Enquête de satisfaction client restaurant

Enquête de satisfaction des clients de l'hôtel

Enquête Net Promoter Score (NPS)

Enquête Customer Effort Score (CES)

Enquête de satisfaction du café

Enquête de sortie de magasin

Avis sur le paiement en ligne

Enquête sur l'expérience de livraison

Enquête d'annulation d'abonnement

Enquête d'intégration client

Retour restaurant

Expérience client hôtel

Enquête post-achat e-commerce

Retour de voyage

Enquête sur l'expérience de restauration rapide

Enquête sur l'expérience à l'aéroport

Enquête sur le covoiturage

Enquête de satisfaction client en assurance

Enquête sur la demande de prêt

Enquête sur l'expérience du centre d'appels

Avis sur le support par chat en direct

Enquête sur la box par abonnement

Enquête d'évaluation de cours

Enquête de feedback étudiant

Enquête d'évaluation des enseignants

Enquête de satisfaction des parents d'élèves

Enquête sur l'expérience des étudiants universitaires

Enquête de retour sur le cours en ligne

Formulaire d'évaluation de l'atelier

Enquête sur les services de la bibliothèque

Enquête sur les installations du campus

Enquête auprès des anciens élèves

Retour sur la plateforme d'apprentissage en ligne

Formulaire d'inscription aux cours

Enquête sur le bien-être des étudiants

Retour sur la réunion parents-enseignants

Enquête de retour sur le tutorat

Enquête sur le climat scolaire

Formulaire de demande de bourse

Retour cours en ligne

Enquête sur le bootcamp

Formulaire d'inscription des étudiants

Enquête auprès du corps enseignant

Enquête sur les repas scolaires

Formulaire d'autorisation de sortie scolaire

Enquête sur la préparation à l'apprentissage à distance

Formulaire d'inscription à la maternelle

Enquête d'intérêt pour les études à l'étranger

Enquête de fin de MOOC

Enquête sur l'expérience de l'événement

Enquête de planification d'événements

Enquête de planification de réunion

Enquête de retour sur la conférence

Formulaire de confirmation de mariage

Enquête de retour sur le webinaire

Formulaire de prospects pour salon professionnel

Formulaire d'inscription à l'événement

Enquête de planification de fête

Enquête sur l'expérience du festival