Un guide pratique, étape par étape, pour nettoyer les données d'enquête : éliminer les répondants trop rapides, les réponses en ligne droite, les doublons et les mauvaises réponses avant d'analyser.
Chaque jeu de données d'enquête arrive un peu sale. Certains répondants se précipitent sans lire, d'autres cochent la même option sur chaque ligne, certains sont des doublons et d'autres donnent des combinaisons logiquement impossibles. Si vous analysez ces données brutes, vous risquez de tirer des conclusions assurées à partir de rebut. Le nettoyage des données est l'étape peu glorieuse mais essentielle entre la collecte et l'analyse. Ce guide parcourt un flux de travail de nettoyage pratique que vous pouvez appliquer à presque toute enquête.
Pourquoi le nettoyage compte
Le coût des mauvaises données est invisible jusqu'à ce qu'il morde. Une poignée de réponses négligentes ou frauduleuses peut déplacer une moyenne, renverser une comparaison serrée ou inventer une tendance qui n'existe pas. Comme les enseignements d'enquête alimentent souvent de vraies décisions sur le produit, le marketing ou la stratégie, l'intégrité des réponses sous-jacentes importe autant que la sophistication de l'analyse. Le nettoyage est une gestion du risque : il vous protège d'agir sur du bruit.
Le but du nettoyage n'est pas de supprimer les réponses qui vous déplaisent. C'est de retirer les réponses qui échouent à des critères de qualité objectifs que vous fixez à l'avance. Définir ces critères avant de regarder les résultats vous garde honnête et empêche la tentation de modeler les données vers une conclusion préférée.
Éliminer les répondants trop rapides
Les répondants trop rapides sont ceux qui terminent l'enquête bien plus vite qu'il n'est humainement possible s'ils lisaient réellement les questions. L'approche standard consiste à mesurer le temps de complétion et à signaler les réponses en dessous d'un seuil raisonnable. Une règle empirique courante est d'estimer le temps de complétion médian, puis de traiter comme suspectes les réponses terminées en moins d'environ un tiers à la moitié de cette médiane. Quelqu'un qui termine une enquête de dix minutes en quatre-vingt-dix secondes a presque certainement cliqué sans lire.
Capturez les données de temps automatiquement au niveau de la plateforme plutôt que d'essayer de les reconstituer ensuite. Attention à ne pas trop élaguer : un répondant réellement rapide mais attentif existe aussi, alors combinez l'indicateur de rapidité avec d'autres signaux de qualité avant de retirer quiconque. Utilisez la rapidité comme une voix dans une décision multicritère, et non comme une guillotine unique.
Repérer les réponses en ligne droite
La réponse en ligne droite se produit lorsqu'un répondant sélectionne la même réponse pour chaque item d'une grille ou d'une matrice, par exemple en choisissant « tout à fait d'accord » sur toute une longue batterie d'affirmations. C'est un signe révélateur de désengagement. Pour la détecter, cherchez une variance nulle ou quasi nulle sur un ensemble d'items qui devraient naturellement produire une certaine variation. Si un répondant a donné une réponse identique à vingt affirmations, y compris des formulations inversées, il ne lisait presque certainement pas.
Les items formulés à l'inverse sont une astuce de conception utile ici. Si vous incluez une affirmation formulée dans le sens opposé et qu'un répondant est d'accord à la fois avec une affirmation positive et sa négation, cette contradiction révèle une réponse inattentive. Intégrer quelques items de ce type dans vos questions matricielles rend les réponses en ligne droite bien plus faciles à repérer.
Contrôles d'attention et questions pièges
Les contrôles d'attention sont des questions insérées spécifiquement pour vérifier que les répondants lisent. La forme classique est un item à réponse imposée comme « Pour montrer que vous êtes attentif, veuillez sélectionner "Plutôt en désaccord" pour cette question. » Les répondants qui répondent autre chose ont échoué au contrôle. Utilisez-les avec parcimonie, car en abuser peut agacer les participants honnêtes et même introduire son propre biais, mais un ou deux dans une longue enquête constituent une sauvegarde raisonnable.
Associez les contrôles d'attention à des contrôles de cohérence logique. Si quelqu'un dit n'avoir jamais utilisé votre produit puis note sa fonctionnalité la plus récente, ces réponses se contredisent et la réponse mérite un examen. Concevoir ces contrôles est plus facile quand vous partez d'un instrument éprouvé ; notre modèle d'enquête d'étude de marché vous offre une structure propre à laquelle ajouter des contrôles de qualité.
Doublons et robots
Les réponses en double surviennent lorsqu'une même personne soumet plus d'une fois, que ce soit par accident, en rafraîchissant ou pour tricher sur une incitation. Détectez-les à l'aide d'identifiants que vous pouvez collecter de manière éthique, comme un identifiant de répondant, un e-mail le cas échéant ou une déduplication au niveau de la plateforme. Soyez prudent avec les signaux techniques comme les adresses IP, car des réseaux partagés peuvent produire des faux positifs, mais un groupe de réponses identiques provenant d'une seule source mérite un examen plus attentif.
Les soumissions automatisées par des robots sont une préoccupation croissante pour les enquêtes ouvertes ou incitées. Le texte libre est souvent le meilleur détecteur de robots : des réponses en texte libre absurdes, copiées-collées ou hors sujet révèlent des réponses non humaines ou frauduleuses que les questions fermées masquent. Lire un échantillon de verbatims est une étape de nettoyage rapide et à forte valeur.
Gérer les données manquantes et incohérentes
Toutes les réponses imparfaites ne doivent pas être supprimées. Certains répondants sautent simplement les questions facultatives, laissant des lacunes que vous devez décider comment traiter. L'approche la plus simple consiste à exclure les réponses incomplètes des analyses qui ont besoin de ces champs précis tout en les conservant pour les analyses qui n'en ont pas besoin, ce qui préserve autant de données exploitables que possible. Des approches plus avancées imputent les valeurs manquantes, mais l'imputation introduit des hypothèses et doit être utilisée avec prudence et transparence.
Les valeurs incohérentes ou hors plage, comme un âge de 200 ans ou une date dans le futur, doivent être corrigées lorsque la valeur voulue est évidente, et signalées ou supprimées lorsqu'elle ne l'est pas. Normalisez aussi les formats, afin que « USA », « U.S. » et « United States » soient traités comme une même catégorie avant de tabuler. Ce type de normalisation empêche qu'un seul véritable groupe soit fractionné entre plusieurs variantes orthographiques.
Documenter vos décisions
Le nettoyage implique du jugement, et le jugement doit être auditable. Gardez une trace de chaque règle que vous avez appliquée, du nombre de réponses que chaque règle a retirées et du nombre restant. Ce journal de nettoyage permet à d'autres de reproduire votre jeu de données, défend votre analyse quand quelqu'un conteste un résultat et vous aide à affiner vos critères pour de futures études. Indiquez la taille finale de votre échantillon exploitable à côté du nombre collecté à l'origine afin que les lecteurs comprennent la base de vos chiffres. Les équipes qui mènent des études fréquentes peuvent codifier ces règles une fois et les réutiliser d'un projet à l'autre grâce aux modèles pour équipes de recherche, et les associer à une enquête d'étude de marché standard pour que le nettoyage soit cohérent à chaque vague.
L'approche la plus défendable est de décider vos règles et seuils de nettoyage avant l'arrivée des données, puis de les appliquer mécaniquement. Fixer les critères à l'avance supprime la tentation de garder les réponses qui soutiennent votre hypothèse et d'écarter celles qui ne la soutiennent pas, ce qui est une source de biais subtile mais réelle. Lorsque c'est possible, préférez le signalement à la suppression : ajoutez une colonne de qualité qui marque chaque réponse comme propre ou suspecte, afin de pouvoir exécuter votre analyse avec et sans les cas signalés et de voir si vos conclusions tiennent dans les deux cas. Si le constat principal survit aux deux versions, vous pouvez le rapporter avec confiance ; s'il dépend entièrement de réponses douteuses, il est crucial de le savoir avant de le présenter. Traitez le nettoyage comme une capacité continue plutôt que comme une corvée ponctuelle. Après chaque étude, examinez quelles règles ont attrapé le plus de problèmes et si des réponses honnêtes ont été retirées à tort, puis ajustez vos seuils pour la fois suivante. Une équipe qui investit dans un processus de nettoyage documenté et reproductible dépense moins d'effort par étude et produit des résultats qui résistent à l'examen, ce qui, en fin de compte, permet aux parties prenantes de faire assez confiance aux données pour agir dessus.
Foire aux questions
Quelle quantité de données est-il normal de retirer lors du nettoyage ? Cela varie largement selon la source et la longueur de l'enquête. Les échantillons de panels et incités nécessitent souvent plus de nettoyage que les listes de clients engagés. Il n'y a pas de pourcentage fixe ; ce qui compte, c'est d'appliquer des règles cohérentes, définies à l'avance, et de documenter le résultat.
Dois-je nettoyer les données avant ou après l'analyse ? Avant. Le nettoyage est une étape préalable à l'analyse. Analyser d'abord et retirer des réponses ensuite invite le biais, car vous pourriez être tenté d'écarter les réponses qui contredisent le résultat que vous voulez.
Quelle est la différence entre un répondant trop rapide et une réponse en ligne droite ? Un répondant trop rapide termine l'enquête de façon suspecte, signalé par le temps de complétion. Une réponse en ligne droite sélectionne la même réponse à répétition sans égard au contenu, signalée par l'absence de variance. Une réponse peut être les deux, et chacune se détecte différemment.
Les contrôles d'attention sont-ils toujours nécessaires ? Pas toujours. Pour de courtes enquêtes destinées à des publics très engagés, ils peuvent être superflus. Pour de longues enquêtes ou des panels rémunérés, un ou deux contrôles d'attention améliorent sensiblement la qualité des données sans surcharger les répondants.
Collectez des données plus propres dès le départ. Créez des enquêtes avec des contrôles de qualité intégrés. Créez votre compte gratuit ou parcourez nos modèles pour commencer.