Практическое пошаговое руководство по очистке данных опроса: удаление спешащих, отвечающих по прямой, дубликатов и плохих ответов перед анализом.
Любой набор данных опроса приходит немного грязным. Одни респонденты пробегают его, не читая, другие выбирают один и тот же вариант в каждой строке, некоторые являются дубликатами, а некоторые дают логически невозможные сочетания. Если вы анализируете эти сырые данные, вы рискуете сделать уверенные выводы из мусора. Очистка данных — неприметный, но необходимый шаг между сбором и анализом. В этом руководстве разбирается практический рабочий процесс очистки, который вы можете применить почти к любому опросу.
Почему важна очистка
Цена плохих данных невидима, пока не даст о себе знать. Горстка небрежных или мошеннических ответов может сдвинуть среднее, перевернуть близкое сравнение или выдумать несуществующую тенденцию. Поскольку выводы опроса часто питают реальные решения о продукте, маркетинге или стратегии, целостность лежащих в основе ответов важна не меньше, чем изощрённость анализа. Очистка — это управление рисками: она защищает вас от действий на основе шума.
Цель очистки — не удалять ответы, которые вам не нравятся. Это удаление ответов, которые не соответствуют объективным критериям качества, установленным вами заранее. Определение этих критериев до того, как вы посмотрите на результаты, сохраняет вашу честность и устраняет искушение подогнать данные под предпочтительный вывод.
Удаление спешащих
Спешащие — это респонденты, которые завершают опрос гораздо быстрее, чем это по-человечески возможно, если бы они действительно читали вопросы. Стандартный подход — измерять время прохождения и помечать ответы ниже разумного порога. Распространённое эмпирическое правило — оценить медианное время прохождения, а затем считать подозрительными ответы, завершённые менее чем примерно за треть-половину этой медианы. Тот, кто заканчивает десятиминутный опрос за девяносто секунд, почти наверняка кликал не читая.
Фиксируйте данные о времени автоматически на уровне платформы, а не пытайтесь восстановить их позже. Будьте осторожны, чтобы не отсечь лишнего: действительно быстрый, но внимательный респондент тоже существует, поэтому объединяйте метку спешки с другими сигналами качества, прежде чем кого-либо удалять. Используйте спешку как один голос в многокритериальном решении, а не как единственную гильотину.
Выявление отвечающих по прямой
Ответ по прямой — это когда респондент выбирает один и тот же ответ для каждого пункта в сетке или матрице, например выбирая «полностью согласен» по всей длинной батарее утверждений. Это верный признак утраты вовлечённости. Чтобы его обнаружить, ищите нулевую или почти нулевую дисперсию по набору пунктов, которые естественным образом должны давать некоторое разнообразие. Если респондент дал одинаковый ответ на двадцать утверждений, включая сформулированные в обратном порядке, он почти наверняка не читал.
Пункты с обратной формулировкой — полезный приём проектирования здесь. Если вы включаете утверждение, сформулированное в противоположном направлении, а респондент соглашается и с положительным утверждением, и с его отрицанием, это противоречие обнажает невнимательный ответ. Встраивание нескольких таких пунктов в ваши матричные вопросы делает выявление отвечающих по прямой гораздо более лёгким.
Проверки внимательности и вопросы-ловушки
Проверки внимательности — это вопросы, вставленные специально для того, чтобы убедиться, что респонденты читают. Классическая форма — пункт с предписанным ответом, например «Чтобы показать, что вы внимательны, пожалуйста, выберите "Скорее не согласен" для этого вопроса». Респонденты, ответившие иначе, не прошли проверку. Используйте их умеренно, ведь их избыток может раздражать честных участников и даже вносить собственное искажение, но одна-две в длинном опросе — разумная предосторожность.
Сочетайте проверки внимательности с проверками логической согласованности. Если кто-то говорит, что никогда не пользовался вашим продуктом, а затем оценивает его новейшую функцию, эти ответы противоречат друг другу, и ответ заслуживает внимания. Проектировать эти проверки проще, когда вы начинаете с проверенного инструмента; наш шаблон опроса маркетинговых исследований даёт вам чистую структуру, к которой можно добавить средства контроля качества.
Дубликаты и боты
Дублирующие ответы возникают, когда один и тот же человек отправляет данные более одного раза, будь то случайно, при обновлении страницы или ради манипуляции со стимулом. Обнаруживайте их с помощью идентификаторов, которые вы можете собирать этично, таких как идентификатор респондента, электронная почта при необходимости или дедупликация на уровне платформы. Будьте осторожны с техническими сигналами, такими как IP-адреса, поскольку общие сети могут давать ложные срабатывания, но группа идентичных ответов из одного источника заслуживает более пристального взгляда.
Автоматизированные отправки ботами — растущая проблема для открытых или стимулируемых опросов. Открытый текст часто оказывается лучшим детектором ботов: бессмысленные, скопированные или не относящиеся к теме ответы в свободном тексте выдают нечеловеческие или мошеннические ответы, которые закрытые вопросы скрывают. Чтение выборки дословных ответов — быстрый и высокоценный шаг очистки.
Работа с пропущенными и несогласованными данными
Не каждый несовершенный ответ следует удалять. Некоторые респонденты просто пропускают необязательные вопросы, оставляя пробелы, с которыми вам предстоит решить, как поступить. Простейший подход — исключить неполные ответы из анализов, которым нужны именно эти поля, сохранив их для анализов, которым они не нужны, что сохраняет как можно больше пригодных данных. Более продвинутые подходы восполняют пропущенные значения, но восполнение вносит допущения и должно использоваться осторожно и прозрачно.
Несогласованные или выходящие за пределы диапазона значения, такие как возраст 200 лет или дата в будущем, следует исправлять там, где искомое значение очевидно, и помечать или удалять там, где нет. Стандартизируйте также форматы, чтобы «USA», «U.S.» и «United States» рассматривались как одна категория до составления таблиц. Такая нормализация не даёт единой реальной группе раздробиться на несколько вариантов написания.
Документирование ваших решений
Очистка предполагает суждение, а суждение должно поддаваться аудиту. Ведите запись каждого применённого вами правила, того, сколько ответов удалило каждое правило и сколько осталось. Этот журнал очистки позволяет другим воспроизвести ваш набор данных, защищает ваш анализ, когда кто-то ставит под сомнение результат, и помогает вам уточнить критерии для будущих исследований. Сообщайте итоговый пригодный размер выборки рядом с исходным собранным числом, чтобы читатели понимали основу ваших цифр. Команды, проводящие частые исследования, могут закодировать эти правила один раз и повторно использовать их в разных проектах с помощью шаблонов для исследовательских команд и сочетать их со стандартным опросом маркетинговых исследований, чтобы очистка была согласованной в каждой волне.
Наиболее обоснованный подход — определить правила и пороги очистки до поступления данных, а затем применять их механически. Установка критериев заранее устраняет искушение сохранить ответы, подтверждающие вашу гипотезу, и отбросить те, что ей не соответствуют, — а это тонкий, но реальный источник искажения. Где возможно, предпочитайте пометку удалению: добавьте столбец качества, отмечающий каждый ответ как чистый или подозрительный, чтобы вы могли провести анализ с помеченными случаями и без них и увидеть, устоят ли ваши выводы в обоих случаях. Если главный вывод выживает в обеих версиях, вы можете сообщать о нём с уверенностью; если он целиком зависит от сомнительных ответов, критически важно знать это, прежде чем его представить. Относитесь к очистке как к постоянной способности, а не как к разовой обязанности. После каждого исследования пересматривайте, какие правила выловили больше всего проблем и не были ли по ошибке удалены честные ответы, а затем настраивайте пороги на следующий раз. Команда, вкладывающаяся в документированный, воспроизводимый процесс очистки, тратит меньше усилий на исследование и выдаёт результаты, выдерживающие проверку, что в конечном счёте и позволяет заинтересованным сторонам достаточно доверять данным, чтобы действовать на их основе.
Часто задаваемые вопросы
Сколько данных нормально удалять при очистке? Это широко варьируется в зависимости от источника и длины опроса. Панельные и стимулируемые выборки часто требуют больше очистки, чем списки вовлечённых клиентов. Фиксированного процента нет; важно применять согласованные, заранее определённые правила и документировать результат.
Следует ли очищать данные до или после анализа? До. Очистка — это шаг перед анализом. Сначала анализировать, а потом удалять ответы — значит приглашать искажение, ведь у вас может возникнуть соблазн отбросить ответы, противоречащие желаемому результату.
В чём разница между спешащим и отвечающим по прямой? Спешащий завершает опрос подозрительно быстро, что помечается по времени прохождения. Отвечающий по прямой выбирает один и тот же ответ снова и снова независимо от содержания, что помечается по отсутствию дисперсии. Ответ может быть и тем и другим, и каждое выявляется по-своему.
Всегда ли необходимы проверки внимательности? Не всегда. Для коротких опросов для высоко вовлечённой аудитории они могут быть излишни. Для длинных опросов или платных панелей одна-две проверки внимательности заметно улучшают качество данных, не перегружая респондентов.
Собирайте более чистые данные с самого начала. Создавайте опросы со встроенными средствами контроля качества. Создайте бесплатный аккаунт или просмотрите наши шаблоны, чтобы начать.