一份实用的分步指南,教你清洗调查数据:在分析之前剔除敷衍作答者、直线作答者、重复项和劣质答复。
每一份调查数据集抵达时都有些"脏"。有些受访者不加阅读地匆匆掠过,有些在每一行都选同一个选项,有些是重复项,还有些给出逻辑上不可能的组合。如果你分析那些原始数据,就有从垃圾中得出自信结论的风险。数据清洗是收集与分析之间那个并不光鲜却必不可少的步骤。本指南将梳理一套几乎适用于任何调查的实用清洗流程。
清洗为何重要
劣质数据的代价在咬到你之前都是无形的。区区几份草率或欺诈的答复就可能拉动一个均值、颠覆一场势均力敌的比较,或凭空捏造一个并不存在的趋势。由于调查洞见常常为有关产品、营销或战略的真实决策提供依据,底层答复的完整性与分析的精妙同等重要。清洗是一种风险管理:它保护你免于据噪声行事。
清洗的目标不是删除你不喜欢的答复,而是剔除那些未能通过你预先设定的客观质量标准的答复。在查看结果之前就界定好这些标准,能让你保持诚实,并杜绝把数据往某个偏好结论上揉捏的诱惑。
剔除敷衍作答者
敷衍作答者是指那些若真的阅读了问题、以人力根本不可能的速度完成调查的受访者。标准做法是测量完成时间,并标记出低于合理阈值的答复。一条常见的经验法则是:估算完成时间的中位数,然后把用时不足该中位数约三分之一到二分之一的答复视为可疑。在九十秒内做完一份十分钟调查的人,几乎可以肯定是不加阅读地点击。
请在平台层面自动捕捉计时数据,而不是事后试图重建。注意不要过度剔除:确实作答又快又专注的受访者也是存在的,因此在剔除任何人之前,请把敷衍标记与其他质量信号结合起来。把敷衍当作多标准决策中的一票,而非唯一的断头台。
捕捉直线作答者
直线作答是指受访者对网格或矩阵中的每一个条目都选择同一个答案,例如在一长串陈述中一路都选"非常同意"。这是失去投入的明显迹象。要发现它,请在一组本应自然产生一些差异的条目上寻找零方差或近乎零方差。如果某位受访者对二十条陈述——包括反向措辞的那些——给出了完全相同的答案,那他几乎可以肯定没有在阅读。
反向措辞的条目在这里是一个有用的设计技巧。如果你加入一条以相反方向措辞的陈述,而受访者对某条正面陈述及其否定都表示同意,那么这种矛盾便暴露了不用心的作答。在你的矩阵问题中嵌入几条这样的条目,能让捕捉直线作答者容易得多。
注意力检查与陷阱问题
注意力检查是专门插入、用以核实受访者是否在阅读的问题。经典形式是一个指定作答的条目,例如"为表明你在专心作答,请在本题选择'略有不同意'。"作答为其他任何选项的受访者便未通过该检查。请谨慎使用,因为过多会惹恼诚实的参与者,甚至引入自身的偏差,但在一份长调查中放上一两个是合理的防护。
把注意力检查与逻辑一致性检查搭配使用。如果某人说自己从未用过你的产品,随后却对其最新功能进行评分,这些答案便相互矛盾,该份答复值得细究。当你从一份经过检验的工具入手时,设计这些检查会更容易;我们的市场调研调查模板为你提供了一个干净的结构,可在其上添加质量控制。
重复项与机器人
重复答复的产生,源于同一个人不止一次提交,无论是出于失误、刷新页面,还是为了套取某种激励。请用你能合乎伦理地收集的标识符来检测它们,例如受访者 ID、适当情形下的电子邮件,或平台层面的去重。对 IP 地址之类的技术信号要谨慎,因为共享网络可能产生误报,但来自单一来源的一批完全相同的答复,则值得更细致的审视。
对开放式或带激励的调查而言,机器人的自动提交是一个日益突出的问题。开放式文本往往是最好的机器人探测器:毫无意义、复制粘贴或跑题的自由文本答案,会暴露封闭式问题所掩盖的非人类或欺诈答复。阅读一部分原文答复,是一个快速而高价值的清洗步骤。
处理缺失与不一致的数据
并非每一份不完美的答复都应被删除。有些受访者只是跳过了可选问题,留下你必须决定如何处理的空缺。最简单的做法是:把不完整的答复从需要那些特定字段的分析中排除,同时在不需要它们的分析中予以保留,从而尽可能多地保存可用数据。更高级的做法会对缺失值进行插补,但插补会引入假设,应谨慎且透明地使用。
对于不一致或超出范围的数值,例如 200 岁的年龄或未来的日期,在意图值显而易见处应加以更正,在并非如此处则应标记或删除。也要统一格式,使 "USA"、"U.S." 和 "United States" 在制表之前被当作同一类别处理。这类规范化可防止一个真实的群体被拆散到多种拼写变体之中。
记录你的决定
清洗涉及判断,而判断必须可供审计。请记录你所应用的每一条规则、每条规则剔除了多少份答复,以及剩下多少。这份清洗日志能让他人复现你的数据集,在有人质疑某个结果时为你的分析辩护,并帮助你为未来的研究打磨标准。请在报告最终可用样本量的同时,一并给出最初收集的数量,好让读者理解你那些数字的依据。开展频繁研究的团队可以将这些规则编纂一次,并借助研究团队模板在各项目间重复使用,再将其与一份标准的市场调研调查相搭配,使每一轮的清洗都保持一致。
最经得起辩护的做法,是在数据到来之前就确定你的清洗规则与阈值,然后机械地加以应用。事先设定标准,可消除保留支持你假设的答复、剔除不支持的答复的诱惑——那是一种细微却真实的偏差来源。在可能的情况下,宁可标记而非删除:添加一个质量列,把每份答复标为干净或可疑,如此你便能在纳入与不纳入被标记案例两种情形下分别运行分析,看看你的结论在两种情形下是否都成立。若核心发现在两个版本中都存活下来,你便可以自信地报告它;若它完全依赖于存疑的答复,那么在你展示之前弄清这一点至关重要。请把清洗当作一项持续的能力,而非一次性的杂务。每次研究之后,回顾哪些规则捕捉到了最多问题,以及是否有任何诚实的答复被错误地剔除,然后为下一次调整你的阈值。一个投资于有据可查、可重复的清洗流程的团队,每项研究所耗费的精力更少,产出的结果也更能经受审视——而这归根结底,正是让利益相关者足够信任数据、从而据之行动的原因。
常见问题解答
清洗过程中删除多少数据算正常?这因来源和调查长度而差异极大。样本库和带激励的样本通常比投入度高的客户名单需要更多清洗。没有固定的百分比;重要的是应用一致的、预先界定的规则,并记录结果。
我应该在分析之前还是之后清洗数据?之前。清洗是分析前的步骤。先分析、事后再删除答复会招致偏差,因为你可能会受诱惑去剔除那些与你想要的结果相矛盾的答复。
敷衍作答者与直线作答者有何区别?敷衍作答者以可疑的速度完成调查,通过完成时间被标记出来。直线作答者不顾内容反复选择同一个答案,通过缺乏方差被标记出来。一份答复可能两者兼具,而每一种的检测方式各不相同。
注意力检查总是必要的吗?并非总是如此。对面向高投入受众的简短调查而言,它们可能多此一举。而对于长调查或付费样本库,一两个注意力检查能在不给受访者增加过多负担的情况下,切实提升数据质量。