逐步学习如何计算调查样本量——理解置信水平、误差范围和总体规模,并附有公式和实例演算。
"我需要调查多少人?"是最常见的研究问题之一,也是最容易被误解的问题之一。合适的样本量并不是受众的某个固定百分比;它取决于你需要结果达到多高的精确度和多大的把握。本指南将带你了解背后的概念、实际的公式以及实例演算,让你能够为任何调查计算出经得起推敲的样本量。
为什么样本量很重要
你之所以调查一个样本,是因为调查所有人通常并不现实。但样本只是对真相的近似,而这种近似误差的大小取决于你询问了多少人。回复太少,你的结果就会噪声过大而无法据以行动;回复太多,你又会为并不需要的精确度浪费时间和金钱。有意识地计算样本量,能让你恰好获得决策所需的把握——不多也不少。
至关重要的是,从统计上看,重要的是回复的绝对数量,而不是占总体的比例。调查 384 人所得到的精确度大致相同,无论你的总体是 2 万还是 2000 万。正是这个违反直觉的事实,解释了为什么仅调查几千人的全国性民意调查能够描绘整个国家,也解释了为什么"调查我 10% 的用户"这样的规则在统计上毫无意义——它会要求为大总体抽取荒谬庞大的样本,而为极小总体抽取危险地小的样本。
把初学者常常混为一谈的两个概念区分开来会很有帮助。样本量控制的是估计的精确度——即围绕真实值的随机散布。它并不控制偏差,偏差是由于抽样框有缺陷或选择性无回复而产生的系统性偏移。从一个有偏抽样框中抽取的 5 万样本,只是对错误对象的一次非常精确的测量。正确计算样本量是必要的,但它只能为你换来精确度;代表性来自良好的抽样和高回复率。在推导下面的公式时,请牢记这一区别。
三个输入项:置信度、误差、总体
置信水平是指你希望有多大把握确信总体的真实值落在你所声明的范围之内。常见的选择是 90%、95% 和 99%。95% 的置信水平意味着,如果你多次重复这项调查,所得置信区间中约有 95% 会包含真实值。每个置信水平都对应一个 z 值:90% 对应 1.645,95% 对应 1.96,99% 对应 2.576。
误差范围(也称为置信区间)是你估计的精确度,以正负百分比表示。如果 60% 的受访者选择了某个误差范围为 5% 的选项,那么总体的真实值很可能介于 55% 到 65% 之间。误差范围越小,所需样本越大。
总体规模是你所研究群体中的人数总和。它只对小型有限总体的计算有实质性影响;对于大总体,其影响可以忽略不计,这也是为什么许多计算器在总体超过约 2 万后就会将其忽略。
第四个隐藏的输入项是总体比例(p)——即预期的回复分布。当你不知道它时,请使用 0.5(即 50/50 的分布),因为这会产生最大的所需样本量,从而给出最保守、最稳妥的估计。
样本量公式
对于大总体或未知总体,所需的样本量为:
n = (z² × p × (1 - p)) / e²
其中 z 是你所选置信水平对应的 z 值,p 是预期比例,e 是以小数表示的误差范围。对于规模为 N 的有限总体,应用有限总体校正:
n_adjusted = n / (1 + ((n - 1) / N))
校正总是会减小所需样本量,而只有当总体相对于 n 较小时,减小的幅度才会较大。
实例演算
示例 1——大总体。你希望达到 95% 的置信度和 5% 的误差范围,分布未知因此 p = 0.5。此时 z = 1.96,于是 n = (1.96² × 0.5 × 0.5) / 0.05² = (3.8416 × 0.25) / 0.0025 = 0.9604 / 0.0025 = 384.16。你大约需要 385 份完成的回复。这就是许多全国性调查背后那个著名的"384"数字。
示例 2——更高的精确度。保持 95% 的置信度,但要求 3% 的误差范围。现在 n = (3.8416 × 0.25) / 0.03² = 0.9604 / 0.0009 = 1067.1,因此你大约需要 1,068 份回复。把误差范围减半,样本量大致会翻两番——精确度代价高昂。
示例 3——有限总体。假设你只有 2,000 位客户,并希望达到示例 1 的精确度(校正前 n = 385)。应用校正:n_adjusted = 385 / (1 + (384 / 2000)) = 385 / 1.192 = 323。你需要从这 2,000 位客户中获得大约 323 份回复。对于发送给现有客户群的、聚焦的 NPS 调查而言,这种情况很常见。
根据回复率进行调整
上面的数字指的是已完成的回复,而不是邀请数。如果你预计回复率为 20%,就把目标数除以 0.20,来算出需要邀请多少人。要在 20% 的回复率下获得 385 份完成回复,你必须邀请 385 / 0.20 = 1,925 人。现实中的回复率差异很大——面向活跃客户的电子邮件调查可能达到 20%–40%,而陌生外联往往低于 5%——因此在确定名单规模之前,务必先核实你的历史回复率。发送提醒并让调查保持简短,是提升完成率最可靠的方法。
应避免的常见错误
首先,不要把样本量与子群所需的回复数量混为一谈:如果你打算分别分析各个细分群体,每个细分群体都需要各自足够的样本,这可能会使你的总量成倍增加。其次,不要以为更大的样本能修正偏差——样本量只解决随机抽样误差,而无法解决由有缺陷的抽样框或无回复造成的系统性偏差。第三,避免使用诸如"调查 10%"这类"总体百分比"的经验法则;它们会过度抽样大总体,而对小总体抽样不足。最后,请记住,庞大的样本可能产生具有统计显著性、但小到在实践中无关紧要的差异;务必判断效应量,而不只是显著性。
当你研究一个明确的市场细分时——例如面向 SaaS 初创公司的 市场调研问卷——请在实地开展之前确定你的子群划分,以便正确地为每一个子群确定规模。一个有用的规划习惯是,在启动之前写下你打算在最终报告中做的每一项对比:"免费对付费""新客户对老客户""地区 A 对地区 B"。这些对比中的每一项都意味着两个子群,而每个子群都需要足够的样本。如果你在规划时发现某个虽小但重要的细分群体只会产生 40 份回复,你可以有意地对其过度抽样,而不至于最终对它无话可说。
为数据清理留出余量也很值得。并非每一份提交的回复都可用:有些受访者在网格题里一条直线地作答,有些没有通过注意力检查,有些做到一半就放弃了。如果你预计要将大约 10% 的完成回复作为低质量而剔除,就把目标数按该比例上调,这样你的干净样本仍能满足你所计算的精确度。将回复率调整与清理余量结合起来,能让你得到一份切合实际的邀请名单,而不是一份乐观的名单——后者会在数据到来时让你数量不足。
常见问题
我需要多少份调查回复才能在统计上有效?对于大多数在 95% 置信度和 5% 误差范围下开展的研究,当总体较大时,大约 385 份完成回复就足够了。更窄的误差范围或子群分析则需要更多。
总体规模真的不重要吗?对于大总体来说几乎不重要——无论总体是 5 万还是 500 万,385 份回复所提供的精确度大致相同。只有对小型有限群体,总体规模才会对结果产生实质性改变,此时有限总体校正会减小所需样本量。
我应该使用什么样的置信水平和误差范围?95% 的置信水平搭配 5% 的误差范围,是商业调查的标准默认值。只有当高风险的决策足以证明所需的大得多的样本是值得的时候,才使用 99% 的置信度或 3% 的误差范围。
当我不知道分布时,为什么要用 p = 0.5?因为 p × (1 - p) 在 p = 0.5 时取得最大值,使用它会产生最大、最稳妥的样本量。如果你确实预期分布会严重偏向一侧,那么像 0.2 或 0.8 这样的取值会降低所需样本量。
省去电子表格里的计算。用 SurveyMaker 创建你的调查,并实时对照目标追踪已完成的回复。