Как рассчитать размер выборки для опроса - Блог

Q: Почему использовать p = 0,5, когда я не знаю распределения?

Потому что p умноженное на (1 - p) максимально при p = 0,5, и его использование даёт наибольший, самый безопасный размер выборки. Если вы действительно ожидаете несимметричное распределение, значение вроде 0,2 или 0,8 снижает требуемую выборку.

Узнайте, как пошагово рассчитать размер выборки для опроса - разберитесь в уровне доверия, погрешности и размере генеральной совокупности, с формулой и разобранными примерами.

«Сколько человек мне нужно опросить?» - один из самых частых исследовательских вопросов и один из самых неправильно понимаемых. Правильный размер выборки - это не фиксированный процент вашей аудитории; он зависит от того, насколько точными и насколько уверенными должны быть ваши результаты. Это руководство разбирает лежащие в основе понятия, саму формулу и разобранные примеры, чтобы вы могли рассчитать обоснованный размер выборки для любого опроса.

Почему размер выборки важен

Вы опрашиваете выборку, потому что опросить всех обычно нецелесообразно. Но выборка лишь приближается к истине, и величина этой погрешности приближения зависит от того, скольких людей вы спрашиваете. Слишком мало ответов - и ваши результаты слишком зашумлены, чтобы на них действовать; слишком много - и вы тратите время и деньги на точность, которая вам не нужна. Осознанный расчёт размера выборки даёт вам ровно ту уверенность, которую требует ваше решение, - не больше и не меньше.

Что особенно важно, статистически значимо абсолютное число ответов, а не доля вашей совокупности. Опрос 384 человек даёт примерно одинаковую точность независимо от того, составляет ли ваша совокупность 20 000 или 20 миллионов. Именно этот контринтуитивный факт объясняет, почему национальные опросы нескольких тысяч человек могут описывать целые страны и почему правило вроде «опросить 10 % моих пользователей» статистически бессмысленно: оно потребовало бы абсурдно больших выборок для крупных совокупностей и опасно малых - для крошечных.

Полезно разделить два понятия, которые новички часто смешивают. Размер выборки определяет, насколько точна ваша оценка, - случайный разброс вокруг истинного значения. Он не контролирует смещение, то есть систематический перекос из-за неверной основы выборки или избирательного отсутствия ответов. Выборка из 50 000, взятая из смещённой основы, - это лишь очень точное измерение неправильной величины. Правильный расчёт размера выборки необходим, но он покупает вам только точность; репрезентативность обеспечивается хорошим построением выборки и высокой долей ответивших. Держите это различие в уме, работая с формулой ниже.

Три параметра: доверие, погрешность, совокупность

Уровень доверия - это то, насколько вы хотите быть уверены, что истинное значение по совокупности попадает в указанный вами диапазон. Распространённые варианты - 90 %, 95 % и 99 %. Уровень доверия 95 % означает, что если бы вы повторяли опрос многократно, около 95 % полученных доверительных интервалов содержали бы истинное значение. Каждому уровню доверия соответствует z-значение: 1,645 для 90 %, 1,96 для 95 % и 2,576 для 99 %.

Погрешность (также называемая доверительным интервалом) - это точность вашей оценки, выраженная как плюс-минус процент. Если 60 % респондентов выбирают вариант с погрешностью 5 %, истинное значение по совокупности, вероятно, находится между 55 % и 65 %. Меньшая погрешность требует большей выборки.

Размер генеральной совокупности - это общее число людей в изучаемой вами группе. Он значимо влияет на расчёт только для небольших конечных совокупностей; для крупных совокупностей его влияние пренебрежимо мало, поэтому многие калькуляторы игнорируют его, как только совокупность превышает примерно 20 000.

Четвёртый, скрытый параметр - доля в совокупности (p), то есть ожидаемое распределение ответов. Когда вы её не знаете, используйте 0,5 (распределение 50/50), поскольку это даёт наибольший требуемый размер выборки и, следовательно, наиболее консервативную и безопасную оценку.

Формула размера выборки

Для большой или неизвестной совокупности требуемый размер выборки составляет:

n = (z² × p × (1 - p)) / e²

где z - z-значение для вашего уровня доверия, p - ожидаемая доля, а e - погрешность в виде десятичной дроби. Для конечной совокупности размера N примените поправку на конечную совокупность:

n_adjusted = n / (1 + ((n - 1) / N))

Поправка всегда уменьшает требуемую выборку, и уменьшение существенно лишь тогда, когда совокупность мала относительно n.

Разобранные примеры

Пример 1 - большая совокупность. Вы хотите 95 % доверия и 5 % погрешности при неизвестном распределении, поэтому p = 0,5. Тогда z = 1,96, так что n = (1,96² × 0,5 × 0,5) / 0,05² = (3,8416 × 0,25) / 0,0025 = 0,9604 / 0,0025 = 384,16. Вам нужно около 385 завершённых ответов. Это и есть знаменитое число «384», лежащее в основе многих национальных опросов.

Пример 2 - более высокая точность. Сохраните 95 % доверия, но потребуйте 3 % погрешности. Теперь n = (3,8416 × 0,25) / 0,03² = 0,9604 / 0,0009 = 1067,1, поэтому вам нужно около 1068 ответов. Уменьшение погрешности вдвое примерно учетверяет выборку - точность обходится дорого.

Пример 3 - конечная совокупность. Предположим, у вас всего 2000 клиентов и вы хотите точность из примера 1 (n = 385 до поправки). Примените поправку: n_adjusted = 385 / (1 + (384 / 2000)) = 385 / 1,192 = 323. Вам нужно около 323 ответов от ваших 2000 клиентов. Это обычное дело для целевого опроса NPS, отправленного существующей клиентской базе.

Поправка на долю ответивших

Приведённые выше числа - это завершённые ответы, а не приглашения. Если вы ожидаете долю ответивших 20 %, разделите целевое число на 0,20, чтобы узнать, скольких людей приглашать. Для 385 завершённых ответов при доле 20 % нужно пригласить 385 / 0,20 = 1925 человек. Реалистичные доли ответивших сильно различаются: опросы по электронной почте вовлечённых клиентов могут достигать 20-40 %, тогда как холодные обращения часто дают менее 5 %, - поэтому всегда подтверждайте свою историческую долю, прежде чем определять размер списка. Отправка напоминаний и краткость опроса - самые надёжные способы повысить завершаемость.

Типичные ошибки, которых стоит избегать

Во-первых, не путайте размер выборки с числом ответов, необходимым для подгрупп: если вы планируете анализировать сегменты отдельно, каждому сегменту нужна собственная достаточная выборка, что может умножить ваш итог. Во-вторых, не думайте, что большая выборка устраняет смещение, - размер выборки касается только случайной ошибки выборки, а не систематического смещения из-за неверной основы или отсутствия ответов. В-третьих, избегайте эмпирических правил «процент от совокупности» вроде «опросить 10 %»; они дают избыточную выборку для крупных совокупностей и недостаточную - для малых. Наконец, помните, что огромная выборка может выявить статистически значимые различия, слишком малые, чтобы иметь практическое значение; всегда оценивайте величину эффекта, а не только значимость.

Когда вы исследуете определённый сегмент рынка - например, проводите маркетинговое исследование, нацеленное на SaaS-стартапы, - определите разбиение на подгруппы до выхода в поле, чтобы правильно рассчитать размер каждой. Полезная привычка планирования - до запуска выписать каждое сравнение, которое вы собираетесь сделать в итоговом отчёте: «бесплатные против платных», «новые против давних», «регион A против региона B». Каждое из этих сравнений подразумевает две подгруппы, каждой из которых нужна достаточная выборка. Если на этапе планирования вы обнаружите, что небольшой, но важный сегмент даст всего 40 ответов, вы можете намеренно взять по нему избыточную выборку, а не остаться в итоге без возможности сказать о нём хоть что-то.

Стоит также заложить бюджет на очистку данных. Не каждый присланный ответ пригоден: одни респонденты отвечают по прямой линии в сетке, другие проваливают проверки на внимательность, третьи бросают на полпути. Если вы ожидаете отбросить, скажем, 10 % завершённых ответов как некачественные, увеличьте целевое число на эту величину, чтобы ваша чистая выборка всё равно обеспечивала рассчитанную точность. Сочетание поправки на долю ответивших с запасом на очистку даёт реалистичный список приглашений вместо оптимистичного, который оставит вас без нужного объёма, когда придут данные.

Часто задаваемые вопросы

Сколько ответов на опрос мне нужно для статистической достоверности? Для большинства исследований при 95 % доверия и 5 % погрешности около 385 завершённых ответов достаточно, когда совокупность велика. Более узкая погрешность или анализ подгрупп требуют большего.

Действительно ли размер совокупности не имеет значения? Для больших совокупностей он почти не важен - 385 ответов дают примерно одинаковую точность независимо от того, составляет ли совокупность 50 000 или 5 миллионов. Размер совокупности значимо меняет результат только для малых конечных групп, где поправка на конечную совокупность уменьшает требуемую выборку.

Какой уровень доверия и погрешность мне использовать? Уровень доверия 95 % с погрешностью 5 % - стандартное значение по умолчанию для бизнес-опросов. Используйте 99 % доверия или 3 % погрешности только тогда, когда решение с высокими ставками оправдывает гораздо большую выборку.

Почему использовать p = 0,5, когда я не знаю распределения? Потому что p × (1 - p) максимально при p = 0,5, и его использование даёт наибольший, самый безопасный размер выборки. Если вы действительно ожидаете несимметричное распределение, значение вроде 0,2 или 0,8 снижает требуемую выборку.

Забудьте про расчёты в таблицах. Создайте свой опрос в SurveyMaker и отслеживайте завершённые ответы относительно вашей цели в реальном времени.

Начните бесплатно или воспользуйтесь готовым шаблоном маркетингового исследования.

Форма заказа

Форма бронирования

Опрос обратной связи для стартапов

Опрос оценки поставщиков

Опрос удовлетворённости клиентов

Форма регистрации поставщика

Отзыв доноров НКО

Опрос покупателя недвижимости

Удовлетворённость банком

Опрос о финансовом консультанте

Опрос восприятия корпоративного бренда

Отзыв о профессиональной услуге

Отзывы деловых партнёров

Опрос о руководстве

Опрос об эффективности совещаний

Опрос удовлетворённости IT-поддержкой

Отзыв о покупках

Опрос по клиентскому опыту

Опрос удовлетворенности клиентов

Форма обратной связи с клиентами

Опрос лояльности клиентов

Опрос удовлетворённости клиентов ресторана

Опрос удовлетворённости гостей отеля

Опрос индекса лояльности (NPS)

Опрос индекса усилий клиента (CES)

Опрос отзывов кофейни

Опрос при выходе из розничного магазина

Отзыв о процессе оформления заказа в интернет-магазине

Опрос об опыте доставки

Опрос об отмене подписки

Опрос об адаптации новых клиентов

Отзыв о ресторане

Опыт гостя отеля

Опрос после покупки

Отзыв о поездке

Опрос о ресторане быстрого питания

Опрос об аэропорте

Опрос о совместных поездках

Опрос удовлетворённости клиентов страхования

Опрос о заявке на кредит

Опрос об опыте call-центра

Отзыв о поддержке в чате

Опрос о подписной коробке

Опрос по оценке курса

Опрос обратной связи со студентами

Опрос по оценке учителя

Опрос удовлетворённости родителей школы

Опрос об опыте студентов университета

Опрос отзывов об онлайн-курсе

Форма оценки семинара

Опрос о библиотечных услугах

Опрос об инфраструктуре кампуса

Опрос выпускников

Отзывы о платформе электронного обучения

Форма записи на занятия

Опрос о благополучии студентов

Отзывы о родительском собрании

Опрос отзывов о репетиторстве

Опрос о школьном климате

Заявление на стипендию

Отзыв об онлайн-курсе

Опрос об интенсиве (буткемпе)

Форма зачисления студента

Опрос преподавательского состава

Опрос о школьных обедах

Форма разрешения на экскурсию

Опрос готовности к дистанционному обучению

Форма записи в детский сад

Опрос интереса к обучению за рубежом

Опрос о завершении онлайн-курса (MOOC)

Опрос по опыту мероприятия

Опрос по планированию мероприятий

Опрос по планированию встреч

Опрос отзывов о конференции

Форма подтверждения присутствия на свадьбе

Опрос отзывов о вебинаре

Форма сбора лидов на выставке

Форма регистрации на мероприятие

Опрос по планированию вечеринки

Опрос об опыте посещения фестиваля