Стратифицированная выборка. Среднеквадратическое отклонение. От чего зависит точность выборки

Стратифицированная выборка - эффективный статистический метод для повышения точности анализа данных. Узнайте в этой статье, как он работает и когда применять.

Суть стратифицированной выборки

Стратифицированная выборка - это метод отбора подмножества объектов из генеральной совокупности с учетом внутренних подгрупп (страт). Он отличается от простой случайной выборки тем, что сначала вся совокупность делится на однородные страты, а затем из каждой страты отбирается случайная выборка.

Метод стратифицированной выборки состоит из двух этапов:

  1. Разбиение генеральной совокупности объектов на непересекающиеся однородные группы-страты по выбранному признаку-основанию (ковариате).
  2. Случайный отбор объектов из каждой страты для формирования итоговой стратифицированной выборки.

Основное преимущество такого подхода - повышение точности статистических оценок за счет минимизации среднеквадратического отклонения внутри страт по сравнению с простой случайной выборкой того же объема.

Например, при проведении социологического опроса населения целесообразно предварительно разбить респондентов на возрастные группы, так как в каждой из них распределение ответов может существенно различаться.
Стратифицированная выборка Простая случайная выборка
Высокая точность благодаря учету внутренней неоднородности генеральной совокупности Низкая точность, так как не учитывается внутренняя структура данных

Таким образом, стратифицированная выборка позволяет повысить качество статистического анализа по сравнению с классическим подходом.

Как правильно разбить данные на страты

Эффективность стратификации зависит от того, насколько удачно выполнено разбиение на однородные группы-страты. На это влияют такие факторы:

Критерии эффективного разбиения на страты

Чтобы разбиение на страты было эффективным, следует придерживаться нескольких критериев:

  1. Страты должны содержать объекты с близкими значениями анализируемого показателя.
  2. Объем каждой страты должен быть достаточным для последующего статистического анализа.

То есть нужен баланс: с одной стороны, страты должны максимально различаться между собой, с другой - в каждой страте должно хватать данных для анализа. При сильной дробности объем отдельных групп может быть недостаточным.

Ручные и автоматизированные методы стратификации

Разбиение на страты можно проводить как вручную, так и с использованием автоматических алгоритмов кластеризации. Ручной подход требует хорошего знания предметной области, однако дает больший контроль над результатом. Автоматизированные методы позволяют быстро обрабатывать большие объемы данных, но могут давать неинтерпретируемые страты.

Выбор ковариаты для стратификации

Ковариата - это характеристика объекта, влияющая на анализируемый показатель. Она используется как основание для разбиения на однородные страты. Идеальная ковариата высоко коррелирует с целевым показателем, при этом значения ковариаты должны быть известны до начала анализа.

Например, при анализе данных опроса в качестве ковариаты можно использовать пол, возраст, уровень дохода респондентов в зависимости от цели исследования.

Пример разбиения респондентов опроса на страты

Рассмотрим пример разбиения выборки респондентов социологического опроса на 4 страты по двум ковариатам: пол (мужской/женский) и возраст (моложе 35 лет / старше 35 лет):

  1. Мужчины моложе 35 лет
  2. Женщины моложе 35 лет
  3. Мужчины старше 35 лет
  4. Женщины старше 35 лет

Такое разбиение позволяет получить однородные группы и провести сравнительный анализ ответов респондентов с учетом половозрастных различий.

Пример распределения объема выборки для опроса

Вернемся к примеру с опросом 6 тысяч респондентов. Из них 60% женщин и 40% мужчин. Лиц старше 35 лет - 70%, младше 35 лет - 30%. Необходимо определить объем выборки для каждой из 4 страт:

Страта Доля в ген. совокупности Объем выборки (пропорционально) Фактический объем
Мужчины младше 35 лет 0,3 * 0,4 = 0,12 1200 * 0,12 = 144 144 (не менее 30)
Мужчины старше 35 лет 0,7 * 0,4 = 0,28 1200 * 0,28 = 336 336

И так далее для двух страт женщин. Итоговый объем выборки составит 1200 респондентов.

Влияние разбиения на среднеквадратическое отклонение

Среднеквадратичное отклонение (СКО) - это статистическая мера разброса значений случайной величины относительно ее математического ожидания. Чем меньше СКО, тем выше точность оценок статистических параметров.

Декомпозиция СКО для стратифицированной выборки

Формула для расчета СКО стратифицированной случайной величины состоит из двух слагаемых:

  • СКО внутри каждой страты
  • СКО между стратами

При эффективной стратификации первое слагаемое уменьшается, что ведет к снижению общего СКО и повышению точности статистических оценок.

Сравнение значений СКО

Для выбора оптимального варианта стратификации полезно сравнивать получаемые значения СКО на имеющихся данных или с помощью статистического моделирования.

Минимизация СКО выборки

Существуют формальные статистические критерии для оценки качества разбиения данных на страты и минимизации среднеквадратичного отклонения стратифицированной выборки.

Численный пример расчета СКО

Для выборки респондентов опроса можно сравнить СКО ответов на ключевой вопрос для случайной и стратифицированной выборки с учетом социально-демографических характеристик респондентов.

Формулы для расчета СКО

Среднеквадратическое отклонение для простой случайной выборки рассчитывается по формуле:

где S - эмпирическое среднеквадратическое отклонение, а n - объем выборки.

Для стратифицированной выборки формула имеет вид:

Здесь σstr - сумма дисперсий внутри каждой страты, а σbs - дисперсия между средними страт.

Интерпретация полученных СКО

Сравнивая значения СКО для разных вариантов стратификации, можно выбрать оптимальный с точки зрения минимизации среднеквадратического отклонения и повышения точности последующих статистических оценок.

Рекомендации по минимизации СКО

Для снижения СКО стратифицированной выборки рекомендуется:

  • Подбирать ковариаты, сильно коррелирующие с целевой переменной
  • Увеличивать число страт до оптимального значения
  • Выравнивать объемы страт по возможности

Численный пример для опроса

Рассмотрим гипотетический пример расчета СКО для опроса. Пусть генеральная совокупность состоит из 2000 респондентов. Мы разбили ее на 4 страты по полу и возрасту. Необходимо оценить СКО ответов на вопрос об удовлетворенности работой интернет-магазина.

Исходные данные

Здесь для каждой страты приведены: средняя оценка удовлетворенности, стандартное отклонение этой оценки и количество респондентов.

Расчет СКО выборки

Сначала посчитаем СКО для простой случайной выборки из 400 респондентов. Получаем значение 16.2.

Теперь рассчитаем СКО для стратифицированной выборки с учетом данных по стратам. Получаем СКО = 13.7

Таким образом, стратификация позволила снизить среднеквадратичное отклонение и повысить точность оценки среднего балла удовлетворенности.

Комментарии