Критерии и методы проверки статистических гипотез, примеры
Проверка гипотез является необходимой процедурой в статистике. Испытание гипотезы оценивает два взаимоисключающих заявления, чтобы определить, какое утверждение лучше всего подтверждается данными выборки. Когда говорится, что находка является статистически значимой, это происходит благодаря проверке гипотезы.
Методы проверки
Методы проверки статистических гипотез - это методы статистического анализа. Обычно сравниваются два набора статистических данных или набор данных, полученный путем выборки, сравнивается с синтетическим набором данных из идеализированной модели. Данные должны интерпретироваться таким образом, чтобы добавлять новые смыслы. Можно интерпретировать их, предполагая определенную структуру итогового результата и используя статистические методы для подтверждения или отклонения предположения. Предположение называется гипотезой, а статистические тесты, используемые для этой цели, называются статистическими гипотезами.
Гипотезы H0 и H1
Существует два основных понятия статистической проверки гипотез — так называемая “основная, или нулевая гипотеза” и “альтернативная гипотеза”. Также их называют гипотезами Неймана-Пирсона. Предположение о статистическом тесте называется нулевой гипотезой, основной гипотезой, или H0 для краткости. Его часто называют предположением по умолчанию или предположением, что ничего не изменилось. Нарушение предположения теста часто называют первой гипотезой, альтернативной гипотезой, или H1. H1 - это сокращенное наименование для некоторой другой гипотезы, поскольку все, что о ней известно, состоит в том, что данные H0 можно отбросить.
Прежде чем отклонить или не отклонить нулевую гипотезу, необходимо интерпретировать результат теста. Сравнение считается статистически значимым, если связь между наборами данных будет маловероятной реализацией нулевой гипотезы в соответствии с пороговой вероятностью - уровнем значимости. Существуют также критерии согласия статистической проверки гипотез. Так называется критерий проверки гипотезы, который связан с предполагаемым законом неизвестного распределения. Это численная мера расхождения между эмпирическим и теоретическим распределением.
Процедура и критерии проверки статистических гипотез
Наиболее распространенные методы отбора гипотез основаны либо на информационном критерии Akaike, либо на коэффициенте Байеса. Статистическое тестирование гипотез - это ключевой метод как вывода, так и байесовского вывода, хотя два этих типа имеют заметные отличия. Статистические тесты гипотез определяют процедуру, которая контролирует вероятность ошибочного принятия решения о неправильной гипотезе по умолчанию или нулевой гипотезе. Процедура основана на том, насколько вероятно, что сработает именно она. Эта вероятность принятия неправильного решения — невероятность того, что нулевая гипотеза верна и не существует какой-либо конкретной альтернативной гипотезы. Тест не может показать ее истинность или ложность.
Альтернативные методы теории принятия решений
Существуют и альтернативные методы теории принятия решений, в которых нулевая и первая гипотеза рассматриваются на более равной основе. Другие подходы к принятию решений, такие как байесовская теория, пытаются сбалансировать последствия неправильных решений по всем возможностям, а не концентрироваться на одной нулевой гипотезе. Ряд других подходов к решению, какая из гипотез верна, основываются на данных, которые из них обладают желательными свойствами. Но тестирование гипотезы является доминирующим подходом к анализу данных во многих областях науки.
Тестирование статистической гипотезы
Всякий раз, когда какой-то набор результатов отличается от другого набора, нужно полагаться на проверку статистических гипотез или статистические тесты гипотез. Их интерпретация требует правильного понимания p-значений и критических значений. Также важно понимать, что, независимо от уровня значимости, тесты могут по-прежнему содержать ошибки. Поэтому вывод может быть неправильным.
Процесс тестирования состоит из нескольких этапов:
- Создается первоначальная гипотеза для исследования.
- Указываются соответствующие нулевые и альтернативные гипотезы.
- Рассматриваются статистические предположения относительно выборки при проведении теста.
- Определяется, какой тест подходит.
- Выбирается уровень значимости и порог вероятности, ниже которого нулевая гипотеза будет отвергнута.
- Распределение тестовой статистики по нулевой гипотезе показывает возможные значения, при которых нулевая гипотеза отвергается.
- Проводятся вычисления.
- Принимается решение отклонить или принять нулевую гипотезу в пользу альтернативы.
Существует альтернативный вариант, где используется p-значение.
Критерии значимости
Чистые данные не приносят практической пользы без интерпретации. В статистике, когда нужно начать задавать вопросы о данных и интерпретировать результаты, используются статистические методы, которые обеспечивают точность или вероятность ответов. При проверке статистических гипотез, этот класс методов называется статистическим тестированием, или критериями значимости. Термин “гипотеза” напоминает о научных методах, где исследуются именно гипотезы и теории. В статистике тест гипотезы в результате выдает некоторую количественную величину при заданном предположении. Он позволяет интерпретировать, выполняется ли предположение или же было допущено нарушение.
Статистическая интерпретация тестов
Тесты гипотез используются для определения того, какие результаты исследования приведут к отказу от нулевой гипотезы для заранее определенного уровня значимости. Результаты теста статистической гипотезы должны быть интерпретированы, чтобы можно было продолжить работать над ней. Существуют две распространенные формы критериев проверки статистических гипотез. Это p-значение и критические значения. В зависимости от выбранного критерия полученные результаты нужно интерпретировать по-разному.
Что такое p-значение
Вывод описывается как статистически значимый при интерпретации p-значения. Фактически этот показатель означает вероятность ошибки, если нулевая гипотеза будет отклонена. Другими словами, так можно назвать значение, которое допустимо использовать для интерпретации или количественной оценки результата теста, и определить вероятность ошибки при отклонении нулевой гипотезы. Например, можно выполнить тест на нормальность распределения в образце данных и обнаружить маловероятность отклонения. При этом не нужно отказываться от нулевой гипотезы. Тест статистической гипотезы может возвращать p-значение. Это делается путем сравнения значения p с заранее заданным пороговым значением, называемым уровнем значимости.
Уровень значимости
Уровень значимости часто записывается греческой строчной буквой "альфа". Общее значение, используемое для альфа, составляет 5 %, или 0,05. Меньшая альфа-величина предполагает более надежную интерпретацию нулевой гипотезы. Р-значение сравнивается с заранее выбранным значением альфа. Результат является статистически значимым, если р-значение меньше, чем альфа. Уровень значимости можно инвертировать путем вычитания его из единицы. Это делается для определения уровня достоверности гипотезы, учитывая наблюдаемые выборочные данные. При использовании такого метода проверки статистических гипотез Р-значение является вероятностным. Это означает, что в процессе интерпретации результата статистического теста не известно, что является истинным или ложным.
Теория проверки статистических гипотез
Отклонение нулевой гипотезы означает, что существует достаточно статистических данных о том, выглядит ли она вероятной. В противном случае, это означает, что нет достаточного количества статистических данных, чтобы отвергнуть ее. Можно рассуждать о статистических тестах с точки зрения дихотомии отклонения и принятия нулевой гипотезы. Опасность статистического критерия проверки нулевой гипотезы заключается в том, что в случае ее принятия может показаться, что она верна. Вместо этого было бы более правильно сказать, что нулевую гипотезу не отвергают, так как недостаточно статистических данных, чтобы отклонить ее.
Этот момент часто сбивает с толку начинающих статистов. В подобном случае важно напомнить себе, что результат является вероятностным и что даже принятие нулевой гипотезы до сих пор имеет малую вероятность наличия ошибки.
Верная или неверная нулевая гипотеза
Интерпретация значения р не значит, что нулевая гипотеза является истинной или ложной. Это означает, что был сделан выбор отклонить или не отвергать нулевую гипотезу на определенном уровне статистической значимости на основе эмпирических данных и выбранного статистического теста. Поэтому р-значение можно рассматривать как вероятность данных, приведенных в заранее оговоренном предположении, внедренном в статистические испытания. Р-значение является мерой того, насколько вероятно, что выборка данных будет наблюдаться, если нулевая гипотеза верна.
Интерпретация критических значений
Некоторые тесты не возвращают значение р. Вместо этого они могут возвращать список критических значений. Результаты такого исследования интерпретируются аналогичным образом. Вместо того чтобы сравнивать одно p-значение заранее определенного уровня значимости, тестовая статистика сравнивается с критическим значением. Если она оказывается меньше, это означает, что отклонить нулевую гипотезу не удалось. Если больше либо равна, следует отклонить нулевую гипотезу. Смысл алгоритма проверки статистической гипотезы и интерпретации его результата аналогичен p-значению. Выбранный уровень значимости является вероятностным решением об отказе или не отклонении базового предположения о тесте с учетом данных.
Ошибки в статистических испытаниях
Интерпретация теста статистической гипотезы является вероятностной. Задача проверки статистических гипотез — не найти истинное или ложное утверждение. Доказательства теста могут быть ошибочными. Например, если альфа была 5 %, это говорит о том, что по большей части 1 раз из 20 нулевая гипотеза будет отклонена по ошибке. Или не будет из-за статистического шума в выборке данных. Учитывая этот момент, небольшое значение р, при котором следует отклонить нулевую гипотезу, может означать, что она ложная или что была совершена ошибка. Если этот тип ошибки сделан, результат называется ложноположительным. А такая ошибка — ошибкой первого рода при проверке статистических гипотез. С другой стороны, если значение р достаточно большое, что означает отказ от отклонения нулевой гипотезы, это может значить, что она верна. Или не верна, и произошло какое-то маловероятное событие, из-за которого была совершена ошибка. Такой тип ошибки называется ложноотрицательным.
Вероятность ошибок
При проверке статистических гипотез остается шанс совершить любую из этих типов ошибок. Ложные данные или ложные выводы достаточно вероятны. В идеале необходимо выбрать такой уровень значимости, который сводит к минимуму вероятность одной из этих ошибок. Например, статистическая проверка нулевых гипотез может иметь очень маленький уровень значимости. Хотя уровни значимости, такие как 0,05 и 0,01 распространены во многих областях науки, чаще всего применяется использование уровня значимости 3 * 10 ^ -7, или 0,0000003. Он часто называется “5-сигма”. Это означает, что вывод был случайным с вероятностью 1 в 3,5 миллиона независимых повторов экспериментов. Примеры проверки статистических гипотез часто несут в себе подобные ошибки. Это также является причиной, почему важно иметь результаты независимой проверки.
Примеры использования статистической проверки
Существует несколько распространенных примеров применения тестирования гипотез на практике. Один из самых популярных известен под названием “Дегустации чая”. Доктор Мюриэль Бристоль, коллега основателя биометрии Роберта Фишера, утверждала, что может точно сказать, был добавлен первым в чашку чай или молоко. Фишер предложил дать ей восемь чашек (по четыре из каждой разновидности) в случайном порядке. Тестовая статистика была простой: подсчет числа успехов в выборе чашки. Критическая область была единственным случаем успеха из 4, возможно, на основе обычного критерия вероятности (< 5 %; 1 из 70 ≈ 1,4%). Фишер утверждала, что альтернативная гипотеза не требуется. Дама правильно определила каждую чашку, которая рассматривалась как статистически значимый результат. Благодаря этому опыту появилась книга Фишера “Статистические методы для научных сотрудников”.
Пример с подсудимым
Статистическая процедура испытания сравнима с уголовным судом, где ответчик считается не виновным, пока его вина не доказана. Прокурор пытается доказать вину ответчика. Только тогда, когда существует достаточно доказательств для обвинения, ответчик может быть признан виновным. В начале процедуры существуют две гипотезы: "Подсудимый не виновен" и "Подсудимый виновен". Гипотеза о невиновности может быть отвергнута лишь тогда, когда ошибка очень маловероятна, потому что один не хочет осудить невинного подсудимого. Такая ошибка называется ошибкой первого рода, и ее возникновение контролируется редко. Как следствие этого асимметричного поведения, ошибка второго рода, то есть оправдание лица, совершившего преступление, является более распространенным явлением.
Статистика полезна при анализе большого количества данных. Это в равной степени относится и к проверке гипотез, которые могут оправдать выводы, даже если никакой научной теории не существует. В примере с дегустацией чая было “очевидно”, что никакой разницы не существует между тем, молоко ли вливают в чай, или же чай наливают в молоко.
Реальное практическое приложение тестирования гипотез включает:
- тестирование больше ли мужчины, чем женщины, страдают от кошмаров;
- установление авторства документов;
- оценка влияния полнолуния на поведение;
- определение диапазона, в котором летучая мышь может обнаружить насекомое с помощью эха;
- выбор лучших средств, чтобы бросить курить;
- проверка, отражают ли наклейки на бампер поведение владельца автомобиля.
Статистическая проверка гипотез играет важную роль в целом в статистике и в статистических выводах. Тестирование значения используется в качестве замены традиционного сравнения прогнозируемого значения и экспериментального результата в ядре научного метода. Когда теория способна только предсказывать знак отношений, направленные тесты гипотезы могут быть сконфигурированы таким образом, что только статистически значимый результат поддерживает теорию. Эта форма теории оценки является наиболее жесткой критикой применения проверки гипотез.