понедельник, 11 января 2016 г.

Основы теории проверки статистических гипотез. Ошибки 1-го и 2-го рода. Уровень значимости и мощность критерия. Примеры.

Основы теории проверки статистических гипотез

Пусть в (статистическом) эксперименте доступна наблюдению случайная величина Xраспределение которой \mathbb{P} полностью или частично неизвестно. Тогда любое утверждение, относительно \mathbb{P}, называется статистической гипотезой. Гипотезы различают по виду предположений, содержащихся в них:
  • Статистическая гипотеза, однозначно определяющая распределение \mathbb{P}, то есть H:\;\{\mathbb{P}= \mathbb{P}_0\}, где \mathbb{P}_0 какой-то конкретный закон, называется простой.
  • Статистическая гипотеза, утверждающая принадлежность распределения \mathbb{P} к некоторому семейству распределений, то есть вида H:\;\{\mathbb{P}\in \mathcal{P}\}, где \mathcal{P} — семейство распределений, называется сложной.
На практике обычно требуется проверить какую-то конкретную и как правило простую гипотезу H_0. Такую гипотезу принято называть нулевой. При этом параллельно рассматривается противоречащая ей гипотеза H_1, называемая конкурирующей илиальтернативной.
Выдвинутая гипотеза нуждается в проверке, которая осуществляется статистическими методами, поэтому гипотезу называют статистической. Для проверки гипотезы используют критерии, позволяющие принять или опровергнуть гипотезу.
В большинстве случаев статистические критерии основаны на случайной выборке (X_1,X_2,\dots,X_n) фиксированного объема n\geq 1 для распределения \mathbb P. В последовательном анализе выборка формируется в ходе самого эксперимента и потому её размер является случайной величиной (см. Последовательный статистический критерий).

Пример


Пусть дана независимая выборка (X_1,\ldots,X_n) \sim \mathcal{N}(\mu, 1) из нормального распределения, где \mu — неизвестный параметр. Тогда H_0:\;\{\mu = \mu_0\}, где \mu_0 — фиксированная константа, является простой гипотезой, а конкурирующая с ней H_1:\;\{\mu > \mu_0\} — сложной.

Ошибки 1-го и 2-го рода

Большинство проверяемых гипотез сравнивают между собой группы объектов, которые испытывают влияние различных факторов. 
Например, можно сравнить эффективность двух видов лечения, чтобы сократить 5-летнюю смертность от рака молочной железы. Для данного исхода (например, смерть) сравнение, представляющее интерес (напри­мер, различные показатели смертности через 5 лет), называют эффектом или, если уместно, эффектом лечения. 
Нулевую гипотезу выражают как отсутствие эффекта (например 5-летняя смертность от рака мо­лочной железы одинаковая в двух группах, получаю­щих разное лечение); двусторонняя альтернативная гипотеза будет означать, что различие эффектов не равно нулю. 
Критериальная проверка гипотезы дает возможность определить, достаточно ли аргументов, чтобы отвергнуть нулевую гипотезу. Можно принять только одно из двух решений: 
  1. отвергнуть нулевую гипотезу и принять альтер­нативную гипотезу 
  2. остаться в рамках нулевой гипотезы
Важно: В литературе достаточно часто встречается понятие "принять нулевую гипотезу". Хотелось бы внести ясность, что со статистической точки зрения принять нулевую гипотезу невозможно, т.к. нулевая гипотеза представляет собой достаточно строгое утверждение (например, средние значения в сравниваемых группах равны ).
Поэтому фразу о принятии нулевой гипотезы следует понимать как то, что мы просто остаемся в рамках гипотезы. 

Принятие неправильного решения

Возможно неправильное решение, когда отвергают/не отвергают нулевую гипотезу, потому что есть только выборочная информация.
  Верная гипотеза
H0H1
Результат
 применения 
критерия
H0H0 верно принятаH0 неверно принята 
(Ошибка второго рода)
H1H0 неверно отвергнута 
(Ошибка первого рода)
H0 верно отвергнута
Ошибка 1-го рода: нулевую гипотезу отвергают, когда она истинна, и делают вывод, что имеется эффект, когда в действительности его нет. Максимальный шанс (вероятность) допустить ошибку 1-го рода обозначается α (альфа). Это уровень значимости критерия; нулевую гипотезу отвергают, если наше значение p ниже уровня значимости, т. е., если p < α.
Следует принять решение относительно значения а прежде, чем будут собраны данные; обычно назначают условное значение 0,05, хотя можно выбрать более ограничивающее значение, например 0,01. 
Шанс допустить ошибку 1-го рода никогда не превысит выбранного уровня значимости, скажем α = 0,05, так как нулевую гипотезу отвергают только тогда, когда p< 0,05. Если обнаружено, что p > 0,05, то нулевую гипотезу не отвергнут и, следовательно, не допустят ошибки 1-го рода.
Ошибка 2-го рода: не отвергают нулевую гипотезу, когда она ложна, и делают вывод, что нет эффекта, тогда как в действительности он существует. Шанс возникновения ошибки 2-го рода обозначается β (бета); а величина (1-β) называетсямощностью критерия
Следовательно, мощность — это вероятность отклонения нулевой гипотезы, когда она ложна, т.е. это шанс (обычно выраженный в процентах) обнаружить реальный эффект лечения в выборке данного объема как статистически значимый.
В идеале хотелось бы, чтобы мощность критерия составляла 100%; однако это невозможно, так как всегда остается шанс, хотя и незначительный, допустить ошибку 2-го рода. 
К счастью, известно, какие факторы влияют на мощность и, таким образом, можно контролировать мощность критерия, рассматривая их.

Мощность и связанные факторы

Планируя исследование, необходимо знать мощность предложенного критерия. Очевидно, можно начинать исследование, если есть «хороший» шанс обнаружить уместный эффект, если таковой существует (под «хорошим» мы подразумеваем, что мощность должна быть по крайней мере 70-80%). 
Этически безответственно начинать исследование, у которого, скажем, только 40% вероятности обнаружить реальный эффект лечения; это бесполезная трата времени и денежных средств.
Ряд факторов имеют прямое отношение к мощности критерия.
Объем выборки: мощность критерия увеличивается по мере увеличения объема выборки. Это означает, что у большей выборки больше возможностей, чем у незначительной, обнаружить важный эффект, если он существует. 
Когда объем выборки небольшой, у критерия может быть недостаточно мощности, чтобы обнаружить отдельный эффект. Эти методы также можно использовать для оценки мощности критерия для точно установленного объема выборки.
Вариабельность наблюдений: мощность увеличивается по мере того, как вариабельность наблюдений уменьшается.
Интересующий исследователя эффект: мощность критерия больше для более высоких эффектов. Критерий проверки гипотез имеет больше шансов обнаружить значительный реальный эффект, чем незначительный.
Уровень значимости: мощность будет больше, если уровень значимости выше (это эквивалентно увеличению допущения ошибки 1-го рода, α, а допущение ошибки 2-го рода, β, уменьшается). 
Таким образом, вероятнее всего, исследователь обнаружит реальный эффект, если на стадии планирования решит, что будет рассматривать значение р как значимое, если оно скорее будет меньше 0,05, чем меньше 0,01.
Обратите внимание, что проверка ДИ для интересующего эффекта указывает на то, была ли мощность адекватной. Большой доверительный интервал следует из небольшой выборки и/или набора данных с существенной вариабельностью и указывает на недостаточную мощность.

Комментариев нет:

Отправить комментарий