Вероятность статистической ошибки p-value. Доверять, или не доверять?

Практически все ученые в своих исследованиях, статьях или диссертациях используют при теститровании статистических гипотез показатель P-значение (англ. P-value). Фактически — это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода). Проверка гипотез с помощью P-значения является альтернативой классической процедуре проверки через критическое значение распределения.

Обычно P-значение равно вероятности того, что случайная величина с данным распределением (распределением тестовой статистики при нулевой гипотезе) примет значение, не меньшее, чем фактическое значение тестовой статистики.

Пару слов из теории статистики.

Статистика делится на описательную и аналитическую. Задача аналитической статистики — предоставить методы, с помощью которых можно было бы объективно выяснить, например, является ли наблюдаемая разница в средних значениях или взаимосвязь (корреляция) выборок случайной, или нет.

Если сравниваются два средних значения выборок, то можно сформулировать две предварительные гипотезы:

Гипотеза 0 (нулевая): Наблюдаемые различия между средними значениями выборок находятся в пределах случайных отклонений.
Гипотеза 1 (альтернативная): Наблюдаемые различия между средними значениями нельзя объяснить случайными отклонениями.

В аналитической статистике разработаны методы вычисления, так называемых тестовых (контрольных) величин, которые рассчитываются по определенным формулам на основе данных, содержащихся в выборках или полученных из их характеристик. Эти тестовые величины соответствуют определенным теоретическим распределениям (t-pacnpeлелению, F-распределению, распределению X2 и т.д.), которые позволяют вычислить, так называемую, вероятность ошибки. Эта вероятность равна проценту ошибки, которую можно допустить отвергнув нулевую гипотезу и приняв альтернативную.

Вероятность определяется в математике, как величина, находящаяся в диапазоне от 0 до 1. В практической статистике она также часто выражается в процентах (%). Обычно вероятность обозначаются буквой р:

0 < р < 1

Вероятность ошибки, при которой допустимо отвергнуть нулевую гипотезу и принять альтернативную гипотезу, зависит от каждого конкретного случая. В значительной степени эта вероятность определяется характером исследуемой ситуации. Чем больше требуемая вероятность, с которой надо избежать ошибочного решения, тем более узкими выбираются границы вероятности ошибки, при которой отвергается нулевая гипотеза, так называемый доверительный интервал вероятности. Наиболее часто в исследованиях используют вероятность ошибки 0,05 (5%).

Существует общепринятая терминология, которая относится к доверительным интервалам вероятности:

Вероятность ошибки р <= 0,05 — называется значимой.
Вероятность ошибки р <= 0,01 — очень значимой,
Вероятность ошибки р <= 0,001 — максимально значимой.

В литературе такие ситуации иногда обозначают одной, двумя, тремя, или четырьмя звездочками. Три и четыре звездочки – максимально значимая вероятность ошибки. В SPSS вероятность ошибки р имеет различные обозначения; звездочки для указания степени значимости применяются лишь в немногих случаях. Обычно в SPSS значение р обозначается Sig. (Significant).

Заключения, по имеющимся отклонениям на уровне ошибки p-value, не всегда отражают реальную картину.

Так как многие исследователи используют показатель p-value в своих работах, в своей практике они наблюдают расхождения в экспериментальном использовании значения p и причинно-следственных связях, которые они выявляют.

Поэтому при использовании p-value, надо иметь ввиду:

Факт значимой взаимосвязи двух переменных ничего не говорит нам о причинах и следствиях. Дело в том, что группировка статистических показателей может быть собрана по разному, и сами статистические группы могут быть организованы по разному.
Выявленные причинно-следственные связи первичны, значения p-value – вторичны (они могут подтвердить причинно-следственные связи, могут с ними расходиться). Только исследователь решает, необходимы дополнительные исследования, или нет.
Например, статистическая значимость 0.04 — это вероятность близка к привычным 5%, которые чаще всего используют исследователи. Но 0.04 может не отражать разброс всех данных. И только многочисленные отклонения в трендах, которые и должен задавать исследователь, чтобы приблизиться к истине, представляют исследователю больше данных для анализа. Истина, как я указывала выше, кроется в причинно-следственных связях, а 0.04, как в нашем примере, надо рассматривать как дополнительные характеристики для обоснования вашей гипотезы.

Обеспокоенность по использованию p-value рассматривается учеными. И это радует, так как обоснование научных исследований часто превращаются в «механические расчеты», по которым далеко не всегда живет природа и сама наука.

Международная обеспокоенность.

Обеспокоенность по поводу широко распространенного недопонимания и ненадлежащего использования p-значений в науке побудила Американскую статистическую ассоциацию (ASA) опубликовать в 2016 году свое первое в истории заявление о правильном использовании статистического инструмента, в нем 6 принципов.

Например, определение, что научные выводы не должны основываться только на p-значении. «Практика, которая сокращает анализ данных или научный вывод до механических правил» (таких как p <0,05) для обоснования научных утверждений или выводов, может привести к ошибочным убеждениям и плохому принятию решений», — говорится в заявлении ASA. «Вывод не сразу становится «верным» с одной стороны и «ложным» — с другой». Заявление ASA также указывает на то, что, возможно, p-value является самым большим заблуждением в науке.

Подытожим. Резюме.

Использование дополнений p-value к другим статистическим данным, таким как доверительные интервалы, может лучше учитывать обоснованность гипотезы.

Добавление большего количества статистических слоев не решает проблемы скрытой множественности и избирательных искажений отчетности.

Прозрачность имеет важное значение. Ваши методы, способы исследования, а также схемы исследования и результаты должны быть прозрачны, и они могут иметь больше возможностей в доказательной базе, чем оценка p-value.

Распространенным заблуждением среди не статистов является то, что p-value может доказать нам вероятность того, что результат произошел случайно.

Значение p только говорит нам, что-то о вероятности того, что ваши результаты будут получены при конкретном гипотетическом объяснении — оно не может открыть вам вероятность того, что результаты истинны, или они являются случайными.