аблюдаемое значение, и одна из таких характеристик – это площадь хвоста распределения. Например, площадь части фигуры, расположенной справа от вертикальной пунктирной линии, составляет 0,45, или 45 %.
Это число именуется P-значением[191] и считается одним из самых полезных понятий в статистике, а потому заслуживает строгого определения: P-значение – это вероятность получить результат, по крайней мере такой же или более экстремальный, чем наблюдаемый, если нулевая гипотеза (и все другие предположения моделирования) на самом деле верна.
Но тут есть важный нюанс, что мы подразумеваем под «экстремальным» результатом? Наше P-значение 0,45 одностороннее, так как указывает, насколько вероятно получить в эксперименте не меньшую разницу в пользу только женщин, если нулевая гипотеза верна. Это P-значение используется при так называемых односторонних критериях. Но ведь большая разница в пользу мужчин тоже заставила бы нас сомневаться в справедливости нулевой гипотезы. Поэтому мы должны также вычислить вероятность получить отклонение не меньше 7 % в обоих направлениях. Так появляются двусторонние P-значения, соответствующие двусторонним критериям. Общая площадь двух частей фигуры, отдаленных от центра-нуля больше чем на 7 %, равна примерно 0,89, а поскольку это значение близко к единице, следовательно, наблюдаемое значение находится близко к центру нулевого распределения. Конечно, на рис. 10.2 это видно и так, но, учитывая, что подобные гистограммы доступны не всегда, нам нужно число, формально выражающее «экстремальность» наших данных.
Арбетнот предоставил первый зафиксированный пример такой процедуры: при нулевой гипотезе (когда девочки и мальчики рождаются с равной вероятностью) вероятность того, что 82 года подряд мальчики будут рождаться чаще девочек, равна 1/282. Но так определяется «экстремальность» только в терминах превосходства мальчиков. А поскольку мы можем сомневаться и в нулевой гипотезе, что 82 года подряд девочки будут рождаться чаще мальчиков, то должны удвоить это число, чтобы получить экстремальный результат в обоих направлениях. Поэтому число 1/282 можно считать первым установленным двусторонним P-значением, хотя этот термин появился только через 250 лет.
Кстати, моя небольшая выборка не выявила никакой связи между полом и скрещиванием рук, да и другие, более научные исследования не обнаружили взаимосвязи между поведением при скрещивании рук, полом, леворукостью и остальными признаками.
Статистическая значимость
Идея статистической значимости проста: когда P-значение достаточно мало, мы говорим, что результаты статистически значимы. Этот термин был популяризирован Рональдом Фишером в 1920-х годах и, несмотря на критику, которую мы рассмотрим позже, продолжает играть в статистике важную роль.
Рональд Фишер был незаурядным, но трудным человеком. Незаурядным потому, что его считают пионером в двух областях – генетике и статистике. А трудным, поскольку, имея весьма скверный характер, мог крайне негативно отзываться о тех, кто (по его мнению) оспаривал его идеи; к тому же его репутации сильно повредила поддержка евгеники и критика доказательств связи между курением и раком легких. И хотя его личная репутация пострадала в результате обнаружения его финансовых связей с табачной промышленностью, на научной репутации ученого это никак не сказалось, так как его идеи неизменно находят новое применение при анализе больших массивов данных.
Как упоминалось в главе 4, Фишер развил идею рандомизации для сельскохозяйственных испытаний во время работы на опытной сельскохозяйственной станции в Ротамстеде. Потом он продемонстрировал идеи рандомизации в своем знаменитом тесте с дегустацией чая, в ходе которого некая женщина (по имени Мюриэль Бристоль) заявила, что может по вкусу определить, добавляли в чашку молоко до или после чая.
В четыре чашки налили сначала чай, а затем молоко, а в четыре – сначала молоко, а потом чай. Все восемь чашек в случайном порядке выставили в ряд и сообщили Мюриэль, что здесь по четыре чашки каждого вида наливания. Говорят, она правильно определила все чашки. Если считать нулевой гипотезой то, что Мюриэль просто угадывала, то с помощью гипергеометрического распределения нетрудно показать, что вероятность этого равна 1/70 ≈ 1,4 %[192]. Такое P-значение считается маленьким[193], а потому результат можно объявить статистически значимым подтверждением того, что Мюриэль не угадывала, а действительно умела различать, в какой последовательности доливали молоко.
Подводя итог, мы действуем следующим образом.
1. Ставим вопрос в терминах нулевой гипотезы, которую хотим проверить. Обычно она обозначается H0.
2. Выбираем какую-нибудь статистику критерия, которая, если ее величина будет достаточно экстремальной, позволит нам поставить под сомнение нулевую гипотезу (часто большие значения такой статистики указывают на несовместимость с нулевой гипотезой).
3. Создаем выборочное распределение этой статистики при условии, что нулевая гипотеза верна.
4. Проверяем, находится ли наблюдаемая величина в хвостах этого распределения, что определяем с помощью P-значения: какова вероятность наблюдаемого экстремального распределения в случае, если верна нулевая гипотеза. Численно эта вероятность представляет собой площадь части распределения, лежащей правее наблюдаемой величины.
5. Аккуратно подходим к определению, что такое «экстремальная» величина, – например, если с нулевой гипотезой несовместимы и большие положительные, и большие отрицательные значения статистики критерия, то P-значение должно это учитывать.
6. Объявляем результат статистически значимым, если P-значение меньше некоторой критической пороговой величины.
Рональд Фишер использовал в качестве удобных порогов значимости P < 0,05 и P < 0,01 и составил таблицы критических значений статистики критерия, которые нужно превзойти, чтобы получить такие уровни значимости. Ввиду популярности этих таблиц числа 0,05 и 0,01 стали общепринятыми, хотя сейчас рекомендуется указывать точные P-значения. Важно подчеркнуть, что точное P-значение зависит не только от истинности нулевой гипотезы, но и ото всех других допущений, лежащих в основе статистической модели, например отсутствия систематической ошибки, независимости наблюдений и так далее.
Весь этот процесс известен как проверка значимости нулевой гипотезы (NHST – Null Hypothesis Significance Testing), и, как мы увидим далее, он стал источником серьезных разногласий. Но сначала посмотрим, как идеи Фишера работают на практике.
Использование теории вероятностей
Пожалуй, самый сложный в проверке значимости нулевой гипотезы третий шаг – определение распределения выбранной статистики при нулевой гипотезе. Мы всегда можем вернуться к методам компьютерного моделирования (как с тестом перестановки для данных о скрещивании рук на груди), однако намного удобнее работать с хвостами статистического критерия непосредственно с помощью теории вероятностей, как это делали Арбетнот (в простейшем случае) и Фишер (применивший гипергеометрическое распределение в эксперименте с чашками).
Часто мы используем приближения (аппроксимации), разработанные пионерами статистики. Например, около 1900 года Карл Пирсон разработал несколько критериев для проверки зависимости для таблиц сопряженности (таких как табл. 10.1). Из этого вырос классический критерий согласия χ2 (хи-квадрат).
Эти проверки включают вычисление ожидаемого числа событий, попадающих в каждую ячейку таблицы при условии справедливости нулевой гипотезы (отсутствие зависимости), после чего статистика хи-квадрат измеряет общее расхождение между наблюдаемыми и ожидаемыми значениями. В табл. 10.2 приведены ожидаемые значения в ячейках таблицы при условии нулевой гипотезы: например, ожидаемое количество женщин, кладущих сверху левую руку, равно общему числу женщин (14), умноженному на долю всех «леворуких» (22/54), и составляет 5,7.
Таблица 10.2
Наблюдаемое и ожидаемое (в скобках) число людей, кладущих сверху правую или левую руку, в зависимости от пола. Ожидаемые количества вычислены при нулевой гипотезе, согласно которой скрещивание рук не зависит от пола
Из табл. 10.2 видно, что наблюдаемое и ожидаемое число довольно близки, то есть реальные данные соответствуют тому, что мы могли бы ожидать при нулевой гипотезе. Статистика хи-квадрат – это общая мера расхождения между наблюдаемыми и ожидаемыми значениями (ее формула приводится в глоссарии), в данном случае она равна 0,02. Соответствующее P-значение (есть в таблицах или программах) составляет 0,90, что не противоречит нулевой гипотезе. Обнадеживает то, что оно фактически то же, что и «точный» критерий, основанный на гипергеометрическом распределении.
Разработка и использование статистических критериев и P-значений традиционно составляют значительную часть стандартного курса статистики и, к сожалению, обеспечивают этой области репутацию места, где в основном следует брать нужную формулу и использовать нужную таблицу. И хотя цель этой книги – сформировать более широкий взгляд на предмет, тем не менее полезно рассмотреть примеры, которые мы обсуждали, с точки зрения статистической значимости.
1. Соответствует ли ежедневное число убийств в Англии и Уэльсе распределению Пуассона?
На рис. 8.5 отображено наблюдаемое количество дней с различным числом убийств в Англии и Уэльсе за 2014–2016 годы. Всего за 1095 дней зафиксировано 1545 случаев убийства, в среднем – 1,41 в день. Если в качестве нулевой гипотезы принять, что убийства имеют распределение Пуассона со средним 1,41, то можно ожидать чисел, указанных в последнем столбце табл. 10.3. Используя тот же подход, что и для