Пожалуй, мы подошли к самой важной части цикла решения проблем, где мы ищем ответы на конкретные вопросы о том, как устроен мир. Например:
1. Соответствует ли ежедневное число убийств в Соединенном Королевстве распределению Пуассона?
2. Изменился ли уровень безработицы в Соединенном Королевстве за последний квартал?
3. Снижает ли употребление статинов риск инфарктов и инсультов у людей вроде меня?
4. Связан ли рост матерей с ростом их сыновей, если учитывать рост отцов?
5. Существует ли бозон Хиггса?
Этот список показывает, что можно задавать самые разные вопросы – от преходящих до вечных.
1. Убийства и распределение Пуассона: общее правило, которое не представляет особого интереса для общества, но помогает ответить, произошли ли изменения в реальном уровне преступности.
2. Изменения в уровне безработицы: специфический вопрос, относящийся к конкретному времени и конкретному месту.
3. Статины: научное утверждение, но относящееся к конкретной группе.
4. Рост матерей: возможно, представляет научный интерес.
5. Бозон Хиггса: может изменить основные представления о физических законах Вселенной.
У нас есть данные, которые могут помочь ответить на некоторые из этих вопросов. Мы уже строили графики и делали какие-то неформальные заключения для подходящих статистических моделей. Однако сейчас мы подошли к составляющей этапа анализа цикла PPDAC, известной как проверка гипотез.
Гипотезу можно определить как предлагаемое объяснение явления. Это не абсолютная истина, а временное рабочее предположение, которое, возможно, лучше всего представлять как подозреваемого в уголовном деле.
При обсуждении регрессии в главе 5 мы столкнулись с утверждением, что
наблюдение = детерминистская модель + остаточная ошибка.
Оно отражает идею, что статистические модели – это математические представления наших наблюдений, где сочетаются детерминистский и стохастический компоненты. Стохастический компонент отражает непредсказуемость, или случайную «ошибку», обычно выраженную в терминах какого-нибудь вероятностного распределения. В рамках статистики гипотезой считается какое-то конкретное предположение об одном из компонентов статистической модели, носящее смысловой оттенок «рабочей версии», а не «истины».
Зачем нужно формально тестировать нулевые гипотезы?
Открытия ценятся не только учеными – восторг от обнаружения чего-то нового универсален и настолько соблазнителен, что у нас есть врожденная склонность ощущать, будто мы нашли что-то новое, даже когда на самом деле этого нет. Ранее для описания способности видеть закономерности и связи там, где их не существует, мы использовали термин апофения; даже было высказано предположение, что такая склонность обеспечивает определенное эволюционное преимущество – те наши предки, которые, заслышав шорох в кустах, тут же убегали, не дожидаясь момента, чтобы выяснить, действительно ли там тигр, выживали с большей вероятностью.
Однако такое отношение может быть приемлемым для охотников-собирателей, но не для науки, ведь когда наши утверждения остаются всего лишь плодом нашего воображения, подрывается сама суть научного процесса. Должен существовать способ защитить нас от ложных открытий, и проверка гипотез претендует на эту роль.
Центральной здесь становится идея нулевой гипотезы: это упрощенная форма статистической модели, с которой мы будем работать, пока не получим достаточное количество аргументов против нее. Для вышеуказанных вопросов нулевыми гипотезами могут быть:
1. Ежедневное количество убийств в Соединенном Королевстве имеет распределение Пуассона.
2. Уровень безработицы в Соединенном Королевстве за последний квартал не изменился.
3. Статины не уменьшают риск инфарктов и инсультов у людей вроде меня.
4. Рост матерей не влияет на рост сыновей, если учесть рост отцов.
5. Бозона Хиггса не существует.
Нулевая гипотеза – это то, что мы готовы принять, пока не докажем обратное. Она безжалостно негативна в своем отрицании прогресса и перемен. Но это не означает, что на самом деле мы верим в ее безусловную правильность: ясно, что ни одна из вышеперечисленных гипотез не может быть в точности верной (за исключением, возможно, несуществования бозона Хиггса). Поэтому мы никогда не можем заявить, что нулевая гипотеза фактически доказана. Как говорил великий британский статистик Рональд Фишер, «нулевая гипотеза в ходе экспериментов никогда не доказывается, но, возможно, опровергается. Можно сказать, что любой эксперимент существует только для того, чтобы дать фактам шанс опровергнуть нулевую гипотезу»[186].
Весьма хороша аналогия с уголовным судопроизводством в английской правовой системе: подсудимого можно признать виновным, но никого нельзя признать невиновным просто потому, что не доказана его вина. Точно так же мы можем что-то найти, что способно опровергнуть нулевую гипотезу, но если у нас недостаточно доказательств, это вовсе не значит, что мы можем считать ее истинной. Это всего лишь рабочее предположение, пока не найдется что-нибудь получше.
Скрестите руки на груди. У вас сверху левая или правая рука? Согласно исследованиям, примерно у половины людей сверху правая рука и у половины – левая. Но связано ли это с тем, мужчина вы или женщина?
Хотя это не самый насущный научный вопрос, который я исследовал, когда преподавал в Африканском институте математических наук[187] в 2013 году, он был прекрасным упражнением для аудитории, а мне действительно хотелось узнать ответ[188]. Я получил данные по 54 аспирантам со всей Африки. Табл. 10.1 показывает общее распределение ответов по полу и положению правой или левой руки сверху. Такой тип таблицы в статистике называется таблицей сопряженности, или факторной таблицей.
Таблица 10.1
Таблица сопряженности полов и положения рук при скрещивании для 54 аспирантов
В целом большинство кладут сверху правую руку (32/54 = 59 %). Однако у женщин доля таких «праворуких» (9/14 = 64 %) выше, чем у мужчин (23/40 = 57 %): наблюдаемая разница между долями составляет 64–57 = 7 %. В этом случае нулевая гипотеза состоит в том, что между скрещиванием рук и полом нет никакой связи, а потому наблюдаемая разница в долях между полами должна равняться 0 %. Ключевой вопрос: может ли наблюдаемое отклонение в 7 % считаться достаточно большим, чтобы противостоять нулевой гипотезе?
Чтобы ответить на этот вопрос, нужно знать, какой разницы в долях мы можем ожидать просто вследствие случайного разброса при справедливости нулевой гипотезы, то есть независимости скрещивания рук и пола. Более формально: совместима ли наблюдаемая разница 7 % с нулевой гипотезой?[189]
Это сложная, но важная идея. Когда Арбетнот проверял свою нулевую гипотезу, согласно которой мальчики и девочки рождаются равновероятно, он смог легко выяснить, что наблюдаемые данные ни в малейшей степени не совместимы с нулевой гипотезой – шансы, что по чистой случайности мальчики будут численно превосходить девочек 82 года подряд, ничтожно малы. В более сложных ситуациях выяснить, совместимы ли данные с нулевой гипотезой, не так просто. Однако приведенный ниже тест перестановки отображает мощную процедуру, позволяющую избежать сложной математики.
Представьте, что все 54 человека выстроились в ряд, сначала 14 женщин, а затем 40 мужчин, и каждому присвоен номер от 1 до 54. Допустим, у каждого есть билет, указывающий, какая рука у него при скрещивании сверху – левая или правая. А теперь вообразите, что все эти билеты смешали в шляпе и раздали присутствующим наугад. Это пример того, каких результатов можно ожидать, если бы нулевая гипотеза была верна, ведь при случайной раздаче скрещивание рук и пол никак не связаны.
Но даже при случайном распределении доля «держащих сверху правую руку» не будет в точности совпадать для мужчин и женщин (просто из-за чистой случайности), и мы можем вычислить наблюдаемую разницу в долях для этой случайной раздачи билетов. Затем мы могли бы повторить процесс, скажем 1000 раз, и посмотреть, какое распределение будет у этой разницы. Результаты приведены на рис. 10.2(a): показан разброс наблюдаемых разниц – некоторые в пользу мужчин, некоторые в пользу женщин – с центром в нуле. Фактически наблюдаемая разница находится недалеко от центра распределения.
Рис. 10.2
Эмпирическое распределение разницы между долями женщин и мужчин, которые при скрещивании рук кладут сверху правую руку: (a) для 1000 случайных перестановок, (b) для всех равновероятно возможных перестановок по отношению к скрещиванию рук. Наблюдаемое различие в пропорциях (7 %) обозначено вертикальной пунктирной линией
В качестве альтернативы (при наличии времени) можно взять все возможные перестановки билетов, не ограничиваясь моделированием 1000 симуляций. Каждая перестановка даст какую-то наблюдаемую разницу в долях «праворуких» у мужчин и женщин, и, нанеся на график все результаты, мы получим более гладкое распределение, чем построенное по 1000 симуляциям.
К несчастью, таких перестановок масса, и даже если вычислять их со скоростью миллион в секунду, на это уйдет число лет с 57 нулями[190]. К счастью, нам незачем производить эти вычисления, поскольку распределение для наблюдаемой разницы в таких долях при нулевой гипотезе можно найти теоретически: оно представлено на рис. 10.2(b) и основано на так называемом гипергеометрическом распределении.
Рис. 10.2 показывает, что реально наблюдаемая разница в долях «праворуких» мужчин и женщин (7 % в пользу женщин) лежит достаточно близко к центру распределения для разниц, которых можно было бы ожидать, если бы никакой связи вообще не было. Нам нужна мера, характеризующая, насколько близко к центру лежит н