Искусство статистики. Как находить ответы в данных — страница 35 из 56

табл. 10.2, для расхождения между наблюдаемыми и ожидаемыми данными можно применить критерий согласия хи-квадрат (см. подробности в глоссарии).


Таблица 10.3

Наблюдаемое и ожидаемое количество дней с определенным числом случаев убийства в Англии и Уэльсе с апреля 2014 по март 2016 года. Критерий согласия хи-квадрат дает P-значение 0,96, что указывает на отсутствие расхождений с нулевой гипотезой о распределении Пуассона


Наблюдаемое P-значение 0,96 не значимо, поэтому нет оснований отклонять нулевую гипотезу (на самом деле согласие настолько хорошее, что это почти подозрительно). Конечно, нам не стоит предполагать, что нулевая гипотеза однозначно истинна, но было бы разумно использовать ее в качестве исходного предположения, например, при оценке изменения уровня убийств, описанного в главе 9.

2. Изменился ли уровень безработицы в Великобритании в недавнем прошлом?

В главе 7 мы показали, что квартальное изменение уровня безработицы на 3000 имело погрешность ±77 000 (то есть ±2 стандартные ошибки). Это означает, что 95-процентный доверительный интервал простирается от – 80 000 до +74 000 и явно содержит 0, соответствующий отсутствию изменения уровня безработицы. Но то, что 95-процентный доверительный интервал включает 0, логически эквивалентно тому, что оценка –3000 отклоняется от 0 меньше чем на 2 стандартные ошибки, а значит, такое изменение не отличается значимо от 0.

Это обнаруживает принципиальное сходство между проверкой гипотез и доверительными интервалами:


• двустороннее P-значение меньше 0,05, если 95-процентный доверительный интервал не включает нулевую гипотезу (обычно 0);

• 95-процентный доверительный интервал – это набор нулевых гипотез, которые не отвергаются при P < 0,05.


Эта тесная связь между проверкой гипотез и доверительными интервалами должна помешать людям неправильно интерпретировать результаты, которые статистически значимо не отличаются от 0, – это означает не то, что нулевая гипотеза действительно верна, а то, что доверительный интервал для истинного значения содержит 0. К сожалению, как мы увидим далее, этот урок часто игнорируется.

3. Снижает ли употребление статинов риск инфарктов и инсультов у людей вроде меня?

Табл. 10.4 воспроизводит результаты исследования по защите сердца (HPS), ранее представленные в табл. 4.1, но с добавлением столбцов, демонстрирующих степень уверенности в улучшении показателей. Между стандартными ошибками, доверительными интервалами и P-значениями существует тесная связь. Доверительные интервалы для снижения риска – это, грубо говоря, оценка ±2 стандартные ошибки (обратите внимание, что в исследовании по защите сердца относительные уменьшения округляются до целых чисел). Доверительные интервалы легко исключают нулевую гипотезу 0 %, соответствующую отсутствию воздействия статина, а P-значения ничтожно малы – фактически P-значение для 27 % снижения риска инфаркта составляет 1 на 3 миллиона. Это следствие масштабности исследования.


Таблица 10.4

Результаты исследования по защите сердца, показывающие оцениваемые относительные эффекты, их стандартные ошибки, доверительные интервалы и P-значения при проверке нулевой гипотезы «эффект приема отсутствует»


Можно использовать и другие статистики, например разницу в абсолютных рисках, но все они должны давать близкие P-значения. Специалисты, проводившие HPS, сосредоточились на пропорциональном снижении, поскольку оно почти постоянно в отдельных подгруппах и поэтому обеспечивает хорошую единую меру. Существует несколько способов расчета доверительных интервалов, но они дают лишь небольшие расхождения.

4. Связан ли рост матерей с ростом их сыновей, если учитывать рост отцов?

В главе 5 мы продемонстрировали множественную линейную регрессию, с ростом сыновей в качестве зависимой переменной (переменной отклика) и ростом отца и матери в качестве независимых (объясняющих) переменных. Коэффициенты регрессии приведены в табл. 5.3, но без указания, можно ли их считать значимо отличными от 0. Чтобы проиллюстрировать, как эти результаты появляются в статистических программах, табл. 10.5 воспроизводит результаты работы популярной (бесплатной) программы R.


Таблица 10.5

Выдаваемый программой R результат для множественной линейной регрессии по данным Гальтона. Переменная отклика – рост сыновей, объясняющие переменные – рост матерей и отцов; t-значение – это оценка, деленная на стандартную ошибку. Столбец Pr(> |t|) представляет двустороннее P-значение; вероятность получения какого-то большего t-значения (положительного или отрицательного) при нулевой гипотезе, что истинное значение 0. Обозначение «2 e – 16» означает, что P-значение меньше 0,0000000000000002 (то есть 15 нулей). Под таблицей дана расшифровка звездочек в терминах P-значений

Обозначения уровня значимости: ***= 0,001 **= 0,01 *= 0,05


Как и в табл. 5.3, отсекаемый отрезок – это средний рост сыновей, а коэффициенты (в столбце оценок) – ожидаемое изменение роста при отклонении роста матери и отца на один дюйм от среднего роста матерей и отцов. Стандартная ошибка рассчитывается по известной формуле и явно мала по сравнению с величиной коэффициентов.

Основное внимание сосредоточено на t-значении, также известном как t-статистика, поскольку именно оно указывает на то, можно ли считать связь между объясняющей переменной и переменной отклика статистически значимой. Это частный случай так называемого t-критерия Стьюдента. Стьюдент – псевдоним Уильяма Госсета, разработавшего этот метод в 1908 году для оценки качества пива пивоваренной компании «Гиннесс», которая хотела сохранить анонимность своих сотрудников. Для получения t-значения оценка делится на стандартную ошибку (это можно проверить для чисел в табл. 10.5), поэтому его можно интерпретировать как отклонение оценки от нуля, выраженное в стандартных ошибках. Учитывая t-значение и размер выборки, программа может выдать точное P-значение; для больших выборок t-значения больше 2 или меньше –2 соответствуют P < 0,05, хотя для меньших размеров выборок эти пороговые значения будут больше. Программа R использует простую систему звездочек для P-значений – от одной, означающей P < 0,05, до трех, означающих P < 0,001. В табл. 10.5 t-значения настолько велики, что P-значения исчезающе малы.

В главе 6 мы показали, что алгоритм может выиграть конкурс прогнозов с очень незначительным преимуществом. Например, при прогнозе выживания для тестового набора данных о «Титанике» простое дерево классификации дало наилучший показатель Бриера (среднеквадратичная ошибка прогноза) 0,139, что лишь чуть-чуть отличается от величины 0,142 у усредненной нейронной сети (см. табл. 6.4). Вполне резонно спросить, действительно ли эта крохотная разница –0,003 статистически значима или все можно объяснить случайными отклонениями?

Это несложно проверить, t-статистика составляет –0,54, а двустороннее P-значение равно 0,59[194]. Поэтому достаточно веских оснований для утверждений, что дерево классификации – наилучший алгоритм, нет! Для конкурсов вроде устраиваемых Kaggle подобный анализ не считается тривиальным, но важно помнить, что статус победителя зависит от выбора тестового набора.

Исследователи тратят свои жизни на тщательное изучение результатов работы компьютерных программ наподобие представленных в табл. 10.5 в надежде увидеть мерцающие звезды, указывающие на существенный результат, который они могут получить и затем включить в следующую научную статью. Но, как мы видим, такой навязчивый поиск статистической значимости довольно легко приводит к заблуждениям.


Опасность выполнения нескольких проверок на значимость

Стандартные пороговые значения для «значимости» P < 0,05 и P < 0,01 Рональд Фишер выбрал для своих таблиц весьма произвольно, поскольку в те времена вычислять точные P-значения без механических и электрических калькуляторов было невозможно. Но что произойдет, если провести много проверок на значимость, каждый раз наблюдая, не превышает ли наше P-значение величину 0,05?

Предположим, что лекарство на самом деле не помогает, тогда нулевая гипотеза истинна. Проведя одно клиническое испытание, мы назовем результат статистически значимым, если P-значение меньше 0,05. Поскольку препарат неэффективен, такая вероятность составляет 0,05, или 5 %, что, собственно, и есть определением P-значения. Это будет считаться ложноположительным результатом, так как мы (неправильно) решим, что лекарство помогает. Если мы проведем два испытания и посмотрим на результаты, то вероятность получить хотя бы один значимый, то есть ложноположительный, результат близка к 0,10, или 10 %[195]. При увеличении количества испытаний шансы на получение хотя бы одного ложноположительного результата быстро растут: если провести десять испытаний бесполезных препаратов, вероятность получить хотя бы один значимый результат при P < 0,05 достигает 40 %. Такая ситуация известна как проблема множественной проверки гипотез, она возникает всякий раз, когда проверок выполняется много, а сообщается о самом значимом результате.