Искусство статистики. Как находить ответы в данных — страница 37 из 56

Если исследователи хотят провести какое-то определяющее клиническое испытание, им нужно быть строже. Например, исследование по защите сердца пришло к выводу, что

если холестериноснижающая терапия за 5 лет сокращает смертность от сердечно-сосудистых заболеваний примерно на 25 %, а смертность от всех причин – на 15 %, то исследование именно такого размера имеет прекрасные шансы для демонстрации подобных эффектов на убедительных уровнях статистической значимости (то есть мощность > 90 %, p < 0,01).

Другими словами, если истинный эффект лечения составляет 25-процентное снижение смертности от сердечно-сосудистых заболеваний и 15-процентное – от всех причин (альтернативные гипотезы), то исследование имеет мощность примерно 90 %, а размер α = 1 %. Такие требования диктуют размер выборки свыше 20 000. Фактически, как показывает табл. 10.4, итоговые результаты дают 13-процентное уменьшение смертности от всех причин, что весьма близко к тому, что планировалось.

Идея о необходимости достаточно большой выборки для выявления правдоподобной альтернативной гипотезы прочно укоренилась при планировании медицинских испытаний. Однако исследования в психологии и нейробиологии часто используют размер выборок, определяемый удобством или традицией, и он может ограничиваться всего 20 объектами для каждого исследуемого состояния. В слишком маленьких исследованиях верные и интересные альтернативные гипотезы можно просто пропустить, поэтому сейчас наконец признали, что и в других областях исследований нужно задуматься о мощности проводимых экспериментов.

Как мы увидим в следующей главе, Нейман и Пирсон вели яростные, порой оскорбительные споры с Фишером по поводу правильного метода проверки гипотез, и этот конфликт так и не разрешился принятием какого-то единого «правильного» подхода. Как показывает исследование по защите сердца, клинические испытания, как правило, разрабатываются по теории Неймана – Пирсона, однако, строго говоря, размер и мощность не имеют значения, когда эксперимент уже фактически проведен. В этот момент испытания анализируются с помощью доверительных интервалов, демонстрирующих правдоподобные значения для эффектов лечения, а фишеровские P-значения показывают степень свидетельств против нулевой гипотезы. Таким образом, некая странная смесь идей Фишера и Неймана – Пирсона оказалась на удивление эффективной.

Можно ли было поймать Гарольда Шипмана раньше?

Из введения мы узнали, что доктор Гарольд Шипман за двадцать лет убил более двухсот пациентов, прежде чем был разоблачен. Семьи его жертв, естественно, очень взволновало то, что ему удавалось так долго совершать преступления, не вызывая подозрений, поэтому последовавшее общественное расследование должно было установить, существовал ли шанс заподозрить его раньше. До начала расследования подсчитали количество свидетельств о смерти, подписанных Шипманом для его пациентов с 1977 года, а затем сравнили это число с тем, которого можно было бы ожидать, исходя из возраста всех пациентов Шипмана и уровней смертности у других врачей, практикующих в данном районе. При проведении таких сравнений учитываются местные условия, например изменения температуры воздуха или вспышки гриппа. На рис. 10.3 представлены результаты, полученные путем вычитания ожидаемого количества из наблюдаемого числа свидетельств о смерти, выданных Шипманом с 1977 года до своего ареста в 1998 году. Эту разницу можно называть его «избыточной» смертностью.


Рис. 10.3

Совокупное количество свидетельств о смерти, подписанных Шипманом для пациентов 65 лет и старше, с вычетом числа ожидаемых смертей (с учетом возраста пациентов)


К 1998 году его избыточная смертность для людей в возрасте 65 лет и старше составила 174 женщины и 49 мужчин. Это почти точное количество пожилых людей, которые в ходе расследования были признаны его жертвами, что показывает поразительную точность этого чисто статистического анализа, куда не входили сведения о конкретных случаях[203].

Предположим, в какой-то вымышленной истории некто год за годом отслеживал смерти пациентов Шипмана и производил вычисления, необходимые для составления рис. 10.3. В какой момент ему следовало бить тревогу? Например, такой человек мог бы проводить проверку значимости в конце каждого года. У большого количества людей малая вероятность такого события, как смерть, поэтому можно считать, что количество смертей, подобно количеству убийств, имеет распределение Пуассона, а значит, нулевая гипотеза будет состоять в том, что совокупное число наблюдаемых смертей соответствует распределению Пуассона со средним значением, которое определяется числом ожидаемых смертей.

Если бы это было сделано с общим числом смертей для мужчин и женщин, которые показаны на рис. 10.3, то уже в 1979 году, то есть всего через три года наблюдений, появилось бы одностороннее P-значение 0,004, отражающее разницу между наблюдаемыми 40 смертями и ожидаемыми 25,3[204]. Результаты могли бы быть объявлены статистически значимыми, и Шипман был бы разоблачен.

Однако существуют две причины, по которым такая статистическая процедура была бы крайне неуместна для отслеживания уровня смертности пациентов у врачей общей практики. Во-первых, если у нас нет веской причины подозревать именно Шипмана и наблюдать только за ним, то нам придется вычислять P-значения для всех семейных врачей в Соединенном Королевстве, а на тот момент их было около 25 тысяч. Но по примеру с мертвым лососем мы знаем, что при проведении достаточно большого количества проверок мы обязательно получим ложные сигналы. Если при пороге 0,05 протестировать 25 тысяч врачей, то каждый двадцатый из совершенно невинных докторов (то есть 1300 человек) покажет «статистически высокий уровень» при каждой проведенной проверке, а значит, в отношении него нужно вести расследование, что абсолютно абсурдно. А вот Шипман, наоборот, имел шанс потеряться среди всех этих ложноположительных случаев.

Альтернативой может считаться метод Бонферрони, то есть требование, чтобы P-значение равнялось 0,05/25 000, или 1 на 500 000. В этом случае Шипман был бы пойман в 1984 году, когда при ожидаемом количестве 59,2 у него было 105 смертей, то есть на 46 больше.

Но даже это не будет надежной процедурой для всех врачей в стране. Вторая проблема заключается в проведении повторных проверок на значимость, поскольку ежегодно добавляются новые данные и производится очередная проверка. Существует один замечательный, но сложный теоретический результат, именуемый очаровательным термином «закон повторного логарифма», который показывает, что, выполняя такое повторное тестирование, даже при справедливости нулевой гипотезы, мы определенно отвергнем ее при любом выбранном уровне значимости.

Это настораживает, потому что означает, что при долгосрочной проверке какого-нибудь доктора в итоге мы гарантированно посчитаем, что нашли доказательства избыточной смертности, хотя в реальности его пациенты не подвергаются никакому излишнему риску. К счастью, существуют статистические методы для решения проблемы последовательного тестирования, изначально разработанные во время Второй мировой войны группой статистиков, которая не имела ничего общего со здравоохранением, а трудилась над задачами контроля качества при производстве вооружения и других военных материалов.

Изделия, сходящие с производственной линии, проверяли на соответствие стандарту, а весь процесс контролировался посредством постепенно накапливавшегося общего количества отклонений от стандарта – ровно так же, как при отслеживании избыточной смертности. Ученые поняли, что из закона повторного логарифма следует, что повторное тестирование всегда приводит к предупреждению, что промышленный процесс вышел из-под контроля, даже если на самом деле все функционирует нормально. Независимо друг от друга статистики из США и Соединенного Королевства разработали метод, известный как последовательный критерий отношения вероятностей (ПКОВ), представляющий собой статистику, которая отслеживает накапливающуюся информацию об отклонениях и может быть в любой момент сопоставлена с простыми пороговыми значениями. Как только один из этих порогов преодолевается, срабатывает сигнал тревоги и производственная линия исследуется[205]. Эти методы позволили создать более эффективные промышленные процессы, а позже были адаптированы к использованию в так называемых последовательных клинических испытаниях, при которых накапливаемые результаты регулярно отслеживаются, чтобы понять, не пересечен ли порог, указывающий на полезное лечение.

Я был одним из команды разработчиков варианта ПКОВ, который можно применить к данным о Шипмане. Рис. 10.4 отображает картину для мужчин и женщин в случае, когда в качестве альтернативной гипотезы выступает предположение, что смертность у Шипмана вдвое больше, чем у его коллег. У этого критерия есть пороговые значения, которые контролируют вероятность ошибки первого (альфа) и второго (бета) рода для значений 1 из 100, 1 из 10 000 и 1 из 1 000 000: ошибка первого рода – это общая вероятность того, что статистика пересечет пороговое значение в какой-нибудь точке, если бы у Шипмана был ожидаемый уровень смертности, а ошибка второго рода – общая вероятность статистики не пересечь пороговое значение в какой-нибудь точке, если бы у Шипмана был удвоенный ожидаемый уровень смертности[206].


Рис. 10.4

Статистика для последовательного критерия отношения вероятностей (ПКОВ) для обнаружения удвоения риска смертности: пациенты в возрасте >64 лет, умершие дома / на приеме. Прямые линии отображают пороговые значения «сигнала тревоги» для показанных общих величин ошибок первого (альфа) и второго (бета) рода – предполагается, что они совпадают. Если смотреть на линию для женщин, видно, что Шипман пересек бы внешний порог в 1985 году