Искусство статистики. Как находить ответы в данных — Дэвид Шпигельхалтер

Люди, попавшие в группу «статинов» в исследовании по защите сердца, включались в итоговый анализ, даже если не принимали свои таблетки. Такой принцип называется «анализ по назначенному лечению» и может показаться довольно странным. Это означает, что итоговая оценка эффекта статинов в действительности измеряет эффект прописанных статинов, а не фактически принимаемых. На практике, конечно, людям настоятельно рекомендовали пить таблетки в течение всего исследования, хотя через пять лет HPS 18 % тех, кому были прописаны статины, прекратили их принимать, в то время как целых 32 % тех, кому было назначено плацебо, в действительности начали принимать статины в ходе испытаний. Поскольку люди, изменяя лечение, как правило, размывают различия между группами, мы можем ожидать, что видимый эффект в анализе по назначенному лечению может быть меньше, чем эффект от реального приема препарата.

4. Если возможно, люди не должны знать, в какую из двух групп входят. В испытаниях статинов и настоящие препараты, и плацебо выглядели одинаково, поэтому участники не знали, что именно принимают[91].

5. Процедуры для групп должны быть одинаковыми. Если бы группу, которая употребляла статины, чаще приглашали в больницу или более тщательно обследовали, то было бы невозможно разграничить пользу от применения препарата и от улучшенного ухода. В HPS персонал, наблюдавший за пациентами, не знал, кто из них принимает статины, а кто – плацебо.

6. По возможности те, кто оценивает итоговые результаты, не должны знать, к какой группе относятся испытуемые: полагая, что лечение помогает, врач может преувеличить пользу для экспериментальной группы, то есть допустить неосознанную ошибку.

7. Измеряйте всех. Нужно приложить максимум усилий, чтобы отследить всех участников, поскольку люди, бросившие исследование, могли, например, это сделать из-за побочных эффектов препарата. У HPS были замечательные 99,6 % полного наблюдения за всеми в течение пяти лет – эти результаты приведены в табл. 4.1.

Таблица 4.1

Результаты пяти лет исследования защиты сердца в соответствии с лечением, назначенным пациентам. Абсолютное снижение риска инфаркта составило 11,8–8,7 = 3,1 %. Таким образом, в группе из 1000 человек, принимавших статины, был предотвращен примерно 31 инфаркт. Это означает, что для предотвращения одного инфаркта примерно 30 человек должны принимать статины в течение пяти лет

Те, кто попал в группу, принимавшую статины, явно в среднем имели лучшие показатели здоровья, а поскольку пациенты распределялись случайным образом и в остальном лечились одинаково, результат можно считать следствием приема статинов. Однако мы видели, что многие люди на самом деле не придерживались назначенного лечения, и это приводит к некоторому размыванию разницы между группами: специалисты, проводившие HPS, оценивают реальный эффект от приема статинов примерно на 50 % выше, чем показано в табл. 4.1.

Два важных итоговых замечания:

1. Не полагайтесь на одно исследование. Один отдельный эксперимент может нам сказать, что лекарство работало в определенной группе в определенном месте, но надежные выводы требуют нескольких исследований.

2. Систематически проверяйте доказательства. При рассмотрении нескольких испытаний обязательно включайте каждое проведенное исследование, создавая таким образом систематический обзор. Затем результаты можно формально объединить в метаанализ.

Например, недавний систематический обзор собрал данные двадцати семи рандомизированных контролируемых исследований статинов, в которых участвовало более 170 тысяч человек с пониженным риском сердечно-сосудистых заболеваний[92]. Но вместо того чтобы фокусироваться на разнице между экспериментальной (принимающей статины) и контрольной группами, оценивался эффект от снижения уровня ЛПНП. По сути, исследователи предположили, что эффект статинов достигается посредством изменения липидов в крови, и основывали свои расчеты на среднем уменьшении ЛПНП, установленном в каждом из испытаний, учитывающем любое несоблюдение назначенного лечения. Такое дополнительное предположение позволило оценить эффект от фактического приема статинов. Ученые пришли к выводу, что снижение уровня ЛПНП на 1 ммоль/л (миллимоль на литр) уменьшает риск серьезных проблем (в том числе преждевременную смерть) с сердечно-сосудистой системой на 21 %. Мне, например, этого достаточно, чтобы продолжать принимать такие таблетки[93].

Мы проигнорировали вероятность того, что любая наблюдаемая связь необязательно является причинно-следственной, а может быть просто результатом случайности. Большинство лекарственных препаратов на рынке обладают лишь умеренным воздействием и помогают только меньшинству принимающих их людей; их общую полезность можно точно выявить исключительно в рамках крупных тщательных рандомизированных исследований. Испытания статинов довольно-таки масштабны, особенно когда они объединены в метаанализ, а значит, полученные результаты нельзя объяснить простым случайным отклонением. (Мы узнаем, как это проверить, из главы 10.)

Эффективна ли молитва?

Список принципов РКИ не нов: почти все они были введены в 1948 году в эксперименте, который считается первым правильным клиническим испытанием. Тогда исследовался стрептомицин – лекарство, предназначенное для борьбы с туберкулезом. Конечно, было бы слишком безнравственно случайным образом определять, кого лечить, а кого оставить без потенциально спасающего жизнь препарата. Однако принятию столь трудного решения способствовал тот факт, что имеющегося в то время в Великобритании лекарства в любом случае не хватило бы на всех, поэтому случайный выбор казался вполне справедливым и этически обоснованным. Но даже по прошествии стольких лет и тысяч проведенных РКИ общество все еще может удивиться, узнав, что медицинские решения о том, какое лечение рекомендовать человеку (даже такие драматичные, как радикальная мастэктомия или лампэктомия при раке молочной железы[94]), фактически принимаются путем подбрасывания монеты (пусть это и метафорическая монета, воплощенная в генераторе случайных чисел в компьютере)[95].

На практике процесс назначения лечения в испытаниях гораздо сложнее, чем простая рандомизация в каждом случае, так как мы хотим убедиться, что все типы людей одинаково представлены в группах, получающих различные виды лечения. Например, мы можем захотеть, чтобы количество пожилых людей с повышенным риском, принимающих статины и плацебо, распределялось примерно поровну. Эта схема позаимствована из сельскохозяйственных экспериментов, где многие идеи рандомизированных исследований возникли в основном благодаря работе Рональда Фишера (о котором мы расскажем чуть позже). Например, большое поле делится на отдельные участки, а затем для каждого участка случайным образом выбирается удобрение – так же как люди случайным образом получают назначение на лечение. Но части поля могут разниться по дренажу, затененности и другим признакам, поэтому предварительно поле нужно разделить на блоки, содержащие примерно сходные участки, а уже затем осуществить рандомизацию, чтобы в каждом блоке было равное число участков с тем или иным удобрением. В таком случае способы обработки земли будут сбалансированными, скажем на заболоченных участках одинаково применят все виды удобрений.

Например, однажды я работал над рандомизированным испытанием, где сравнивались два альтернативных метода лечения грыжи: стандартная «открытая» операция и лапароскопия (операция с минимальным вмешательством). Предполагалось, что мастерство хирургической бригады во время испытаний может возрастать, поэтому было важно, чтобы в течение всего исследования эти два метода были сбалансированы. Поэтому я разбил цепочку пациентов на блоки по 4 и 6 человек, а затем случайно распределял их внутри каждого блока по методам операции. Используемые методы были напечатаны на листочках бумаги, которые я сложил и поместил в пронумерованные непрозрачные коричневые конверты. Помню, как я наблюдал за больными, лежащими на предоперационной каталке, понятия не имея, какую именно операцию им будут делать, в то время как анестезиолог открывал конверт и узнавал, что с ними случится дальше, в частности вернутся ли они домой с одним большим шрамом или несколькими точечными проколами.

Рандомизированные испытания стали золотым стандартом тестирования новых медицинских методов, а теперь все чаще используются и при оценке эффективности новых методик в сфере образовании или правоохранительной деятельности. Например, британская организация Behavioural Insights Team[96] случайным образом отобрала половину школьников, пересдающих экзамены по математике и английскому языку, и регулярно отправляла им поощряющие текстовые сообщения, чтобы поддержать в учебе. В результате доля сдавших экзамены среди тех, кто имел такую поддержку, оказалась на 27 % выше. Эта же группа исследователей наблюдала и ряд положительных эффектов в рандомизированном испытании видеокамер, закрепленных на теле полицейских, – к примеру, снижение количества остановленных и безосновательно обысканных[97].

Проводились даже эксперименты для определения эффективности молитвы. Например, в рамках исследования терапевтических эффектов ходатайственной молитвы (STEP) свыше 1800 пациентов с шунтированием сердца случайным образом разделили на три группы: за пациентов 1-й и 2-й групп, соответственно, молились и не молились, но при этом они не знали, молятся за них или нет, а вот члены 3-й группы знали, что за них молятся. Единственным заметным эффектом было незначительное

Предыдущая Стр. 14 из 56 Следующая

Оглавление