Искусство статистики. Как находить ответы в данных — страница 16 из 56

Вот еще несколько примеров того, как легко поверить в наличие причинно-следственной связи, хотя на самом деле на события влияет посторонний фактор.


• У многих детей диагностируется аутизм после вакцинации. Вызывает ли вакцинация аутизм? Нет, но эти события возникают примерно в одном возрасте, а потому неизбежны случайные совпадения.

• Среди ежегодно умирающих людей доля левшей меньше, чем во всей популяции. Означает ли это, что левши живут дольше? Нет, это происходит потому, что те, кто умирает сейчас, родились во времена, когда детей насильственно переучивали пользоваться правой рукой, поэтому пожилых левшей меньше[106].

• Средний возраст смерти римских пап выше, чем в среднем в популяции. Означает ли это, что избрание папой помогает жить дольше? Нет, просто пап выбирают из группы людей, которые не умерли молодыми (в противном случае они не были бы кандидатами)[107].


Миллионы способов, которыми нас можно поймать в ловушку, могут подтолкнуть к мысли, что причинно-следственную связь можно выявить только в рандомизированном эксперименте. Но, по иронии судьбы, эту точку зрения опроверг человек, отвечавший за первое современное рандомизированное клиническое исследование.


Как сделать заключение о причинной связи по наблюдательным данным?

Остин Брэдфорд Хилл был блестящим британским прикладным статистиком, находящимся в авангарде двух изменивших мир научных достижений: он разработал упомянутые ранее клинические испытания стрептомицина, которые фактически установили стандарты для всех последующих РКИ, и провел вместе с Ричардом Доллом в 1950-х годах исследование, по сути, подтвердившее связь между курением и раком легких. В 1965 году он изложил список критериев, которые необходимо учесть, прежде чем делать вывод о том, что наблюдаемая связь между воздействием и результатом является причинной. Под воздействием здесь понимается что угодно – от химических веществ в окружающей среде до таких привычек, как курение или недостаточное количество физических упражнений.

Впоследствии эти критерии широко обсуждались. Представленная ниже версия разработана Джереми Хоуиком с коллегами, которые выделили в ней прямые, механистические и параллельные доказательства[108].

Прямое доказательство:


1. Масштаб эффекта настолько велик, что его нельзя объяснить разумными возмущающими факторами.

2. Существует соответствующая временная и/или пространственная близость, когда причина предшествует эффекту, а эффект возникает через разумный интервал, и/или причина происходит в том же месте, что и эффект.

3. Чувствительность к дозе и обратимость: при увеличении воздействия эффект увеличивается. Подтверждение еще сильнее, если эффект уменьшается при уменьшении дозы.


Механистическое доказательство:

4. Существует правдоподобный механизм действия, который может быть биологическим, химическим или механическим, с внешним подтверждением «причинно-следственной цепочки».


Параллельное доказательство:

5. Эффект соответствует тому, что уже известно.

6. Эффект обнаруживается при повторном воспроизведении исследования.

7. Эффект выявляется в аналогичных, но не идентичных исследованиях.


Такие принципы позволяют выявить причинно-следственную связь в наборе разрозненных данных даже при отсутствии рандомизированных испытаний. Например, установлено, что при втирании аспирина в ротовой полости (например, для облегчения зубной боли) образуются язвочки. Эффект силен (удовлетворяет критерию 1), происходит при втирании (2), является правдоподобной реакцией на кислотный компонент препарата (3), не противоречит современным научным данным и аналогичен известному эффекту, при котором аспирин вызывает язву желудка (4), а также регулярно наблюдается у различных пациентов (5). Итого соблюдены пять из семи критериев, оставшиеся два не проверялись, поэтому вполне резонно заключить, что мы имеем дело с истинной побочной реакцией на препарат.


Критерии Брэдфорда Хилла применяются к общим научным заключениям, касающимся генеральных совокупностей. Но нас могут интересовать и отдельные случаи – например, в гражданской тяжбе, когда суду нужно решить, привело ли определенное воздействие (скажем, наличие асбеста на работе) к негативному результату для конкретного лица (например, к раку легких у Джона Смита). Никогда нельзя установить с полной уверенностью, что асбест стал причиной рака, поскольку невозможно доказать, что без асбеста рак не развился бы. Тем не менее некоторые суды признают, что по «принципу большей вероятности» прямая причинная связь установлена, если показатель относительного риска, связанного с воздействием, превосходит 2. Но почему именно 2?

Предположительно аргументация этого решения такова:


1. Допустим, при обычных обстоятельствах из 1000 человек, подобных Джону Смиту, раком легких заболеют 10. Если асбест повышает риск более чем вдвое, то при его воздействии на 1000 человек наблюдалось бы, возможно, 25 случаев рака.

2. Таким образом, среди тех, кто подвергался воздействию асбеста и получил рак легких, меньше половины заболели бы раком при отсутствии асбеста.

3. Следовательно, более половины случаев рака в этой группе вызваны асбестом.

4. А поскольку Джон Смит принадлежит к этой группе, по принципу большей вероятности его рак вызван асбестом.


Подобные рассуждения привели к появлению новой области науки – судебной эпидемиологии, которая пытается использовать сведения, полученные из общей популяции, для заключения о том, что могло стать причиной конкретных событий. По сути, эта дисциплина обязана своим появлением людям, требующим компенсаций, но это очень интересная область для статистических рассуждений о причинно-следственных связях.

Правильная трактовка причинно-следственной связи по-прежнему остается предметом жарких споров в статистике, неважно, касается это фармацевтических препаратов или больших ушей, и без рандомизации редко удается сделать надежные выводы. Один творческий подход основывается на том, что многие гены распределяются по популяции фактически случайным образом, поэтому мы как будто рандомизированы при зачатии – получилась вот такая версия. Этот подход известен как менделевская рандомизация, названная так в честь Грегора Менделя, автора учения о наследственности[109].

Чтобы максимально учесть все возмущающие факторы и тем самым приблизиться к оценке реального эффекта воздействия, были разработаны и другие сложные статистические методы, в значительной степени основанные на важной идее регрессионного анализа. И за это мы снова должны поблагодарить богатое воображение Фрэнсиса Гальтона.

Выводы

• Причинность в статистическом анализе означает, что при нашем вмешательстве шансы различных исходов изменяются по определенной системе.

• Причинно-следственную связь трудно установить статистически, однако хорошо спланированные рандомизированные исследования – наилучшая возможная схема.

• Принципы слепоты, анализа по назначенному лечению и прочего позволяют проводить масштабные клинические исследования для выявления умеренных, но важных эффектов.

• Наблюдательные данные могут отличаться фоновыми факторами, которые влияют на видимые наблюдаемые взаимосвязи между воздействием и результатом. Они могут оказаться либо наблюдаемыми возмущающими, либо скрытыми факторами.

• Для поправки на прочие факторы существуют специальные статистические методы, однако всегда требуется уточнение о степени уверенности, с которой можно говорить о предполагаемой причинно-следственной связи.

Глава 5. Моделирование зависимости с помощью регрессии

Идеи, изложенные в предыдущих главах, позволяют визуализировать и находить характеристики данных, а также рассматривать зависимости между парами переменных. Эти базовые методы могут помочь нам проделать будущий довольно долгий путь, хотя в целом современные данные намного сложнее. Часто появляется список переменных, возможно, имеющих отношение к вопросу, одна из них нам особенно интересна при объяснении или прогнозировании, будь то риска развития рака для одного человека или будущего жителей целой страны. В этой главе мы познакомимся с идеей статистической модели – формальным представлением взаимоотношений между переменными, – которую сможем использовать для желаемого объяснения или прогноза. Это означает неизбежное появление определенных математических идей, однако базовые концепции должны быть понятны без применения алгебры.

Но прежде вернемся к Фрэнсису Гальтону. Он был одержим идеей сбора данных (что характерно для классического джентльмена-ученого Викторианской эпохи), и обращение к мудрости толпы для выяснения массы быка – это всего лишь один из примеров. Он использовал свои наблюдения для составления прогнозов погоды, оценки эффективности молитвы и даже для сравнения относительной красоты молодых женщин в различных частях страны[110]. Он также разделял интерес своего двоюродного брата Чарльза Дарвина к наследственности и намеревался изучить способы изменения личных характеристик людей от поколения к поколению. В частности, его заинтересовал такой вопрос:

Как предсказать будущий рост детей по росту их родителей?

В 1886 году Гальтон опубликовал данные о росте большой группы родителей и их взрослых детей. Характеристики выборки приведены в табл. 5.1[111]. Рост людей в выборке Гальтона близок к росту современных взрослых (как сообщалось, средний рост взрослых женщин и мужчин в Соединенном Королевстве в 2010 году составлял примерно 63 и 69 дюймов [160 и 175 сантиметров соответственно]), что говорит о том, что эти люди хорошо питались и обладали высоким социально-экономическим статусом