Думай «почему?». Причина и следствие как ключ к мышлению — страница 49 из 82

Однако в 1853 году еще никто не видел под микроскопом ни одной бактерии, не говоря уже о возбудителе холеры. Тогда считалось, что холеру вызывает нездоровый воздух, «миазмы», и эта теория на первый взгляд подтверждалась тем, что от эпидемии гораздо сильнее страдали самые бедные районы Лондона, где царила антисанитария. Доктор Джон Сноу, врач, занимавшийся жертвами холеры более 20 лет, к теории миазмов всегда относился скептически. Он разумно рассуждал, что, если симптомы проявляются в первую очередь в желудочно-кишечном тракте, заболевание должно вызываться попаданием вызывающего его агента в кишечник. Но поскольку возбудителя заболевания нельзя было увидеть, он не мог это доказать — до эпидемии 1854 года.

В истории Джона Сноу две главы, и одна намного более известна, чем другая. В первой, которую можно назвать голливудской версией, он, рискуя жизнью, ходит из дома в дом, выясняя, где люди умерли от холеры, и обнаруживает огромную концентрацию смертей, с десятками погибших, вокруг колодца с насосом на Броуд-стрит. Разговаривая с жителями этого района, он выясняет, что практически все погибшие брали воду из этого конкретного колодца. Ему даже становится известно о смерти, случившейся достаточно далеко от этого места, в Хэмпстеде. Одной женщине оттуда понравился вкус воды из колодца на Броуд-стрит, и она вместе со своей племянницей пила воду именно оттуда. Обе они умерли, хотя никто в ее районе даже не заболел. Собрав воедино все эти факты, Сноу требует от местных властей убрать рукоятку насоса, чтобы прекратить забор воды, и 8 сентября власти соглашаются. Как пишет биограф Сноу, «ручку насоса сняли, и моровое поветрие удалось остановить».

Эта история замечательно кинематографична. В наше время общество имени Джона Сноу даже проводит торжественную театральную постановку, изображающую снятие ручки насоса у колодца. Однако, если смотреть правде в глаза, закрытие колодца вряд ли было заметно на фоне общегородской эпидемии, от которой по-прежнему умирало почти 3 тысячи человек (в день?).

В другой, уже не голливудской, серии этого фильма, мы снова видим доктора Сноу, пешком обходящего весь старый Лондон, но на этот раз он пытается выяснить, где все жители его города берут воду. В то время водопроводные услуги лондонцам предоставляли в основном две частные компании: «Саутворк и Воксхол» и «Ламбет». Как удалось выяснить Сноу, основное различие между ними было в том, что первая компания осуществляла забор воды из Темзы у Лондонского моста, ниже слива городской канализации. Вторая несколькими годами раньше переместила водозабор выше по течению, до канализационного слива. Таким образом, клиенты «Саутворка» получали воду, загрязненную канализационными стоками, а клиенты «Ламбета» — относительно чистую (обратите внимание, что оба этих водопровода не имели отношения к заразной воде с Броуд-стрит, которую брали из находящегося там отдельного колодца).

Статистика смертей легла в основу невеселой гипотезы Сноу. Кварталы, снабжавшиеся компанией «Саутворк и Воксхолл», особенно сильно страдали от холеры, и смертность в них была в восемь раз выше. Однако, несмотря на это, прямых доказательств под рукой не было. Защитники теории миазмов заявили бы, что ядовитые испарения были гораздо сильнее именно в этих районах, и их невозможно было бы опровергнуть. На языке каузальных диаграмм наша ситуация описывается рис. 47. Мы не в состоянии получить данные по конфаундеру миазмы (или другим конфаундерам, таким как бедность), поэтому мы не вправе ввести по нему поправки по методу черного хода.

Здесь Сноу додумался до поистине блестящей идеи. Он обнаружил, что в тех районах, куда был проведен водопровод из обеих компаний, смертность была все-таки значительно выше в домохозяйствах, получавших воду от «Саутворка». Однако они не отличались от соседних ни по уровню миазмов, ни по уровню бедности. «Водопроводы двух поставщиков переплетаются самым тесным образом, — писал Сноу. — Трубы каждой из двух компаний тянутся по каждой улице и входят почти в каждый двор и переулок. … Обе компании снабжают водой и богатых, и бедных, и большие дома, и маленькие домики: невозможно обнаружить разницы ни в благосостоянии, ни в роде занятий между гражданами, получающими воду от той или иной компании».

Хотя понятие о рандомизированном контролируемом исследовании было еще делом будущего, все выглядело так, будто водопроводные компании поставили на лондонцах РКИ. На самом деле Сноу даже обращает на это внимание: «Невозможно было бы спланировать опыт, который бы лучше выявил воздействие источника воды на распространение холеры, нежели этот, который обстоятельства в готовом виде предоставили наблюдателю. Размах этого опыта так же роскошен: не менее 300 тысяч людей обоих полов, всех возрастов и родов занятий, вне зависимости от чина и благосостояния, от дворянства до нищей бедноты, разделили на две группы без их спроса и в большей части случаев без их ведома».

Одна группа получала чистую воду; другая получала воду, загрязненную канализационными стоками.


Рис. 47. Каузальная диаграмма для холеры (до открытия холерного вибриона)


Наблюдения Сноу добавили к каузальной диаграмме еще одну переменную, и теперь она выглядит как рис. 48. Рискованное детективное исследование доктора Сноу привело к двум важным открытиям: 1) нет стрелки между миазмами и водопроводной компанией (эти две переменные независимы) и 2) есть стрелка между водопроводной компанией и чистотой воды. Третье обстоятельство не было упомянуто доктором Сноу, но не менее важно: 3) отсутствие прямой стрелки от водопроводной компании к холере, что сегодня для нас вполне очевидно, потому что теперь мы знаем, что водопроводные компании не доставляли холеру в дома своих клиентов каким-либо другим путем.

Переменная, которая удовлетворяет таким трем условиям, сегодня называется инструментальной переменной. Совершенно ясно, что Сноу воспринимал эту переменную как подбрасывание монеты, которое симулирует переменную без входящих стрелок. Поскольку во взаимоотношениях между переменными водопроводная компания и холера нет конфаундеров, любая наблюдаемая между ними связь должна быть причинно-следственной. Аналогично, поскольку воздействие водопроводной компании на холеру осуществляется через чистоту воды, мы (как и когда-то Сноу) заключаем, что наблюдаемая ассоциация между чистотой воды и холерой тоже должна быть причинно-следственной. Свой вывод Сноу вынес в недвусмысленных терминах: если компания «Саутворк и Воксхол» перенесет водозабор выше по течению, это спасет тысячи жизней.

В то время на выводы доктора Сноу обратили внимание лишь немногие. Свои результаты он опубликовал в брошюре, изданной за его собственный счет: по рукам разошлись только 56 экземпляров этой брошюры. В наше время эпидемиологи рассматривают ее как основополагающий документ для всей своей дисциплины. Она показала, что старомодное расследование «на подметках ботинок» (эту фразу я позаимствовал у Дэвида Фридмана) вместе с применением каузальных рассуждений позволяют вычислить убийцу.

Хотя теория миазмов в наше время полностью развенчана, бедность в этом примере, несомненно, являлась конфаундером, как, впрочем, и местоположение. Однако, даже не собирая данные по этим переменным (так далеко опросы доктора Сноу не заходили), а используя лишь инструментальную переменную, мы способны вычислить, сколько жизней было бы спасено благодаря чистой воде.


Рис. 48. Диаграмма для холеры после введения инструментальной переменной


Вот как это работает. Для простоты мы вернемся к именам Z, X, Y и U для наших переменных и перерисуем диаграмму рис. 48 так, как на рис. 49. Я добавил путевые коэффициенты (a, b, c, d), отражающие силу каузальных воздействий. Мы, таким образом, предполагаем, что наши переменные исчислимы, а функции, описывающие их, линейны. Вспомним, что путевой коэффициент a означает, что интервенция по увеличению Z на одну стандартную единицу увеличит X на a стандартных единиц (здесь я опущу технические подробности о том, что такое «стандартная единица»).

Поскольку Z и X ничем не осложнены, каузальное воздействие Z на X (т. е. a) можно оценить по наклону rXZ линии регрессии X на Z. Аналогично переменные Z и Y не осложнены, потому что путь ZXUY блокируется схождением по X. Следовательно, наклон линии регрессии Z на Y (rZY) будет равен каузальному воздействию на прямом пути ZXY, которое представляет собой произведение путевых коэффициентов: ab. Итак, получаем два уравнения: ab = rZY и a = rZX. Если мы разделим первое уравнение на второе, то получим каузальное воздействие X на Y: b = rZY / rZX.

Вот так инструментальные переменные позволяют выполнить тот же волшебный фокус, который нам удавался с помощью поправок парадного входа: мы нашли воздействие X на Y, даже не будучи в состоянии контролировать осложнитель U или получить по нему данные.


Рис. 49. Общая схема для инструментальных переменных


В итоге мы предоставили лицам, принимающим решения, убедительные аргументы о том, что водозабор надо передвинуть вверх по течению, даже если лица, принимающие решения, продолжают верить в теорию миазмов. Обратите также внимание, что мы добыли информацию со второго уровня Лестницы Причинности (b) из информации с первого уровня (корреляции rZY и rZX). Мы смогли это сделать, потому что допущения, воплощенные в путевой диаграмме, каузальны по своей природе, особенно критически важное допущение, что между переменными U и Z стрелки нет. Если бы каузальная диаграмма была иной, например если бы