В 1965 году Остин Бредфорд Хилл, не состоявший в комиссии, попытался просуммировать эти аргументы таким образом, чтобы их можно было применять к другим проблемам общественного здоровья, и добавил к списку еще четыре критерия: в результате весь список из девяти критериев стал известен как «критерии Хилла». На самом деле Хилл называл их позициями, не требованиями, и подчеркивал, что каждая из них может отсутствовать в конкретном случае: «Ни одна из девяти моих позиций не может дать неопровержимого доказательства или опровержения гипотезы причинно-следственной связи, и ни одна не является обязательным условием», — писал он.
Действительно, несложно найти аргументы против каждого из критериев как из списка Хилла, так и из более короткого списка экспертной комиссии. Согласованность сама по себе ничего не доказывает: если 30 исследований игнорируют один и тот же конфаундер, все они легко могут оказаться со смещенной оценкой. Сила ассоциации уязвима по той же причине; как упоминалось ранее, размер обуви детей сильно коррелирует с их умением читать, но не связан с ним каузально. Специфичность всегда была особенно противоречивым критерием. Она имеет четкий смысл в контексте инфекционных болезней, когда один возбудитель, как правило, вызывает одно заболевание, но уже сильно размыта в случае средовых влияний. Курение повышает риск целого ряда других недугов, таких как эмфизема и сердечно-сосудистые заболевания. Снижает ли это надежность данных, что оно вызывает рак? Временная связь тоже не лишена исключений, например, рассвет наступает не из-за пения петуха, хотя петух поет всегда перед рассветом.
Наконец, согласованность с известными теориями и фактами, конечно, желательна, но в истории науки масса опровергнутых теорий и ошибочных лабораторных открытий.
Положения Хилла все еще полезны в качестве описания того, как научная дисциплина подходит к принятию каузальной гипотезы, используя различные типы подтверждений, но методология, которая позволила бы их применять, отсутствует. Так, биологическое правдоподобие и согласованность с экспериментальными данными, вероятно, хорошие, нужные вещи. Но как именно нам следует определять вес подобных подтверждений? Как именно мы вставим имевшиеся ранее знания в новую картину? Очевидно, на эти вопросы каждый ученый должен отвечать самостоятельно. Однако интуитивные решения могут быть ошибочными, особенно если в игру вступают политическое давление, финансовые выгоды или же если исследователь находится в зависимости от вещества, которое изучает.
Конечно, ни один из этих комментариев не предполагал хоть в чем-то принизить работу комиссии. Ее состав сделал все возможное в условиях отсутствия механизмов для обсуждения причинности. Их вывод о том, что нужны и нестатистические критерии, был огромным шагом вперед, а сложные личные решения, принятые курящими членами комитета, подтвердили серьезность их заключений. Лютер Терри, куривший сигареты, перешел на трубку. Леонард Шуман объявил, что бросает курить. Уильям Кохран признал, что, бросив курить, снизил бы риск заболеть раком, но чувствует, что ощущение комфорта, которое доставляют сигареты, оправдывает риск. Печальнее всего было то, что у Луиса Физера, выкуривавшего четыре пачки в день, обнаружили рак легких меньше чем через год после отчета. Он писал комиссии: «Вы, вероятно, помните, что, хотя меня и полностью убедили приведенные доказательства, я продолжал много курить во время всей работы комиссии, находя обычные оправдания… Мой собственный случай кажется мне убедительней любой статистики». Потеряв одно легкое, он все-таки бросил курить.
С позиций общественного здравоохранения отчет экспертной комиссии был эпохальным явлением. В течение двух лет конгресс ввел требование к производителям табака поместить на сигаретные пачки предупреждения об угрозе здоровью. В 1971 году рекламу сигарет запретили на радио и телевидении. Процент курящих среди взрослого населения США снизился с исторического максимума в 45,0 % в 1965 году до 19,3 % в 2010 году. Кампания против курения была одним из крупнейших и самым успешным, пусть и мучительно медленным и незавершенным достижением общественного здравоохранения в истории. Комиссия также выработала ценный протокол для достижения научного консенсуса и послужила моделью для будущих отчетов начальника здравоохранения по теме курения и многим другим в последующие годы (включая пассивное курение, которое стало большой проблемой в 80-х годах ХХ века).
С точки зрения причинности этот отчет был в лучшем случае весьма скромным успехом. Он ясно обозначил серьезность каузальных вопросов и то, что голые данные неспособны на них ответить. Но в качестве дорожной карты для будущих открытий его руководящие принципы не вполне годились из-за их неопределенности и неуклюжести. Критерии Хилла лучше всего воспринимать как исторический документ, суммирующий типы доказательств, возникшие в 50-х годах ХХ века и сумевшие убедить медицинское сообщество. Но они не годятся как руководство для будущих исследований. Для любых каузальных вопросов, кроме разве что самых общих, нам нужен более точный инструмент. Оглядываясь назад, неравенство Корнфилда, которое посеяло семена анализа сенситивности, было шагом в этом направлении.
Курение для новорожденных
Даже после того, как горячие споры по поводу курения и рака улеглись, один крупный парадокс продолжал будоражить умы. Якоб Ерушалми указал на то, что курение матери во время беременности, по всей видимости, шло на пользу здоровью ребенка, если он родился с недостаточным весом. Эта загадка, известная как парадокс веса при рождении, была плевком в лицо нарождающемуся медицинскому консенсусу относительно курения, и его не удавалось удовлетворительно объяснить вплоть до 2006 года — спустя более 40 лет после выхода публикации Ерушалми. Я абсолютно уверен, что это заняло столько времени потому, что язык причинности был недоступен с 1960 по 1990 год.
В 1959 году Ерушалми начал долговременное исследование общественного здоровья, которое собрало пре- и постнатальные данные о более чем 15 тысячах детей в районе залива Сан-Франциско. Эти данные включали также информацию о том, курили ли матери этих детей, а также вес и смертность младенцев в течение первого месяца жизни.
Несколько предыдущих работ уже показали, что дети курящих матерей при рождении весят в среднем меньше, чем дети некурящих, и было бы естественно предположить, что у них и выживаемость должна быть хуже. В самом деле, исследование детей с недостаточным весом (определяемым как менее 5,5 фунтов при рождении) по всей стране показало, что их смертность более чем в 20 раз выше, чем у детей с нормальным весом. Таким образом, эпидемиологи выстроили цепочку причинно-следственных связей: курение → низкий вес при рождении → смертность.
То, что обнаружил Ерушалми, обрабатывая данные, оказалось сюрпризом даже для него самого. Дети курящих матерей действительно были в среднем легче, чем дети некурящих (примерно на 7 унций). Однако дети с недостаточным весом, родившиеся у курящих матерей, выживали лучше, чем дети некурящих из этой же категории. Выглядело это так, будто курение матери на самом деле обладало защитным воздействием.
Если бы нечто подобное нашел Фишер, он бы немедленно во всеуслышание объявил это пользой от курения. Ерушалми, надо отдать ему должное, так себя не повел. Он написал, очень осторожно: «Это парадоксальное открытие вызывает сомнения и противоречит предположению, что курение действует как экзогенный фактор, который взаимодействует с внутритробным развитием плода». Говоря короче, от переменной курение к переменной смертность нет каузального пути.
Современные эпидемиологи полагают, что Ерушалми был неправ. Большинство из них полагает, что курение все-таки увеличивает смертность новорожденных, например, потому, что взаимодействует с переносом кислорода через плаценту. Но как нам примирить эту гипотезу с такими данными?
Статистики и эпидемиологи настаивали на анализе этого парадокса в терминах вероятности и восприятии его как аномалии, свойственной весу при рождении. Оказалось, что это явление имеет слабое отношение к натальной массе, зато четко связано с коллайдерами. Если рассматривать его в этом свете, оно вовсе не парадоксально, а показательно.
На самом деле данные Ерушалми прекрасно согласуются с моделью «курение → низкий вес при рождении → смертность», если добавить к ней кое-что еще. Курение действительно причиняет вред, являясь причиной низкого веса при рождении, однако некоторые другие причины этого, такие как серьезные или угрожающие жизни генетические аномалии, приносят гораздо больше вреда. Низкому весу при рождении у данного конкретного ребенка есть два объяснения: его мать могла курить или же повлияла одна из этих прочих причин. Если мы узнаем, что его мать курила, эта информация вполне объясняет низкий вес и, следовательно, снижает вероятность серьезного нарушения развития. Но, если мать не курила, у нас есть гораздо более серьезное свидетельство в пользу того, что причина низкого веса — это нарушения развития, и дальнейший прогноз для ребенка становится мрачнее.
Как и раньше, с каузальной диаграммой все становится понятнее. Когда мы подключаем новые допущения, она начинает выглядеть как на рис. 31. Мы видим, что парадокс веса при рождении — это прекрасный пример ошибки оценки, возникающей при коллайдере. Переменная, к которой сходятся пути, — это, собственно, вес при рождении. Если мы берем только детей с низкой натальной массой, мы вводим поправку по этой переменной. Это открывает черный ход между курением и смертностью по схеме «курение → низкий вес при рождении ← нарушения внутриутробного развития → смертность». Этот путь — некаузальный, потому что одна из стрелок направлена не в ту сторону. Однако он вызывает ложную корреляцию между курением и смертностью и смещает нашу оценку реальной (прямой) причинно-следственной связи «курение → смертность». На самом деле, здесь он смещает оценку так сильно, что курение даже кажется благотворным.