Таблица 11. Данные эксперимента с холестирамином
Даже несмотря на то, что границы довольно далеко отстоят друг от друга из-за большого числа испытуемых, не подчинившихся условиям эксперимента, исследователи могут категорически утверждать, что препарат эффективно достигает своей цели.
Эта стратегия рассмотрения наихудшего и наилучшего сценариев обычно дает нам некоторый диапазон оценок. Очевидно, что желательно было бы получить точечную оценку, как в случае линейных зависимостей. Существуют способы при необходимости сузить этот диапазон, а в некоторых случаях даже добиться точечных оценок. Так, если вас интересует только «послушная» часть популяции (те, кто будет принимать X тогда и только тогда, когда его им назначат), вы можете вывести точечную оценку, известную как локальный средний эффект лечения (LATE). В любом случае я надеюсь, этот пример покажет, что наши руки ничто не связывает, даже если мы покидаем мир линейных моделей.
Методы инструментальных переменных продолжали развиваться с 1984 года, и одна конкретная версия стала очень популярной: менделева рандомизация. Вот вам доказательство. Хотя влияние ЛПНП, или «плохого» холестерина, сегодня хорошо известно, далеко не все однозначно понятно в случае «хорошего» холестерина — липопротеина высокой плотности, ЛПВП. Ранние исследования на основе наблюдений, скажем Фрамингемские исследования сердца в конце 70-х годов ХХ века, предположили, что ЛПВП обладают защитными свойствами, предохраняя от инфаркта. Однако ЛПВП обычно встречается вместе с ЛПНП, так как же нам узнать, какой из липидов на самом деле является каузальным агентом?
Чтобы ответить на этот вопрос, предположим, что нам известен ген, на уровень ЛПНП не влияющий, но благодаря которому у людей выше уровень ЛПВП. Тогда нам удастся нарисовать каузальную диаграмму, как на рис. 52, где я изобразил переменную образ жизни как потенциальный конфаундер. Вспомним, что всегда лучше, как в примере доктора Сноу, использовать инструментальную переменную, которая рандомизирована. В таком случае к ней не идут каузальные стрелки. По этой причине ген — отличная инструментальная переменная. Наши гены рандомизированы в момент зачатия так, словно Грегор Мендель дотянулся рукой с небес и случайно назначил одним людям ген высокого риска, а другим — ген низкого риска инфаркта. Отсюда возник термин «менделева рандомизация».
Может ли здесь быть стрелка, идущая в обратном направлении, от гена ЛПВП к образу жизни? Здесь нам снова требуется «расследование на подметках ботинок» и каузальное мышление. Ген ЛПВП мог бы влиять на образ жизни людей только в том случае, если бы они изначально знали, какая версия гена им досталась — с высоким уровнем ЛПВП или с низким. Но до 2008 года такие гены были неизвестны, да и сегодня у людей обычно нет доступа к подобной информации о себе. Поэтому весьма вероятно, что такой стрелки не существует.
По крайней мере два исследования холестеринового вопроса использовали этот подход менделевой рандомизации. В 2012 году масштабное совместное исследование, возглавляемое Секаром Катиресаном из Массачусетской больницы общего профиля, показало, что никаких преимуществ от более высокого уровня ЛПВП не наблюдается. Правда, эти исследователи обнаружили, что ЛПНП очень значительно влияет на риск инфаркта. Согласно их результатам, сокращение уровня ЛПНП на 34 мг/дл сокращает ваши шансы получить инфаркт на 50 %. Поэтому снижение «плохого» холестерина, будь то при помощи диеты, физических упражнений или статинов, — это хорошая идея. Тем не менее повышение уровня «хорошего» холестерина, что бы вам там ни говорили производители рыбьего жира, похоже, никак не влияет на риск получить инфаркт.
Рис. 52. Каузальная диаграмма для примера с менделевой рандомизацией
Как обычно, к вышесказанному есть и оговорка. Второе исследование, опубликованное в том же году, отметило, что у людей с менее опасным вариантом гена ЛПНП низкий уровень холестерина сохраняется в течение всей их жизни. Менделева рандомизация говорит нам, что, сокращая ваш уровень ЛПНП на 34 % в течение всей вашей жизни, снижает ваш риск умереть от инфаркта наполовину. Но статины не способны снижать ваш уровень «плохого» холестерина подобным образом — они действуют только с того дня, с которого вы начали их принимать. Если вам 60 лет, у ваших артерий уже 60 лет износа. По этой причине весьма вероятно, что менделева рандомизация переоценивает истинную пользу статинов.
Однако, начав снижать уровень холестерина смолоду — посредством диеты, или физкультуры, или даже статинов, — вы спустя время добьетесь значительных результатов.
С точки зрения каузального анализа вышесказанное преподает нам хороший урок: в любом исследовании интервенций нам следует выяснить, действительно ли та переменная, которой мы реально манипулируем (например, уровень ЛПНП в течение жизни), — это та же самая переменная, про которую мы думаем, что манипулируем ей (уровень ЛПНП в настоящий момент). Это входит в «искусный допрос природы».
Подытожим: инструментальные переменные — важный инструмент, они помогают нам выявить каузальную информацию, выходящую за пределы do-исчисления. Последнее настаивает на точечных оценках, а не на неравенствах и не работает в случаях вроде приведенного на рис. 52, в котором все, что нам удается получить, — это неравенства. Кроме того, важно понимать, что do-исчисление намного более гибко, чем метод инструментальных переменных. В do-исчислении нам не нужно делать никаких допущений относительно природы функций в каузальных моделях. Но если мы способны научно обосновать допущение о монотонности или линейности такой функции, тогда такой более специализированный инструмент, как инструментальные переменные, стоит принять к рассмотрению.
Методы инструментальных переменных можно распространить за пределы простых моделей из четырех переменных, как на рис. 49, но без опоры на каузальные диаграммы не получится уйти далеко. Например, в некоторых случаях несовершенная инструментальная переменная (т. е. такая, которая не вполне независима от конфаундера) используется после введения поправок по разумно подобранному набору вспомогательных переменных, блокирующих пути между инструментальной переменной и конфаундером. Мой бывший студент Карлос Брито, ныне профессор в Федеральном университете Сеары в Бразилии, полностью развил эту идею превращения неинструментальных переменных в инструментальные.
Вдобавок к этому Брито изучил множество случаев, в которых целый набор переменных успешно используется в качестве инструментальной. Хотя идентификация инструментальных наборов выходит за пределы do-исчисления, при этом все же используются каузальные диаграммы. Для исследователей, понимающих такой язык, возможные схемы экспериментов весьма разнообразны: им не нужно ограничивать себя только четырехпеременными моделями, показанными на рис. 49, 51 и 52. Наши возможности ограничены только нашим воображением.
Пути было два, и мир был широк
Однако я раздвоиться не мог.[2]
Знаменитые строчки Роберта Фроста отражают глубокое понимание поэтом контрфактивного. Мы не можем странствовать по двум дорогам одновременно, однако наш разум наделен способностями судить, что произошло бы, если бы мы выбрали другой путь. Вооружившись этим суждением, к концу поэмы Фрост оказывается доволен своим выбором, понимая, что «все остальное не играет роли».
Глава 8. Контрфактивные суждения: глубинный анализ миров, которые могли бы существовать
Если бы нос Клеопатры был немного короче, то изменился бы лик всей Земли.
Готовясь перейти на следующий уровень Лестницы Причинности, давайте обобщим, что мы узнали на втором уровне. Мы видели, что существуют несколько способов гарантировать эффект интервенции в разных контекстах и при разных условиях. В главе 4 мы обсудили рандомизированные контролируемые исследования, широко цитируемый золотой стандарт медицинских испытаний. Также мы рассмотрели методы, подходящие для наблюдательных исследований, в который испытуемая и контрольная группы выбирается непроизвольно. Если нам удается измерить все переменные, которые блокируют черные входы, формула поправки черного входа используется, чтобы получить необходимый эффект. Если мы найдем путь через парадный ход, закрытый от конфаундеров, то сможем использовать поправку парадного хода. Если же мы готовы принять линейность или монотонность, то применим инструментальные переменные (предполагая, что соответствующая переменная найдется на диаграмме или будет создана экспериментально). А действительно предприимчивые исследователи проложат другие маршруты к вершине горы Интервенции, используя do-исчисление или его алгоритмическую версию.
Во всех этих случаях мы имели дело с эффектом воздействия на исследуемую выборку или на типичного индивида, взятого из этой выборки (усредненный эффект от причинно-следственной взаимосвязи). Но пока мы упустили из обсуждения причинно-следственную связь на личном уровне — уровне отдельных событий или индивидов. Одно дело — сказать, что курение вызывает рак, но совсем другое — заявить, что ваш дядя Джо, который выкуривал по пачке сигарет 30 лет подряд, остался бы в живых, если бы не курил. Разница одновременно очевидна и глубока: никого из тех, кто, подобно дяде Джо, курил 30 лет и умер, нельзя наблюдать в альтернативной реальности, где они не курили 30 лет.
Ответственность и вина, сожаление и доверие — эти понятия служат ходовой валютой в причинно-следственных рассуждениях. Чтобы как-то их истолковать, у нас должна быть возможность сравнить то, что действительно случилось, с тем, что случилось бы гипотетически в какой-то альтернативной ситуации. Как я утверждал в главе 1, способность представлять альтернативные, несуществующие миры отделила нас от протолюдей и, более того, от всех остальных существ на планете. Любое другое существо видит то, что есть. Наш дар, который порой может быть проклятием, — видеть то, что могло бы быть.