Думай «почему?». Причина и следствие как ключ к мышлению — страница 43 из 82

D и WF (а также D и Y) освободились от осложнителя. Первый статистик оказался бы неправ, потому что измерял бы только статистические ассоциации, а не причинно-следственные эффекты.

Подводя итог, скажем, что для нас главный урок парадокса Лорда в том, что он не более парадоксален, чем парадокс Симпсона. В одном из них ассоциация становится обратной, а в другой исчезает. И в обоих случаях диаграмма причинности подскажет, какую процедуру нужно использовать. Однако статистикам, обученным «традиционной» (т. е. не учитывающей модели) методологии и избегающим оптики причинности, представляется глубоко парадоксальным тот факт, что вывод, верный в одном случае, будет неверным в другом, при том, что данные выглядят совершенно одинаково.

Теперь, хорошо проработав коллайдеры, осложнители и опасности, которыми они грозят, мы наконец-то готовы пожать плоды нашего труда. В следующей главе мы начнем подъем по Лестнице причинности, начав со второго уровня — интервенции.


Рис 47. Обновленная версия парадокса Лорда по Вайнеру и Браун и соответствующая диаграмма причинности.

Глава 7. За пределами поправок: покорение горы интервенции

В том, у кого боязнь согрешить проявляется прежде, чем мудрость, мудрость укрепится; утратит же ее тот, у кого она проявляется прежде, чем боязнь согрешить Авот. 3:9

Раби Ханина бен Доса (I век н. э.)

В этой главе мы, наконец, храбро предпримем восхождение на второй уровень Лестницы Причинности, уровень интервенций — святой Грааль каузального мышления с древнейших времен до наших дней. Этот уровень задействован в попытках предсказать эффекты еще не испытанных действий и стратегий, от способов лечения до социальных программ, от экономической политики до личного выбора. Конфаундеры были основным препятствием, заставлявшим нас путать наблюдаемое с осуществляемым. Удалив это препятствие с помощью техники блокирования путей и критерия черного хода, мы можем картировать путь к горе Интервенции с систематической точностью. Для начинающего альпиниста самые безопасные тропы наверх — это поправки черного хода и различные родственные им техники, некоторые из них упомянуты тут в рубриках «Поправки парадного входа» и «Инструментальные переменные».

Однако не во всех случаях эти пути доступны, поэтому опытному скалолазу эта глава предоставляет универсальный инструмент картирования, так называемое do-исчисление, позволяющее исследователю обследовать и нанести на карту все пути на вершину Интервенции, как бы извилисты они ни были. Если путь зафиксирован на карте и все тросы и карабины наготове, наше восхождение на вершину обречено увенчаться успехом!

Самый простой путь: формула поправки черного хода

Для многих исследователей самый (или единственный) известный метод предсказания эффектов интервенции — поправки по конфаундерам по соответствующей формуле. Этот метод разумно использовать, когда вы уверены, что у вас есть данные по достаточному набору переменных (снимающих осложнения), чтобы заблокировать все черные ходы между интервенцией и результатом. Для этого мы должны измерить средний каузальный эффект интервенции, вначале оценив ее эффект на каждом уровне или страте, снимающих осложнение переменной. Затем мы исчисляем среднее взвешенное этих страт, где каждая из них определена в соответствии со своим распространением в популяции. Если, например, переменная, по которой вводится поправка, — это пол, мы прежде всего оцениваем каузальный эффект для мужских и женских особей отдельно, затем усредняем его, если в популяции, как чаще всего бывает, соотношение полов один к одному. Если соотношения иные, скажем особей мужского пола —, а женского —, тогда для оценки среднего каузального воздействия нужно взять соответствующим образом средние взвешенные.

Роль, которую в этой процедуре играет критерий черного хода, — это гарантия, что каузальный эффект в каждой страте переменной, снимающей осложнения, не что иное, как наблюдаемый в этой страте тренд. Таким образом, каузальный эффект можно вывести из данных по частям, страта за стратой. В отсутствие критерия черного хода у исследователей нет гарантии, что поправки оправданы.

Пример с вымышленным лекарством в главе 6 — самая простая из возможных ситуаций: одна экспериментальная переменная (лекарство D), один исход (инфаркт), один конфаундер (пол) и все три переменные бинарны. Этот пример демонстрирует, как мы получаем среднее взвешенное по условным вероятностям P (инфаркт | лекарство) в каждой из страт (пол). Но описанную выше процедуру легко модифицировать так, чтобы она годилась и для более сложных ситуаций, включая множественность конфаундеров и множественность страт.

Однако во многих случаях переменные X, Y или Z принимают численные значения: доход, или рост, или вес при рождении. Мы наблюдали это в визуальном образце с парадоксом Симпсона. Поскольку переменная способна принимать (по крайней мере, для всех практических целей) бесконечное множество возможных значений, мы не в состоянии перечислить их все в таблице, как было сделано в главе 6.

Очевидное решение — распределить численные значения переменной по конечному и удобному в использовании числу категорий. В таком решении нет ничего принципиально неправильного, однако выбор числа категорий оказывается несколько произвольным. Намного хуже, когда переменных, по которым вводятся поправки, оказывается достаточно много, число категорий растет по экспоненте, что делает исчисление по этой процедуре затруднительным; еще хуже, что во многих стратах при этом нет ни одного образца и они не могут, таким образом, дать оценку вероятности.

Статистики изобрели хитроумные методы избавления от этой проблемы «проклятья множественных измерений». В большинстве из них в том или ином виде применяется экстраполяция, когда для данных подбирается соответствующая им гладкая функция, с помощью которой закрываются дыры, оставленные пустыми стратами.

Наиболее часто из всех гладких функций используется, конечно, линейное аппроксимирование; все ХХ столетие оно честно служило рабочей лошадкой в большей части работ, связанных с количественным исчислением, в науках об обществе и поведении. Мы уже видели, как Сьюалл Райт погрузил свои путевые диаграммы в контекст линейных уравнений, и отметили одно преимущество, которое дает это погружение: каждое каузальное воздействие может быть представлено одним числом (путевым коэффициентом). Второе и не менее важное преимущество линейных аппроксимаций — невероятная простота подсчета поправочной формулы. Ранее мы познакомились с изобретенной Фрэнсисом Гальтоном линией регрессии, когда берется облако точек данных и через это облако интерполируется прямая, наиболее соответствующая их распределению. В случае одной экспериментальной (независимой) переменной (X) и одной зависимой (Y) уравнение для линии регрессии выглядит так: Y = aX + b. Параметр a (часто обозначаемый как rYX, коэффициент регрессии Y на X) рассказывает нам о наблюдаемой в среднем тенденции: увеличение Х на 1 приведет в среднем к увеличению Y на a единиц. Если у Х и Y нет конфаундеров, мы можем использовать это выражение как нашу оценку интервенции по увеличению X на 1. Но что же происходит, если имеется конфаундер, Z? В этом случае коэффициент корреляции rYX не сообщает нам средний каузальный эффект: он передает нам только среднюю наблюдаемую тенденцию. В этом была загвоздка у Райта в случае проблемы веса морских свинок при рождении, обсужденной в главе 2: очевидная прибавка в весе (5,66 грамма) за дополнительный день беременности была смещенной оценкой, потому что осложнялась эффектом меньшего размера помета. Но выход все же есть: разместить все данные по трем переменным так, чтобы каждое значение (X, Y, Z) соответствовало одной точке в пространстве в одной системе координат. В этом случае данные образуют облако точек в XYZ-пространстве. Аналогом линии регрессии здесь будет плоскость регрессии, описываемая уравнением Y = aX + bZ + c. Мы с легкостью вычислим a, b и c из этих данных. В этот момент происходит нечто замечательное, о чем Гальтон не догадывался, а Карл Пирсон и Джордж Удни Юл знали точно. Коэффициент а теперь дает нам коэффициент регрессии Y на X уже с поправкой по Z (он называется коэффициентом частичной регрессии и записывается как rYX.Z). Таким образом, мы можем избежать трудоемкой процедуры подсчета регрессии Y на X для каждого уровня Z и исчисления среднего взвешенного для этих коэффициентов регрессии. Природа сама все усредняет за нас! Нам нужно только рассчитать плоскость, лучше всего описывающую наши данные. Статистические пакеты справляются с этим моментально. Коэффициент а в уравнении этой плоскости, Y = aX + bZ + c, автоматически вносит поправку в наблюдаемый тренд Y на X по конфаундеру Z. Если Z — единственный конфаундер, то а — это среднее каузальное воздействие X на Y. Поистине чудесное упрощение!

Эта процедура также легко расширяется для работы со многими переменными. Если набор переменных Z удовлетворяет критерию черного хода, тогда коэффициент при X в уравнении регрессии а оказывается не чем иным, как средним каузальным воздействием X на Y.

По этой причине поколения исследователей верили, что коэффициенты регрессии после введения поправок (иначе — коэффициенты частичной регрессии) каким-то образом наделены каузальной информацией, которой нет в коэффициентах регрессии без поправок. Ничего не может быть дальше от истины. Коэффициенты регрессии, с поправками или без, — это только статистические тенденции, и в них самих по себе каузальная информация не содержится. Коэффициент r