Думай «почему?». Причина и следствие как ключ к мышлению — страница 32 из 82

изначально независимы, поэтому информация об А ничего не говорит о C. Но если вы вводите поправки по B, информация начинает распространяться по «трубе», благодаря эффекту объяснения. Мы должны также держать в уме еще одно фундаментальное правило:

г) выравнивание по нисходящей или опосредованной переменной подобно частичному выравниванию по исследуемой переменной. Выравнивание по переменной, нисходящей по отношению к медиатору, частично закрывает трубу; выравнивание по переменной, нисходящей по отношению к точке схождения, частично открывает трубу.

А что же будет в случае более длинных труб с большим числом соединений, вроде такой: A ← B ← C → D ← E → F → → G → H ← I ← J?

Ответ очень прост: если хоть одна связь окажется заблокирована, то J ничего не сможет «узнать» про A по этому пути. Таким образом, у нас множество вариантов прервать сообщение между A и J: вводить поправки по B, по С, не вводить поправки по D (потому что это коллайдер), вводить по E и т. д. Достаточно любого из этих вариантов.

Вот почему обычная статистическая процедура выравнивания по всем параметрам, которые только можно измерить, так ошибочна. На самом деле приведенный выше путь заблокирован даже в том случае, если мы не вводим никаких поправок! Коллайдеры к D и G закрывают путь без посторонней помощи. Введение поправок по D и G откроет этот путь и позволит J «услышать» A.

Итак, чтобы устранить конфаундеры между X и Y, нам необходимо только заблокировать все некаузальные пути между ними, не блокируя и не нарушая каузальные пути. Выражаясь точнее, путь черного хода — это любой путь от X до Y, который начинается со стрелки, входящей в Х. Конфаундеры между X и Y будут устранены, если мы закроем все черные ходы (потому что такие пути допускают ложную корреляцию между X и Y). Если мы делаем это, выравнивая выборку по некоторому набору переменных Z, следует также убедиться, что ни один фактор из Z не является нисходящей переменной по отношению к X на каузальном пути, иначе этот путь полностью или частично закроется.

Вот и все! С этими правилами устранение конфаундеров становится настолько элементарным делом, что можно воспринимать его как игру. Я предлагаю вам несколько примеров, чтобы войти во вкус и увидеть, как это просто. Если вам все еще кажется, что это сложно, будьте уверены, что существуют алгоритмы, решающие все эти задачи в течение наносекунд. В каждом случае цель игры — определить набор переменных, которые устранят конфаундеры между X и Y. Другими словами, они не должны исходить от X и они должны блокировать все черные ходы.


Игра 1


Эта — совсем простая! К X не идет ни одной стрелки, следовательно, черных ходов нет. Нам не нужно вводить никаких поправок.

Тем не менее некоторые исследователи сочтут B конфаундером. Оно связано с X по цепочке XA → B. Оно связано с Y у особей, у которых X = 0, потому что имеется открытый путь BAY, не проходящий через Х. И при этом B не находится на каузальном пути XAY. Таким образом, оно проходит трехступенчатое «классическое эпидемиологическое» определение конфаундера, но не соответствует критерию черного хода и поправки, введенные по нему, чреваты неприятностями.


Игра 2


В этом примере следует рассматривать A, B, C и D как «доэкспериментальные» переменные (экспериментальное воздействие, как всегда, обозначено X). Теперь имеется один черный ход X ← A → B ← D → E → Y. Этот путь уже блокирован коллайдером в B, поэтому нам опять не нужно вводить никаких поправок. Многие статистики стали бы выравнивать выборки по B или C, думая, что в этом нет вреда, поскольку они случаются до опыта. Один известный статистик еще совсем недавно писал: «Избегание введения поправок по некоторым наблюдаемым ковариантам… это ненаучная кустарщина». Он неправ: поправки по B или C — плохая идея, потому что они откроют некаузальный путь и создадут конфаундеры между X и Y. Обратите внимание, что в этом случае мы можем снова закрыть этот путь, корректируя по A или D. Этот образец показывает, что доступны различные стратегии устранения конфаундеров. Одни исследователи пойдут легким путем и не будут вводить никаких поправок; более традиционный подход предполагает корректировку по С и D. Оба варианта верны и приведут к одному и тому же результату (если модель верна, а выборка достаточно велика).


Игра 3


В играх 1 и 2 вам не нужно было ничего делать, но теперь придется. Имеется один черный ход от X к Y, XBY, который можно заблокировать, только вводя поправки по B. Если B невозможно наблюдать непосредственно, тогда оценить влияние X на Y невозможно без проведения рандомизированного контролируемого исследования. Некоторые (на самом деле почти все) статистики в этой ситуации будут выравнивать по A, как по опосредованной переменной для не поддающейся наблюдению переменной B, но это только частично устраняет смещение от конфаундера и вносит новое смещение от схождения.


Игра 4


Эта игра представляет новый для нас тип смещения оценки — М-тип (названный так по форме данного графа). Снова у нас только один черный ход, уже заблокированный коллайдером в B. Таким образом, нам снова не нужно вводить поправки. Тем не менее все статистики до 1986 года и многие даже сегодня посчитали бы B конфаундером. B ассоциировано с X (посредством XAB) и с Y через путь, который не проходит через X (BCY). Оно не лежит на каузальном пути и не является нисходящим по отношению к чему-либо на каузальном пути, потому что от X к Y каузального пути нет. Таким образом, B проходит традиционный трехступенчатый тест на конфаундеры.

M-тип смещения оценки показывает пальцем, что неверно в традиционном подходе. Неверно называть такую переменную, как B, конфаундером только потому, что она ассоциирована сразу и с X, и с Y. Повторяем, между X и Y нет вмешивающихся переменных, если мы не вводим поправки по B. B становится осложнителем только тогда, когда мы корректируем данные по нему!

Когда в 90-х годах ХХ века я начал показывать эту диаграмму статистикам, некоторые из них смеялись и говорили, что на практике вероятность столкнуться с такой схемой ничтожно мала. Я не согласен! Так, использование ремней безопасности в автомобиле (B) не влияет каузально ни на курение (X), ни на рак легких (Y), это просто показатель отношения индивида к соблюдению общественных норм (A) и мер безопасности и охраны здоровья (C). Образ жизни, вытекающий из этого отношения, может влиять на подверженность заболеваниям легких (Y). На практике соблюдение использования ремней безопасности оказалось скоррелировано и с X, и с Y. В исследовании 2006 года этот фактор значился одним из первых в списке переменных, по которым предполагалось вводить поправки. Если принять приведенную выше модель, то введение поправок только по B будет ошибочно.

Обратите внимание, что вводить поправки по B совершенно нормально, если при этом корректировать результаты также по A или C. Корректировка открывает трубу коллайдеру B, точке схождения, но дополнительная корректировка по A или C закрывает ее снова. К сожалению, в примере с ремнями безопасности и курением A и C — переменные, связанные с отношением людей к определенным вопросам, и получить данные по ним крайне сложно. А если переменная ненаблюдаема, по ней невозможно внести поправку.


Игра 5


Игра 5 — почти то же самое, что и игра 4, но с небольшим дополнительным вывертом. Теперь требуется закрыть второй черный ход XBCY. Если мы блокируем этот путь, вводя поправки по B, у нас открывается M-образный путь XABCY. Чтобы закрыть этот путь, нам придется вводить поправки также по A или C. Однако обратите внимание, что мы не сможем обойтись поправками только по C, это закроет путь XBCY, но не затронет второй.

Игры 1–3 взяты из статьи 1993 года под названием «В поисках более ясного определения конфаундеров», написанной Кларис Вайнберг, заместителем начальника Национальных институтов здравоохранения. Она вышла в переходный период между 1986 и 1995 годами, когда статья Гренланда и Робинса уже была доступна, но о каузальных диаграммах еще не было широко известно. Поэтому Вайнберг была вынуждена немало потрудиться, арифметически доказывая взаимозаменяемость в каждом из приведенных примеров. Хотя для передачи обсуждаемых сценариев она и использовала графику, логика диаграмм для различения конфаундеров и переменных, устраняющих осложнения, не применялась. Кроме нее я не знаю никого, кому бы это удалось. Позже, в 2012 году, она стала соавтором дополненной версии статьи, где те же примеры проанализированы с помощью каузальных диаграмм и подтверждено, что все ее выводы 1993 года верны.

В обеих статьях Вайнберг медицинское применение приведенных схем было в выяснении влияния курения (X) на выкидыши, или «спонтанное прерывание беременности» (Y). В игре 1 фактор A — это нарушения, вызываемые курением; это ненаблюдаемая переменная, потому что мы не знаем, в чем эти нарушения состоят. Фактор B представляет собой историю предыдущих выкидышей. Для эпидемиолога будет большим искушением обратить внимание на число предшествовавших выкидышей и ввести поправку по этой переменной, оценивая вероятность будущих выкидышей. Но в данном случае это как раз неправильно! Поступив так, мы частично деакти