изначально независимы, поэтому информация об А ничего не говорит о C. Но если вы вводите поправки по B, информация начинает распространяться по «трубе», благодаря эффекту объяснения. Мы должны также держать в уме еще одно фундаментальное правило:
г) выравнивание по нисходящей или опосредованной переменной подобно частичному выравниванию по исследуемой переменной. Выравнивание по переменной, нисходящей по отношению к медиатору, частично закрывает трубу; выравнивание по переменной, нисходящей по отношению к точке схождения, частично открывает трубу.
А что же будет в случае более длинных труб с большим числом соединений, вроде такой: A ← B ← C → D ← E → F → → G → H ← I ← J?
Ответ очень прост: если хоть одна связь окажется заблокирована, то J ничего не сможет «узнать» про A по этому пути. Таким образом, у нас множество вариантов прервать сообщение между A и J: вводить поправки по B, по С, не вводить поправки по D (потому что это коллайдер), вводить по E и т. д. Достаточно любого из этих вариантов.
Вот почему обычная статистическая процедура выравнивания по всем параметрам, которые только можно измерить, так ошибочна. На самом деле приведенный выше путь заблокирован даже в том случае, если мы не вводим никаких поправок! Коллайдеры к D и G закрывают путь без посторонней помощи. Введение поправок по D и G откроет этот путь и позволит J «услышать» A.
Итак, чтобы устранить конфаундеры между X и Y, нам необходимо только заблокировать все некаузальные пути между ними, не блокируя и не нарушая каузальные пути. Выражаясь точнее, путь черного хода — это любой путь от X до Y, который начинается со стрелки, входящей в Х. Конфаундеры между X и Y будут устранены, если мы закроем все черные ходы (потому что такие пути допускают ложную корреляцию между X и Y). Если мы делаем это, выравнивая выборку по некоторому набору переменных Z, следует также убедиться, что ни один фактор из Z не является нисходящей переменной по отношению к X на каузальном пути, иначе этот путь полностью или частично закроется.
Вот и все! С этими правилами устранение конфаундеров становится настолько элементарным делом, что можно воспринимать его как игру. Я предлагаю вам несколько примеров, чтобы войти во вкус и увидеть, как это просто. Если вам все еще кажется, что это сложно, будьте уверены, что существуют алгоритмы, решающие все эти задачи в течение наносекунд. В каждом случае цель игры — определить набор переменных, которые устранят конфаундеры между X и Y. Другими словами, они не должны исходить от X и они должны блокировать все черные ходы.
Игра 1
Эта — совсем простая! К X не идет ни одной стрелки, следовательно, черных ходов нет. Нам не нужно вводить никаких поправок.
Тем не менее некоторые исследователи сочтут B конфаундером. Оно связано с X по цепочке X → A → B. Оно связано с Y у особей, у которых X = 0, потому что имеется открытый путь B ← A → Y, не проходящий через Х. И при этом B не находится на каузальном пути X → A → Y. Таким образом, оно проходит трехступенчатое «классическое эпидемиологическое» определение конфаундера, но не соответствует критерию черного хода и поправки, введенные по нему, чреваты неприятностями.
Игра 2
В этом примере следует рассматривать A, B, C и D как «доэкспериментальные» переменные (экспериментальное воздействие, как всегда, обозначено X). Теперь имеется один черный ход X ← A → B ← D → E → Y. Этот путь уже блокирован коллайдером в B, поэтому нам опять не нужно вводить никаких поправок. Многие статистики стали бы выравнивать выборки по B или C, думая, что в этом нет вреда, поскольку они случаются до опыта. Один известный статистик еще совсем недавно писал: «Избегание введения поправок по некоторым наблюдаемым ковариантам… это ненаучная кустарщина». Он неправ: поправки по B или C — плохая идея, потому что они откроют некаузальный путь и создадут конфаундеры между X и Y. Обратите внимание, что в этом случае мы можем снова закрыть этот путь, корректируя по A или D. Этот образец показывает, что доступны различные стратегии устранения конфаундеров. Одни исследователи пойдут легким путем и не будут вводить никаких поправок; более традиционный подход предполагает корректировку по С и D. Оба варианта верны и приведут к одному и тому же результату (если модель верна, а выборка достаточно велика).
Игра 3
В играх 1 и 2 вам не нужно было ничего делать, но теперь придется. Имеется один черный ход от X к Y, X → B ← Y, который можно заблокировать, только вводя поправки по B. Если B невозможно наблюдать непосредственно, тогда оценить влияние X на Y невозможно без проведения рандомизированного контролируемого исследования. Некоторые (на самом деле почти все) статистики в этой ситуации будут выравнивать по A, как по опосредованной переменной для не поддающейся наблюдению переменной B, но это только частично устраняет смещение от конфаундера и вносит новое смещение от схождения.
Игра 4
Эта игра представляет новый для нас тип смещения оценки — М-тип (названный так по форме данного графа). Снова у нас только один черный ход, уже заблокированный коллайдером в B. Таким образом, нам снова не нужно вводить поправки. Тем не менее все статистики до 1986 года и многие даже сегодня посчитали бы B конфаундером. B ассоциировано с X (посредством X ← A → B) и с Y через путь, который не проходит через X (B → C ← Y). Оно не лежит на каузальном пути и не является нисходящим по отношению к чему-либо на каузальном пути, потому что от X к Y каузального пути нет. Таким образом, B проходит традиционный трехступенчатый тест на конфаундеры.
M-тип смещения оценки показывает пальцем, что неверно в традиционном подходе. Неверно называть такую переменную, как B, конфаундером только потому, что она ассоциирована сразу и с X, и с Y. Повторяем, между X и Y нет вмешивающихся переменных, если мы не вводим поправки по B. B становится осложнителем только тогда, когда мы корректируем данные по нему!
Когда в 90-х годах ХХ века я начал показывать эту диаграмму статистикам, некоторые из них смеялись и говорили, что на практике вероятность столкнуться с такой схемой ничтожно мала. Я не согласен! Так, использование ремней безопасности в автомобиле (B) не влияет каузально ни на курение (X), ни на рак легких (Y), это просто показатель отношения индивида к соблюдению общественных норм (A) и мер безопасности и охраны здоровья (C). Образ жизни, вытекающий из этого отношения, может влиять на подверженность заболеваниям легких (Y). На практике соблюдение использования ремней безопасности оказалось скоррелировано и с X, и с Y. В исследовании 2006 года этот фактор значился одним из первых в списке переменных, по которым предполагалось вводить поправки. Если принять приведенную выше модель, то введение поправок только по B будет ошибочно.
Обратите внимание, что вводить поправки по B совершенно нормально, если при этом корректировать результаты также по A или C. Корректировка открывает трубу коллайдеру B, точке схождения, но дополнительная корректировка по A или C закрывает ее снова. К сожалению, в примере с ремнями безопасности и курением A и C — переменные, связанные с отношением людей к определенным вопросам, и получить данные по ним крайне сложно. А если переменная ненаблюдаема, по ней невозможно внести поправку.
Игра 5
Игра 5 — почти то же самое, что и игра 4, но с небольшим дополнительным вывертом. Теперь требуется закрыть второй черный ход X → B → C ← Y. Если мы блокируем этот путь, вводя поправки по B, у нас открывается M-образный путь X → A ← B → C ← Y. Чтобы закрыть этот путь, нам придется вводить поправки также по A или C. Однако обратите внимание, что мы не сможем обойтись поправками только по C, это закроет путь X → B → C ← Y, но не затронет второй.
Игры 1–3 взяты из статьи 1993 года под названием «В поисках более ясного определения конфаундеров», написанной Кларис Вайнберг, заместителем начальника Национальных институтов здравоохранения. Она вышла в переходный период между 1986 и 1995 годами, когда статья Гренланда и Робинса уже была доступна, но о каузальных диаграммах еще не было широко известно. Поэтому Вайнберг была вынуждена немало потрудиться, арифметически доказывая взаимозаменяемость в каждом из приведенных примеров. Хотя для передачи обсуждаемых сценариев она и использовала графику, логика диаграмм для различения конфаундеров и переменных, устраняющих осложнения, не применялась. Кроме нее я не знаю никого, кому бы это удалось. Позже, в 2012 году, она стала соавтором дополненной версии статьи, где те же примеры проанализированы с помощью каузальных диаграмм и подтверждено, что все ее выводы 1993 года верны.
В обеих статьях Вайнберг медицинское применение приведенных схем было в выяснении влияния курения (X) на выкидыши, или «спонтанное прерывание беременности» (Y). В игре 1 фактор A — это нарушения, вызываемые курением; это ненаблюдаемая переменная, потому что мы не знаем, в чем эти нарушения состоят. Фактор B представляет собой историю предыдущих выкидышей. Для эпидемиолога будет большим искушением обратить внимание на число предшествовавших выкидышей и ввести поправку по этой переменной, оценивая вероятность будущих выкидышей. Но в данном случае это как раз неправильно! Поступив так, мы частично деакти