Думай «почему?». Причина и следствие как ключ к мышлению — страница 55 из 82

Простота и привычность таких методов объясняет, почему представление Рубина о причинном выводе как о проблеме отсутствия данных пользуется популярностью. Увы, какими бы безобидными ни казались эти методы интерполяции, они в корне ошибочны. Они основаны на данных, а не на модели. Все недостающие сведения заполняются путем изучения других значений в таблице. Как мы узнали благодаря Лестнице Причинности, любой такой метод обречен с самого начала; никакие методы, основанные лишь на данных (первый уровень), не могут ответить на контрфактивные вопросы (третий уровень).

Прежде чем сравнить эти методы со структурной каузальной моделью, давайте исследуем, почему условный расчет без учета модели не работает. В частности, объясним, почему Берт и Кэролайн, которые идеально соответствуют друг другу в плане опыта, на самом деле могут быть совершенно несравнимы, когда дело дойдет до потенциальных результатов. Еще удивительнее, что рациональная причинно-следственная история (подходящая для табл. 12) показала бы: наибольшее соответствие по зарплате у Кэролайн будет с тем, кто не соответствует ей по стажу.

Для начала нужно понять, что стаж, скорее всего, будет зависеть от образования. В конце концов, сотрудникам, получившим диплом, потребовалось для этого четыре года жизни. Таким образом, если бы у Кэролайн была только одна ступень образования (как у Берта), она могла бы использовать это дополнительное время, чтобы получить больший стаж. В этом случае у нее было бы такое же образование, но стаж солиднее, чем у Берта. Таким образом, мы можем заключить, что S1 (Кэролайн) >S1 (Берт) вопреки тому, что предсказывало бы наивное сопоставление. Мы видим, что, если у нас есть причинно-следственная история, в которой образование влияет на стаж, сопоставление на основе последнего приведет к несоответствию в потенциальной зарплате.

Удивительно, но равный стаж, который вначале выглядел как приглашение к поиску соответствий, теперь превратился в громкое предупреждение против него. Табл. 12, конечно же, продолжит молчать о таких опасностях. По этой причине я не разделяю стремление Холланда рассматривать причинный вывод как проблему отсутствия данных. Наоборот. Недавняя работа Картики Мохан, моей бывшей студентки, показывает, что даже стандартные задачи с отсутствующими данными нуждаются в причинно-следственном моделировании для их решения.

Теперь давайте посмотрим, как те же данные будут обработаны с помощью структурной причинно-следственной модели. В первую очередь, прежде чем даже посмотрим на данные, нарисуем диаграмму причинности (рис. 53). На ней представим причинно-следственную историю, стоящую за данными, согласно ей стаж «слушает» образование, а зарплата — и то и другое. Фактически мы определили важные вещи, просто взглянув на диаграмму. Если бы наша модель была неправильной и EX было бы причиной ED, а не наоборот, то стаж был бы конфаундером и подбор сотрудников с аналогичным опытом был бы полностью уместным. С ED как причиной EX стаж выступает в роли посредника. Как вы уже наверняка знаете, если перепутать медиатор с конфаундером, мы совершим один из самых страшных грехов в области причинного вывода, что приведет к вопиющим ошибкам. Конфаундер нуждается в поправке, медиатор ее не допускает.

До этого момента в книге я использовал весьма неформальное слово «слушание», чтобы показать, что я имею в виду под стрелками на диаграмме причинности. Но теперь пришло время добавить немного математической плоти к этой концепции. Именно здесь структурные причинно-следственные модели отличаются от байесовских сетей или регрессионных моделей. Когда я говорю, что зарплата слушает образование и стаж, я имею в виду, что такова математическая функция этих переменных: S = fS (EX, ED). Но нам нужно учитывать индивидуальные вариации, поэтому мы расширяем эту функцию и записываем ее как S = fS (EX, ED, US), где US означает ненаблюдаемые переменные, которые влияют на заработную плату. Мы знаем, что эти переменные существуют (например, Элис дружит с президентом компании), но они слишком разнообразны и многочисленны, чтобы явно включить их в нашу модель.


Рис. 53. Диаграмма причинности, показывающая эффект воздействия образования (ED) и стажа (EX) на зарплату (S)


Давайте посмотрим, как это отразится на нашем примере образования / стажа / заработной платы, предполагая во всем линейные функции. Мы используем те же статистические методы, что и раньше, с целью найти наиболее подходящее линейное уравнение. Результат будет выглядеть так же, как уравнение (4), но с одним небольшим отличием:

S = $65 000 + 2 500 ¥ EX + 5 000 ¥ ED + US (5)

Однако формальное сходство между уравнениями (4) и (5) глубоко обманчиво; их интерпретации различаются как день и ночь. Тот факт, что мы решили регрессировать S по ED и EX в уравнении (4), никоим образом не означает, что S слушает ED и EX в реальном мире. Это был исключительно наш выбор, и наши данные никак не помешали бы нам регрессировать EX по ED и S или следовать любому другому порядку. (вспомните открытие Фрэнсиса Гальтона, описанное в главе 2, о том, что регрессия не видит причины). Мы теряем эту свободу, когда объявляем уравнение структурным. Другими словами, автор уравнения (5) должен взять на себя обязательство составлять выражения, отражающие его представления о том, кто кого слушает в реальном мире. В нашем случае он считает, что S действительно слушает EX и ED. Что еще более важно, отсутствие уравнения ED = fED (EX, S, UED) в модели означает, что ED предположительно не учитывает изменения в EX или S. Это различие в обязательствах дает структурным уравнениям возможность поддерживать контрфактивность, что нереально для уравнений регрессии.

В соответствии с рис. 53 у нас также должно быть структурное уравнение для EX, но теперь мы установим коэффициент при S как равный нулю, чтобы отразить отсутствие стрелки от S к EX. После того как мы оценим коэффициенты на основе имеющихся данных, уравнение будет выглядеть примерно так:

EX = 10 — 4ED + UEX (6)

Это уравнение говорит о том, что средний стаж для людей без степени магистра составляет десять лет и что каждая ступень образования (до двух) снижает EX в среднем на четыре года. Кроме того, обратите внимание на ключевое различие между структурными уравнениями и уравнениями регрессии: переменная S не входит в уравнение (6), несмотря на то, что S и EX, вероятно, сильно коррелированы. Это отражает уверенность аналитика в том, что на стаж EX, приобретенный любым человеком, никак не влияет его текущая зарплата.

Теперь давайте продемонстрируем, как выводить контрфактивные суждения из структурной модели. Чтобы оценить зарплату Элис, если бы у нее было высшее образование, мы сделаем три шага.

1. Абдукция: используйте данные об Элис и других сотрудниках, чтобы оценить ее специфические факторы: US (Элис) и UEX (Элис).

2. Действие: используйте оператор do, меняя модель так, чтобы она отражала контрфактивное допущение — в данном случае о наличии у нее высшего образования: ED (Элис) = 1.

3. Прогноз: рассчитайте новую зарплату Элис, используя модифицированную модель и обновленную информацию об экзогенных переменных: US (Элис), UEX (Элис) и ED (Элис). Эта рассчитанная заново зарплата равна SED = 1 (Элис).


Для шага 1 мы извлекаем из наших данных сведения, что EX (Элис) = 6 и ED (Элис) = 0. Мы подставляем эти значения в уравнения (5) и (6). Затем уравнения сообщают нам специфические для Элис факторы: US (Элис) = $1 000 и UEX (Элис) = –4. Они представляют все уникальное, особенное и чудесное, что есть в Элис. Что бы это ни было, оно добавляет 1 000 долларов к ее прогнозируемой зарплате.

Шаг 2 велит нам использовать do-оператор, чтобы стереть стрелки, указывающие на переменную, для которой установлено контрфактивное значение (образование), и присвоить Элис диплом бакалавра (образование = 1). В этом примере шаг 2 тривиален, потому что нет стрелок, указывающих на образование, и, следовательно, нет стрелок, которые нужно стереть. Однако в более сложных моделях удаление стрелок нельзя пропустить, потому что оно влияет на вычисления в шаге 3. Переменным, которые могли повлиять на результат через промежуточную переменную, больше не разрешается это делать.

Наконец, шаг 3 предполагает обновление модели с целью отразить новую информацию: US = $1 000, UEX = –4 и ED = 1. Сначала мы используем уравнение (6), чтобы пересчитать, каким был бы стаж Элис, если бы она училась в колледже: EXED = 1 (Элис) = 10 — 4–4 = 2 года. Затем мы используем уравнение (5), чтобы пересчитать ее потенциальную зарплату:

SED = 1 (Элис) = $65 000 + 2 500 ¥ 2 + 5 000 ¥ 1 + 1 000 = $76 000.

Наш результат S1 (Элис) = $76 000 — это действительная оценка потенциальной зарплаты Элис; т. е. совпадение возможно, если допущения модели верны. Поскольку в примере используется очень простая причинно-следственная модель и элементарные (линейные) функции, различия между ней и методом регрессии на основе данных могут показаться незначительными. Но незначительные различия на поверхности отражают огромные различия в глубине. Какой бы контрфактивный (потенциальный) результат мы ни получили от структурного метода, он логически следует из допущений, отраженных в модели. В то же время результат, полученный с помощью метода, основанного на данных, будет так же своеобразен, как и ложные корреляции, поскольку он оставляет эти допущения неучтенными.