Историк Тед Портер в написанной им биографии «Карл Пирсон» рассказывает, что скептицизм по отношению к причинности был у Пирсона и до прочтения книги Гальтона. Пирсон боролся с философскими основаниями физики и писал, например: «Полагать силы причиной движения так же обоснованно, как думать, что рост дерева вызывают дриады». С более общей точки зрения Пирсон принадлежал к течению, именуемому позитивизмом, согласно которому Вселенная — это производная человеческой мысли, а наука — только описание этой мысли. Таким образом, причинность, понимаемая как объективный процесс, происходящий в мире снаружи человеческого мозга, не могла иметь в этой концепции никакого научного значения. Значащие мысли способны только отражать наблюдения, а последние полностью описываются с помощью корреляций. Решив, что корреляция гораздо более универсально описывает человеческое мышление, чем причинность, Пирсон приготовился к тому, чтобы избавиться от причинности окончательно.
Портер рисует яркий, живой портрет Пирсона, всю жизнь называвшего себя немецким словом SchWarmer, которое обычно переводится как «энтузиаст», но может иметь и более резкое значение — «фанатик». Окончив Кембридж в 1879 году, Пирсон провел год в Германии и так полюбил немецкую культуру, что изменил первую букву своего имени Карл (Carl), с C на K, на немецкий манер. Задолго до того, как это стало модно, он придерживался социалистических взглядов, и в 1881 году написал Карлу Марксу, предлагая перевести «Капитал» на английский. Пирсон, по некоторым мнениям первый английский феминист, основал лондонский «Клуб мужчин и женщин» для обсуждения «женского вопроса». Его волновал низкий статус женщин в обществе, и он настаивал на том, чтобы им достойно платили за работу. К идеям он относился с большой страстью — и одновременно очень рассудочно к своим страстям. Ему понадобилось почти полгода, чтобы уговорить свою будущую жену Марию Шарп выйти за него, и из их переписки понятно, что она откровенно опасалась, что не сможет соответствовать его высоким интеллектуальным идеалам. Когда Пирсон открыл для себя Гальтона и его корреляции, его страстность наконец-то нашла точку приложения; эта идея, как он полагал, могла перевернуть мир науки и привнести математическую строгость в такие области, как биология и психология. К достижению этой цели он и ринулся с поистине пиратской целеустремленностью. Его первая статья о статистике вышла в 1893 году, через четыре года после открытия корреляции Гальтоном. В 1901 году он основал журнал «Биометрика» (Biometrika), до наших дней остающийся одним из самых влиятельных статистических журналов (в нем была еретически опубликована моя первая статья по диаграммам причинности в 1995 году).
К 1903 году Пирсон получил грант от Почетной компании драпировщиков на создание лаборатории биометрии в Университетском колледже Лондона. В 1911 году она стала официальным факультетом, когда Гальтон умер и оставил средства на создание профессорской кафедры (с условием, что первым профессором на ней станет Пирсон). По крайней мере два десятилетия пирсоновская лаборатория биометрии была ведущим мировым статистическим центром. Когда Пирсон получил руководящую должность, его фанатизм стал проявляться все более выраженно. Вот что пишет Портер: «Возглавляемое Пирсоном статистическое движение имело все признаки раскольнической секты. От своих соратников он требовал лояльности и самоотверженности, а оппонентов отлучал от церкви биометрии». Один из его первых ассистентов Джордж Юл оказался также одним из первых, на кого обрушился его гнев. Некролог Пирсону, написанный Юлом для Королевского общества в 1936 году, хорошо передает тогдашнюю злобу дня, хотя и написан сдержанно, огибая острые углы: «Заразительность его энтузиазма была действительно бесценна; но доминирование, даже в готовности помочь, было несомненным недостатком. … Это страстное желание доминировать, чтобы все было именно так, как ему хочется, проявлялось и во многом другом, например в редактировании „Биометрики” — ни один журнал в мире не редактировался с таким личным пристрастием. … Те, кто оставил его и начал мыслить самостоятельно, обнаруживали, один за другим, что после расхождения мнений поддерживать дружеские отношения с ним оказывалось крайне сложно, а после прямой критики — невозможно».
Тем не менее в возведенной Пирсоном оборонной башне науки без причинности находились трещины, причем чаще по вине его соратников-основателей, чем поздних учеников. Так, сам Пирсон неожиданно написал несколько статей о «ложных корреляциях», о понятии, которое невозможно ввести без отсылок к причинности. Пирсон заметил, что довольно легко найти корреляции, которые просто очевидно бессмысленны. В качестве забавного примера в постпирсоновские времена часто приводили тот факт, что существует высокая корреляция между потреблением шоколада на душу населения в странах мира и числом нобелевских лауреатов в этих же странах. Эта корреляция выглядит глупо, потому что нельзя вообразить, каким образом шоколад на десерт может сделать человека нобелевским лауреатом. Правдоподобное объяснение заключается в предположении, что в преуспевающих странах Запада люди могут позволить себе больше шоколада, а премию Нобеля получают также в основном выходцы из этих наиболее развитых стран. Но это типичное каузальное объяснение, которое, согласно Пирсону, не требуется для научного мышления. Для него причинность — только «фетиш в непостижимой магии современной науки». Корреляция должна быть целью научного понимания. Этот подход, однако, ставит его в неловкое положение, когда ему приходится объяснять, почему одни корреляции имеют смысл, а другие «ложны». Он поясняет, что истинная корреляция указывает на «органическую связь» между переменными, в то время как для ложной корреляции такой связи нет. Но что такое органическая связь? Разве это не та же причинность, только под другим именем?
Вместе Пирсон и Юл собрали несколько случаев ложных корреляций. Одна их категория теперь называется смешением, история с нобелевскими лауреатами и шоколадом — типичный ее образец (уровень благосостояния и местоположение — смешанные факторы, или общие причины для уровня потребления шоколада и числа лауреатов премии Нобеля). Другой пример бессмысленной корреляции часто обнаруживается при анализе серий данных, изменяющихся во времени. Так, Юл нашел невероятно высокую корреляцию (0,95) между уровнем смертности в Англии в данный год и процентом браков, заключенных в тот же год в англиканской церкви. Неужели Бог избирательно наказывает сочетающихся законным браком англикан? Конечно, нет! Две совершенно отдельных исторических тенденции просто совпали по времени: смертность в стране неуклонно сокращалась, а число членов англиканской церкви так же неуклонно уменьшалось. Поскольку оба процесса шли в одном направлении в одно и то же время, между ними была положительная корреляция при отсутствии причинной связи.
Самый интересный вариант бессмысленной корреляции Пирсон обнаружил еще в 1899 году. Он проявляется тогда, когда две гетерогенные выборки объединяют в одну. Пирсон, который, как и Гальтон, фанатично собирал данные, относящиеся к человеческому телу, получил обмеры 806 мужских и 340 женских черепов из парижских катакомб и подсчитал корреляции между длиной и шириной черепа. Когда подсчет производился только для мужских или только для женских черепов, корреляция была пренебрежимо мала — между длиной и шириной черепа практически не было связи. Но если обе группы объединяли, корреляция становилась равной 0,197, и обычно такое значение считалось значимым. Это объяснимо, потому что небольшая длина черепа сегодня считается индикатором того, что череп принадлежал женщине, и поэтому его ширина тоже окажется небольшой. Тем не менее Пирсон считал это статистическим артефактом.
Тот факт, что корреляция оказалась положительной, не имел биологического или «органического» значения; это был просто результат неправомерного объединения двух разных выборок.
Этот пример являет собой частный случай более общего явления, именуемого парадоксом Симпсона. В главе 6 мы обсудим, в каких случаях оправдано разделение массива данных на отдельные группы, и объясним, почему при их объединении могут возникать ложные корреляции.
Но давайте взглянем на то, что писал Пирсон: «Для тех, кто настаивает на взглядах на любые корреляции как на связь причины и следствия, тот факт, что значимую корреляцию между двумя совершенно не связанными признаками А и Б можно получить искусственным смешением двух близких выборок, должен восприниматься как шок». Стивен Стиглер комментирует это: «Я не могу удержаться от догадки, что сильнее всего был шокирован он сам». По сути, Пирсон бранил сам себя за склонность мыслить в терминах причинности.
Глядя на этот же самый пример через линзу причинности, нам остается только воскликнуть: надо же было упустить такую возможность! В идеальном мире подобные случаи могли бы подвигнуть талантливого ученого на размышления о причинах его шока и разработку научной дисциплины, предсказывающей появление ложных корреляций. По крайней мере, он попытался бы объяснить, когда данные целесообразно объединять, а когда нет. Но единственное наставление Пирсона последователям по этому поводу заключается в том, что «искусственное» (что бы это ни значило) объединение данных — это плохо. По иронии судьбы, используя наши каузальные очки, мы теперь знаем, что иногда именно анализ объединенных, а не разделенных данных дает верный ответ. Логика причинных умозаключений может подсказать нам, чему следует доверять. Я бы хотел, чтобы Пирсон был сейчас с нами и мог этому порадоваться!
Далеко не все ученики Пирсона ступали за ним след в след. Юл, который разошелся с Пирсоном по другим причинам, по этому поводу тоже был с ним не согласен. Вначале он был с ним в одном экстремистском лагере, утверждая, что корреляции расскажут нам все, что мы могли бы захотеть узнать посредством науки. Тем не менее он до некоторой степени изменил свое мнение, когда ему понадобилось объяснить наблюдения за условиями жизни беднейших жителей Лондона. В 1899 году он изучал вопрос, увеличивает ли «внешняя помощь» (материальная помощь, доставляемая на дом малоимущим, в отличие от жизни в богадельне) уровень бедности. Данные показывали, что кварталы, получающие больше «внешней помощи», отличались более высоким уровнем бедности, но Юл понял, что эта корреляция, скорее всего, была ложной; в этих кварталах жило больше пожилых людей, которые чаще всего бедны. Однако затем он сумел показать, что при сравнении кварталов с одинаковой пропорцией пожилых жителей корреляция сохраняется. Благодаря этому он осмелился заявить, что повышение уровня бедности