дальнейшем построении профессиональной карьеры”. Неожиданный результат исследования обусловлен так называемым парадоксом Симпсона – противоречащим интуиции феноменом, согласно которому очевидный тренд, наблюдаемый в отдельных группах данных, может исчезать и даже извращаться при объединении этих групп.
В настоящее время мы столкнулись с весьма любопытной и курьезной проблемой: хотя никогда прежде сбор данных не был столь же легким и простым, как сейчас, недопустимо упрощенная интерпретация доступной информации и трендов создает впечатление полного несоответствия реальности. Парадокс Симпсона часто дает знать о себе в сферах политики, социологии и медицины, и происходит это, когда отношения причины и следствия некорректно выводятся из частотных данных. Например, доля людей, умирающих в больницах, намного выше, чем доля людей, умирающих на почте, но было бы абсолютно недопустимо (и это, к счастью, абсолютно очевидно) делать из этого вывод о том, что почтовое отделение является более подходящим для лечения больных местом, чем больницы. Выведение причинно-следственных связей из статистических данных задача, как известно, очень трудная: единственная путающая переменная может привести неискушенного наблюдателя к полностью ложным выводам. Классический пример – это статистически достоверная связь числа смертей от утопления с ростом продаж мороженого. Эта связь абсолютно достоверна, но было бы очень странным допускать, что мороженое может привести к утоплению. Скрытая переменная здесь – теплая солнечная погода, которая увеличивает как продажи мороженого, так и число посетителей морских пляжей.
Из всех ловушек, в которые можно угодить при оценке статистических данных, самая распространенная – это ошибка, связанная с оценкой причинности. Мы уже встречались выше с логической ошибкой типа post hoc ergo propter hoc, но в контексте статистических данных эти ошибки не всегда столь же очевидны, как в риторике. Если ошибку в оценке причинной связи в ходе спора или дискуссии обнаружить относительно легко, то – из-за нашей коллективной математической неграмотности – в статистике такие ошибки часто проскакивают незамеченными. Несмотря на то, что публика часто обожествляет статистическую информацию и статистические тренды, она столь же часто забывает, что делать вывод о наличии причинно-следственных связей – занятие очень трудное. Как правило, решение подобной задачи осложняется присутствием множества скрытых переменных, и потому обнаружить причинную связь оказывается непросто (разумеется, при условии, что она вообще есть). Надо всегда иметь в виду старое предостережение: “Наличие корреляции не подразумевает причины”.
Для того чтобы отделить причину от следствия, порой требуются трудоемкие изыскания. Корреляция может, конечно, дать намек на связь, но парадокс Симпсона и существование скрытых переменных наглядно показывают, что с имеющейся информацией надо обращаться очень аккуратно. Неправильная интерпретация может породить неверные представления в умах несведущих людей. Статистик Дэвид Эпплтон и его коллеги приводят очаровательный пример, касающийся смертности среди женщин английской деревни Уикхэм; смертность оценили сначала в семидесятых годах, а затем еще раз через двадцать лет. При поверхностном взгляде на таблицы со статистическими результатами могло сложиться впечатление, что курение благотворно сказывается на долголетии, так как среди некурящих смертность за истекший период составила 43 процента, а среди курящих – всего 38 процентов. Однако этот странный результат испаряется, если учесть влияние парадокса Симпсона: когда все женское население разделили на возрастные группы, то выяснилось, что во всех группах курение отрицательно сказывается на здоровье и повышает смертность. Дело было в том, что курящие женщины, которых учитывали в первом наблюдении, были в среднем моложе, чем курящие, которых учитывали при повторном наблюдении. На таких примерах мы отчетливо видим, как небрежность может искажать истину, – особенно если такая манипуляция выполняется преднамеренно.
Ложные причинно-следственные связи обнаруживаются везде, но нельзя делать умозаключения на основании одной только корреляции, не исключив предварительно влияния скрытых переменных. Корреляция и сама по себе, даже в отсутствие путающих переменных, требует тщательного анализа для выявления истинной причины; можно, например, установить вполне отчетливую корреляцию между зонтами и дождем, но будет ошибкой объяснять дождь ношением зонтов. Ложные связи можно использовать для создания комических эффектов. Скажем, Тайлер Виджен находит тесную корреляцию между такими абсолютно не связанными между собой данными, как потребление сыра и удушение простынями ночью во сне, или между числом самоубийств и числом адвокатов в Северной Каролине. Бобби Хендерсон, основатель сатирического культа Летающего макаронного монстра, объявил, что пиратов надо награждать высшими регалиями и почитать как святых, потому что имеет место обратно пропорциональная зависимость между общемировым числом пиратов и среднегодовой общемировой температурой воздуха; значит можно утверждать, что пираты предупреждают развитие глобального потепления[53].
Здесь я сделаю небольшую паузу, так как боюсь, что невольно создал впечатление, будто статистические корреляции абсолютно бессмысленны. На самом деле ничто не может быть дальше от истины. Статистическую корреляцию можно рассматривать как важный элемент детективного сюжета. Представьте себе, что была совершена серия преступлений. Статистическая корреляция может показать, что подозреваемый каждый раз оказывался поблизости от места преступления. Само по себе это не является доказательством вины, но зато дает прекрасный повод для начала разработки этого человека. Точно так же, если нет никакой статистической связи между преступлениями и перемещениями какого-то человека, то его можно исключить из числа подозреваемых. Просто нам всегда надо помнить, что использование статистических методов должно быть корректным – то есть для начала следует избавиться от всех запутывающих влияний. Вернемся ненадолго к нашей детективной аналогии: вполне возможно, что при расследовании нескольких убийств выявится корреляция между перемещениями убийцы и перемещениями следователя, но – если нет веских оснований считать следователя серийным убийцей – было бы неразумно спешить обвинять последнего только на этом основании.
Для того чтобы избежать ложных умозаключений, статистическая информация должна быть тщательно проанализирована. Например, в середине девятнадцатого века в мышлении врачей продолжала господствовать теория миазмов (болезни якобы возникают вследствие дурного воздуха). Эта убежденность нашла свое выражение в кратком афоризме известного социального реформатора сэра Эдвина Чедвика, который говорил: “Всякий запах – это болезнь”. Как мы уже видели на примере малярии, вера в миазмы была всепроникающей и вездесущей и подкреплялась тем наблюдением, что вспышки болезни сопровождаются появлением зловонных испарений. Чедвик был либеральным защитником беднейших слоев населения Лондона и в 1842 году совершенно справедливо назвал санитарно-гигиенические мероприятия важнейшей задачей здравоохранения. Под его руководством Столичный комитет по проведению канализации начал постепенно усовершенствовать лондонскую канализационную систему; при этом было засыпано более 200 тысяч выгребных ям.
Любопытно, что хотя теория миазмов абсолютно неверна, реформы канализации на какое-то время укрепили веру в ее справедливость благодаря значимой – но и вводящей в заблуждение! – корреляции: вспышки холеры прекратились как раз там, где были ликвидированы выгребные ямы. Чем не подтверждение положения о том, что дурной воздух является разносчиком холеры и других заболеваний? Приблизительно в то же самое время та же самая убежденность во вредоносности миазмов привела к возрождению Парижа и усовершенствованию парижской канализации. Вспышки инфекционных заболеваний помогли оправдать усилия Жоржа-Эжена Османа, который перестроил Париж, превратив его из тесного, мрачного и темного города в настоящую европейскую столицу – просторную, с широкими бульварами, роскошными садами и разумной планировкой жилых кварталов, – что и сделало Город света таким, каким мы знаем его сегодня.
Но даже в то время находились люди, которым не нравилась теория миазмов. Одним из таких скептиков был лондонский врач Джон Сноу. К 1854 году модернизация канализационной системы еще не добралась до района Сохо, а быстрый приток новых жителей привел к огромной скученности населения. Выгребные ямы переполнились. 31 августа 1854 года на Броуд-Стрит был зафиксирован первый случай холеры. За три дня умерли 127 человек. Началась паника, и в течение следующей недели Сохо покинули три четверти его обитателей. К середине сентября 1854 года эпидемия убила 500 человек; смертность достигала 12,8 процента.
Хотя практически все тогда полагали главной причиной вспышки дурной воздух, Джон Сноу был с этим не согласен. С помощью преподобного Генри Уайтхеда он приступил к тщательному расследованию причин. Беседуя с переболевшими и проследив перемещения жертв холеры, Сноу смог выявить некоторые закономерности, позволившие установить связь между всеми случаями заболевания; источником заразы оказалась водоразборная колонка на Броуд-Стрит. Джон Сноу посчитал этот факт весьма странным: ведь, несмотря на то, что теория миазмов представлялась ему сомнительной, до открытия Пастером инфекционной теории эпидемических заболеваний оставалось еще семь лет. То есть в медицине девятнадцатого века существовал пробел в понимании механизмов распространения болезней. Тем не менее у Сноу, использовавшего передовые статистические методы и составившего подробную карту распространения болезни, злосчастная колонка вызвала серьезные подозрения.
Конечно же, в этом деле присутствовала скрытая путающая переменная. Оказалось, что не заболели ни местные монахи, ни рабочие местной пивоварни. Продолжая свое расследование, Сноу узнал, что монахи пили только пиво, которое сами и варили, а на пивоварне вся вода была ферментированной. Процесс ферментации (брожения) убивает холерные вибрионы, и это объясняет устойчивость монахов и пивоваров к болезни