шутки, статистически у человека в среднем чуть меньше одного яичка.
Несмотря на свои шокирующие представления о социуме, к работе с числами Гальтон подходил с огромной тщательностью. В статью о мудрости толпы в журнале Nature он включил оценку “вероятной ошибки” в каждой величине. Он также предоставил нам множество статистических инструментов, которые мы доработали и используем по сей день. Так, он первым начал изучать корреляции, с помощью которых на основе изменений переменных определяется, есть ли между ними связь[181]. Вводя эту идею, Гальтон отмечает, что можно измерить множество рук и ног и решить, коррелируют ли между собой их длины. Теперь мы применяем ее, чтобы, например, искать корреляции между оценкой уровня загрязнения и количеством госпитализаций из-за проблем с дыханием.
Кроме того, Гальтон провел подготовительную работу по отделению друг от друга эффектов воздействия разных причин, что подтолкнуло его давнего соратника Карла Пирсона к созданию сложных математических моделей для отслеживания соответствующего воздействия, а затем – к изобретению критерия согласия хи-квадрат. Теперь мы используем этот критерий при анализе данных медицинских исследований, например при определении оптимального возраста для вакцинации детей. О “регрессии к среднему”, то есть тенденции серии измерений возвращаться к средним значениям после захода на территорию “статистических выбросов”, первым тоже заговорил Гальтон. Сначала он назвал это “возвращением к посредственности”, но сути это не меняет. Именно такое статистическое наблюдение говорит мне, что скоро мне станет лучше. Я знаю точно, потому что сходил к врачу: я хожу к нему только в крайнем случае, а когда вы достигли крайности, существенно возрастает вероятность, что дальше вас ждет движение в обратном направлении. Иными словами, регрессия к среднему сообщает мне, что худшая фаза болезни наступает тогда, когда намечается перелом к лучшему.
Гальтон также изобрел опросник, ставший краеугольным камнем медицинских, психологических и социологических исследований. Он применил его в другом своем творении – близнецовых исследованиях, в которых биологические различия сведены к минимуму, что позволяет ученым оценивать влияние воспитания, (почти) не обращая внимания на вопросы природы. Это, сказал Гальтон, дает “возможность справедливо оценить влияние природы и воспитания и понять, в какой степени каждый из этих факторов определяет характер и интеллектуальные способности человека”[182]. Он разослал родителям сотен близнецов опросники с вопросами о сходствах и различиях детей, а также о том, какое влияние на них оказывают жизненные обстоятельства.
Однако Гальтон не понимал, что не все ставят числа превыше всего. Порой необходимо, чтобы люди реагировали на данные эмоционально, а не рационально. Поскольку нашему мозгу сложно работать с числами, данные нужно представлять в таком виде, чтобы они взывали к первичным инстинктам. Изображение кричащего человека может привести к всплеску адреналина, а визуализация данных позволяет нам обойти ограничения нашего мозга и убедиться в истине, постичь которую нелегко. Например, если я попрошу вас подумать о том, какое влияние на природу оказывают 4 триллиона пластиковых бутылок, купленных нами за последние десять лет, мой рассказ о неминуемой экологической катастрофе произведет на вас гораздо меньшее впечатление, чем если я покажу вам гору пластиковых бутылок 2,4 километра высотой, которая вот-вот поглотит весь Манхэттен[183]. И лучше всего этой стратегией воспользовалась Леди с лампой.
Флоренс Найтингейл известна тем, что во время Крымской войны она ночами заботилась о раненых в британском военном госпитале в турецком городе Скутари. Она прославилась, когда в заметке в лондонской газете Times от 8 февраля 1855 года ее сравнили с ангелом-хранителем и написали: “Ее стройный силуэт тихо скользит по коридорам, и лица страдальцев светлеют от благодарности при виде нее. Когда военные врачи уходят отдыхать и длинные ряды лежащих ничком больных погружаются в тишину и темноту, она остается одна и делает обходы с маленькой лампой в руке”[184].
Неудивительно, что солдаты выделяли ее: она была единственной женщиной, которой разрешалось заходить в палаты после восьми вечера. В стремлении защитить честь своих сестер милосердия Найтингейл ночью держала их под замком – и спала с ключом под подушкой.
Эти меры казались ей необходимыми. Ее ужасало происходящее в госпитале: в письме своему другу Генри Бонем Картеру она рассказала о сержанте, который открывал своим ключом воинский склад и проводил там ночи с женщиной из госпиталя. “Последствия вскоре стали очевидны”, – с издевкой написала Найтингейл о беременности женщины. Она обратилась к коменданту лагеря, чтобы он наказал сержанта, но его ответ ее возмутил. “Я не добилась никакого взыскания и никакого наказания для этого человека”, – сообщила она[185]. Найтингейл была поборницей дисциплины и нравственности, но еще яростнее она боролась за цифры. Она понимала, что их правильный анализ может спасать жизни.
Найтингейл с детства занималась математикой. Проходя подготовку во Франции и Германии, она собирала больничные выписки, статистические данные и информацию об организации санитарного контроля и ухода за пациентами в госпиталях. Работая в Скутари, она провела учет смертности больных и сравнила данные с показателями смертности в других местах. Оказалось, что в Скутари умирало 37,5 % пациентов, но в госпиталях на линии фронта уровень смертности составлял всего 12,5 %. Вооружившись числами, Найтингейл решила выяснить, почему так происходит, и принять меры. Как? С помощью действенной инфографики.
Круговая диаграмма Флоренс Найтингейл. Wellcome Collection, Attribution 4.0 International (CC BY 4.0)
По круговой диаграмме Найтингейл сразу видно, что от болезней на Крымской войне умирало больше солдат, чем от ран. Площадь каждого сектора соответствует месячному уровню смертности, а причины смерти отмечены разными цветами. Найтингейл показала диаграмму военному министру, а затем включила ее в свою книгу “Заметки о факторах, влияющих на здоровье, эффективность и управление госпиталями британской армии”, вышедшую в 1858 году. Экземпляр этой книги она отправила королеве Виктории, которая велела, чтобы Найтингейл явилась к ней на аудиенцию и лично представила свои выводы. В результате она добилась основания Королевской комиссии по проблемам здоровья в армии, что привело к реформам в военной медицине. И ключевую роль в этом, по словам Найтингейл, сыграла диаграмма: “Диаграммы весьма полезны для иллюстрации некоторых аспектов демографической статистики, поскольку они в визуальной форме передают идеи, ухватить которые сложнее, когда у нас перед глазами одни числа”.
Флоренс Найтингейл была не просто сестрой милосердия и не просто статистиком – она была и очень умелым лоббистом. Обретя славу после заметки в Times, она стала пользоваться своим положением. У славы была и обратная сторона – в августе 1856 года Найтингейл пришлось тайком вернуться в Британию под чужим именем, чтобы избежать толп, – и все же слава помогла ей собрать более 40 тысяч фунтов в Фонд Найтингейл, и этого хватило на основание Найтингельской школы подготовки сестер милосердия при больнице Святого Фомы в Лондоне. В довершение всего в 1859 году Найтингейл стала первой женщиной – членом Королевского статистического общества. И приняли ее туда вовсе не из-за славы: так там отметили ее выдающиеся заслуги в сфере, которой она посвятила не один десяток лет.
К тому времени, когда Флоренс Найтингейл впервые применила свои диаграммы, статистики уже разработали немало инструментов для анализа данных. Первым был метод построения простейшей кривой, лучше всего описывающей основную тенденцию в наборе разрозненных данных. Этот “метод наименьших квадратов” позволил проводить кривую как можно ближе к каждому из элементов данных, сохраняя при этом плавность.
Математики спорят о том, кто предложил метод наименьших квадратов. Француз Адриен Мари Лежандр опубликовал свою версию в 1805 году, но немец Карл Фридрих Гаусс подробнее описал его в 1809-м (через год после того, как Роберт Эдрейн, школьный учитель из США, опубликовал свой не менее удачный вариант этого метода). Лежандр, Гаусс и Эдрейн вывели формулу, работающую с “отклонениями”, то есть вертикальными расстояниями до кривой от каждого элемента данных. Поскольку точки данных имеются по обе стороны от кривой, одни отклонения положительны, а другие отрицательны, и поэтому сначала нужно возвести их в квадрат, чтобы избавиться от минусов. Кривая наименьших квадратов – это кривая с наименьшей суммой квадратов отклонений.
Гораздо интереснее “нормальное распределение” Гаусса, которое относится к 1809 году. “Распределение” – это разброс данных. Оно бывает разным, и нормальное – или гауссово – распределение формируется в том случае, когда идентичны три определенных характеристики данных. Это среднее значение, мода и медиана. С двумя из них мы встречались, когда изучали работу Фрэнсиса Гальтона, и вместе с модой они дают нам три разных способа вычисления того, что непосвященные называют “средним”.
Представим набор данных, в котором, например, записан рост всех людей, живущих на вашей улице. Чтобы вычислить среднее значение в этом наборе, нужно сложить все величины, а затем поделить их сумму на количество слагаемых. Мода – это рост, который имеет наибольшее число людей. Медиану вы получите, если выстроите всех людей по росту от самого низкого к самому высокому и возьмете рост человека, оказавшегося ровно посередине. В нормальном распределении среднее значение, мода и медиана равны. Такое распределение обладает и другими любопытными свойствами, и вскоре мы поговорим о них подробнее.