у нас ушло больше века, чтобы наконец воспользоваться его мудростью.
Статистической инновацией, связанной с семплированием, также объясняется успех Guinness – одного из наиболее преуспевающих мировых брендов XX века. И здесь вышло особенно удачно: в стремлении улучшить свой стаут пивоварня Guinness подарила нам один из самых широко используемых статистических инструментов.
Когда в 1899 году Уильям Сили Госсет пришел работать на завод Guinness, он стал одним из шести человек в только что основанном в компании отделе научного пивоварения[197]. Его коллегами были химики, с отличием окончившие либо Оксфорд, либо Кембридж, и относились к ним как к настоящим звездам. Их поселили в доме Guinness. Сотрудникам ниже рангом говорили, что если им повезет встретить в коридоре одного из пивоваров, то следует опустить глаза и не поднимать их, пока он не пройдет мимо.
Предприятие недавно расширилось, и руководители Guinness были твердо настроены сделать науку фундаментом своего бизнеса. В 1886 году компания весьма успешно вышла на Лондонскую биржу. К тому времени, как Госсет пришел туда работать, Guinness стала крупнейшей пивоварней в мире, а это значило, что ей в огромном количестве требовались хмель и ячмень неизменно высокого качества. Новые пивовары стали собирать нужные данные, но анализировать их было сложно. Несмотря на статус и образование, пивоварам плохо давалась математика, а статистику они не знали вовсе. Поскольку в математике Госсет был лучшим среди худших, именно ему пришлось разбираться в вопросе. Он прочел пару учебников и уже к 1903 году научился на основе стандартного отклонения и размера выборки определять так называемую стандартную ошибку. Он даже предложил самостоятельно разработанный критерий корреляции. В отчете для пивоварни Госсет описал свой новый “урожай” статистических инструментов и пояснил, каким образом они могут улучшить производство. Он также упомянул, что никто на пивоварне – включая ученых пивоваров – прежде ничего из этого не знал из-за “распространенного страха перед математикой”. Видите? Не только вы ее боитесь.
Летом 1905 года компания Guinness отправила своего нового эксперта по статистике в Англию на консультацию к последователю Гальтона Карлу Пирсону, которого в то время считали ведущим мировым статистиком. Госсет объяснил, что хочет научиться сравнивать небольшие количества разных вещей: так, экспериментируя с ячменем, в Guinness рассматривали лишь четыре его сорта. Точно вывести стандартное отклонение для выборки из четырех единиц чрезвычайно сложно, и Госсет надеялся, что Пирсон хотя бы подскажет ему, как в таком случае оценивать ошибку и принимать нужные субъективные решения, например определять, какой уровень вероятности стоит считать значимым. Но в то время еще ни у кого, включая Пирсона, не было статистических инструментов для работы с такими малыми выборками. Постаравшись не обидеть Госсета, Пирсон обучил его всем известным ему статистическим приемам. По словам Госсета, они управились за полчаса.
Как ни странно, этого оказалось достаточно, чтобы по возвращении на Guinness Госсет внедрил кое-какие методы анализа данных. И его инновация была признана успешной, поскольку через год пивоварня снова отправила Госсета работать с Пирсоном и Госсет поступил в Лондонский университетский колледж. К 1907 году, сделав, как он выразился, несколько “удачных предположений”, Госсет получил ответ на свои вопросы об ошибках в малых выборках. Исследовались не данные о ячмене, а рост и длины средних пальцев левой руки преступников из местной тюрьмы, а сведения предоставлял Скотленд-Ярд, что стало возможно, как мы вскоре увидим, поскольку Фрэнсис Гальтон вызвался найти (и искоренить) преступное естество английского общества.
Когда проблема оказалась решена, Госсет снова вернулся в Дублин и применил новые статистические законы. Благодаря им стало очевидно, что лучше всего для Guinness подходит сорт “Лучник”, и пивоварня быстро скупила все семена этого сорта, которые были на рынке: 1000 бочек. Через год после посева у Guinness оказалось 10 тысяч бочек семян, которые можно было распределять между фермерами, а больше их нигде не было. Guinness захватила контроль над самым важным сырьем для своего пива.
Как только вопрос с ячменем был улажен, Госсету разрешили опубликовать свое открытие. Ему не позволили подписать статью своим именем, чтобы конкуренты Guinness не раскрыли секрет пивоварни, и предложили на выбор два псевдонима: Пьюпил (“ученик”) и Стьюдент (“студент”). Так и появился t-критерий Стьюдента.
Этот t-критерий позволяет нам понять, как взаимосвязаны размер выборки и степень неопределенности, которую он вносит в расчеты. Зная это, мы можем оценивать достоверность своих результатов. Инновация Госсета прекрасно работала в Guinness, но правда в том, что никто не обращал на нее внимания, пока Рональд Фишер – человек, который решил, что считается статистически значимым, – не доказал ее математически и не расширил диапазон ее применения. Теперь мы используем t-критерий всякий раз, когда хотим сравнить разные выборки. В медицинских исследованиях мы применяем его, чтобы оценивать действенность антиретровирусной терапии при лечении ВИЧ. В исследованиях бизнеса он позволяет нам изучать, какой эффект оказывают различные вмешательства – например, совершенствование протоколов обслуживания клиентов. И он по-прежнему применяется в той сфере, с которой все и началось, – в сельскохозяйственных исследованиях, где он показывает нам эффективность удобрений, относительную ценность разных сортов выращиваемых культур и безопасность таких переработанных продуктов, как молоко и сыр.
Несмотря на все новаторские предложения Фишера, в последние несколько десятилетий миром правит другая выборочная статистика, которая значительно повысила качество нашей жизни и дала нам такие известные аббревиатуры, как JPEG, MPEG, MP3 и HDTV. Давайте рассмотрим математику сжатия данных.
В 2019 году население США получило более 1 триллиона аудио- и видеофайлов в формате потокового вещания с серверов, раскиданных по всему миру. Учитывая пропускную способность каналов передачи данных, формирующих интернет, это было бы невозможно, если бы передаваемые файлы не были “сжатыми”, то есть содержащими гораздо меньший объем данных, чем оригинал. А сжатие не выполнить без выборочной статистики.
Записывая музыкальную композицию, мы хотим, чтобы запись содержала всю информацию, которая необходима для воспроизведения того, что мы слышали в оригинале. Эта информация может быть записана на дорожки виниловой пластинки, в микроскопические углубления на пластике компакт-диска или закодирована нулями и единицами в цифровом файле, но она так или иначе сообщает проигрывающему музыку устройству, звуки какой частоты воспроизводить в конкретный момент и как согласовывать их уровень громкости. Даже для трехминутной поп-песни это огромный объем данных. Но оказывается, что без значительной их части можно обойтись.
В начале XIX века французский математик Жозеф Фурье показал, что непрерывный сигнал любой сложности можно воспроизвести как сумму синусоидальных колебаний различной частоты и амплитуды. Для идеального воспроизведения понадобится бесконечный набор таких колебаний, но Фурье продемонстрировал, что достаточно и конечного их числа. Результат, в котором задействуются (относительно) простая формула и комплексные числа, называется преобразованием Фурье.
Нововведение Фурье предоставило ученым совершенно новый инструмент. Чтобы представить сигнал, меняющийся со временем, теперь можно было просто пройтись по частотам его компонентов. Переход в так называемый диапазон частот позволил ученым по-новому анализировать и обрабатывать меняющиеся со временем сигналы. Эта техника заняла главенствующее положение в целом ряде областей науки, включая термодинамику, геологию и – гораздо позже – квантовую механику.
Когда мир приступил к работе с цифровой информацией, появился немного другой инструмент. Преобразование Фурье в применении к дискретным нулям и единицам, а не к непрерывной аналоговой волне, стало “дискретным преобразованием Фурье”. Эта идея легла в основу формата JPEG, предложенного Объединенной группой экспертов по фотографии (Joint Photographic Experts Group), которая в 1992 году одобрила официальный стандарт сжатия файлов цифровых изображений. Впрочем, как в 1965 году показал Джон Тьюки, дискретным преобразованием Фурье дело не ограничилось.
Тьюки родился в 1915 году и быстро проявил способности к математике[198]. Рано заметив его талант, родители в 1920-х годах обеспечили ему обучение на дому. Уже к 35 годам он стал полным профессором в Принстоне, а в 1965 году основал в университете кафедру статистики. В тот же год появилось быстрое преобразование Фурье (БПФ) – Тьюки, входивший в Научно-консультационный совет при президенте Кеннеди, предложил этот алгоритм, поняв, что нужно быстро обрабатывать сейсмологические сигналы, которые могут сообщить о советских ядерных испытаниях.
К тому времени Тьюки, которого сравнивали с “огромным медведем”, уже ввел в употребление понятие “бит”, которым обозначил бинарную единицу теории информации (о которой мы поговорим в следующей главе). Это было в 1947 году. В 1958 году он изобрел понятие “программное обеспечение”. Пожалуй, “быстрое преобразование Фурье” было все же менее запоминающимся. Но в ходе цифровой революции эта техника оказалась ничуть не менее важной.
БПФ, по сути, представляет собой ускоренный способ осуществлять дискретное преобразование Фурье для сжатия цифровых данных. Формат JPEG не нуждался в скорости БПФ. Но формату MPEG, одобренному Экспертной группой по движущимся изображениям (