Заглянем, к примеру, в ежегодник «World Almanac», где собраны примечательные факты и всевозможная статистика, и найдем там таблицу «Рынок фермерских товаров в США по штатам» за 1999 год. Там есть колонки «Зерновые культуры» и «Продукты животноводства». Данные приведены в долларах. Наверное, вы считаете, что числа, начинающиеся с цифр от 1 до 9, встречаются среди этих данных примерно с одинаковой частотой. То есть числа, запись которых начинается с 1, составят приблизительно одну девятую всех приведенных чисел, как и числа, запись которых начинается с 9. Однако если их подсчитать, то окажется, что цифра 1 на первой позиции появляется в 32 % случаев, а не в 11, как было бы, если бы цифры появлялись с равной частотой. Цифра 2 также появляется чаще, чем ей полагалось бы – в 19 % случаев. А вот цифра 9 встречается лишь в 5 % случаев, реже, чем ожидается. Вы скажете, что подобная картина в одной случайно выбранной таблице – это странно и даже курьезно, но не то чтобы изумляет; однако стоит вам изучить еще несколько страниц ежегодника (вышеуказанные данные взяты из издания за 2001 год), и впечатление изменится. Заглянем, например, в таблицу, где сведены данные о жертвах «Самых крупных землетрясений» – и обнаружим, что числа, начинающиеся с 1, составляют примерно 38 % всех чисел, а начинающиеся с 2–18 %. Если взять совсем другую таблицу – например, с данными о жителях штата Массачусетс, обитающих в городах с населением свыше 5000 человек, – числа, начинающиеся с 1, составят 36 %, а числа, начинающиеся с 2, примерно 16,5 %. С другой стороны, цифра 9 на первой позиции появляется в этих таблицах лишь примерно в 5 % случаев, гораздо меньше, чем ожидаемые 11 %. Как же получается, что таблицы, в которых приведены столь разнообразные и, очевидно, несвязанные данные, обладают общим свойством, что цифра 1 на первом месте появляется в 30 с чем-то процентах случаев, а цифра девять – приблизительно в 18 % случаев? Ситуация еще сильнее запутывается, если изучить более объемные базы данных. Например, преподаватель бухгалтерского дела Марк Нигрини из школы бизнеса имени Кокса при Южном методистском университете в Далласе изучил население 3141 округов по данным переписи населения США за 1990 год. Он обнаружил, что цифра 1 появляется на первом месте приблизительно в 32 % случаев, 2 – примерно в 17 %, 3 – в 14 %, а 9 – менее чем в 5 %. Аналитик Эдуардо Лей из организации «Resources for the Future» («Ресурсы для будущего») в Вашингтоне обнаружил очень похожую статистику в промышленном индексе Доу-Джонса за 1990 и 1993 годы. Но этого мало, есть и еще один поразительный факт. Если исследовать список, скажем, первых двух тысяч чисел Фибоначчи, то обнаружится, что цифра 1 на первом месте появляется в 30 % случаев, цифра 2 – в 17,65 %, 3 – в 12,5 % – и это количество продолжает падать: число 9 на первом месте появляется всего в 4,6 % случаев. То есть числа Фибоначчи чаще всего начинаются с 1, а другие цифры на первом месте теряют популярность в точности по той же закономерности, что и только что описанные случайные выборки чисел!
«Феномен первой цифры» первым отметил астроном и математик Саймон Ньюкомб (1835–1909) в 1881 году. Он обратил внимание, что в логарифмических таблицах в библиотеке, которыми тогда пользовались при вычислениях, страницы, где были напечатаны числа, начинающиеся с 1 и 2, значительно грязнее последующих, а к концу таблицы становятся все чище и чище. Если бы это были скверные романы, которые читатели бросали на середине, это еще можно было бы понять, однако в случае математических таблиц это очевидно показывало, что числа, начинающиеся с 1 и 2, встречаются чаще других. Однако Ньюкомб не просто установил этот факт, а пошел гораздо дальше – он вывел формулу, которая должна была показывать, с какой вероятностью случайное число начинается с конкретной цифры. Эта формула – она дана в Приложении 9 – дает для 1 вероятность в 30 %, для 2 – примерно 17,6 %, для 3 – около 12,5 %, для 4 – около 9,7 %, для 5 – примерно 8 %, для 6 – приблизительно 6,7 %, для 7 – где-то 5,8 %, для 8 – приблизительно 5 % и для 9 – примерно 4,6 %. Статья Ньюкомба, опубликованная в 1881 году в «American Journal of Mathematics», и открытый им «закон» остались совершенно незамеченными, однако миновало целых 57 лет, и физик Фрэнк Бенфорд из «General Electric» заново открыл этот закон – надо полагать, независимо – и проверил его на огромных массивах данных о речных бассейнах, бейсбольной статистике и даже числах, которые мелькают в статьях в «Reader’s Digest». Все эти данные поразительно точно соответствовали выведенной формуле, и теперь она известна как закон Бенфорда.
Однако закону Бенфорда подчиняются не все списки чисел. Например, телефонные номера обычно начинаются с определенного кода, соответствующего региону. Даже таблицы квадратных корней не подчиняются этому закону. С другой стороны, не исключено, что если собрать все числа, появившиеся в передовицах нескольких местных газет в вашем городе за неделю, они будут распределяться по этой формуле. Но почему же так получается? Что общего у городского населения в штате Массачусетс со смертностью от землетрясений во всем мире и с числами из статей в «Reader’s Digest»? И почему этому же правилу подчиняются числа Фибоначчи?
Строго доказать закон Бенфорда математическими методами оказалось совсем не просто. Одним из главных препятствий стал именно тот факт, что подчиняются этому закону не все перечни чисел – и даже приведенные примеры из ежегодника «World Almanac» не вполне ему соответствуют. В статье об этом законе в журнале «Scientific American», опубликованной в 1969 году, математик Ральф А. Райми из Рочестерского университета сделал вывод, что «ответ остается неясным».
Объяснить этот закон удалось лишь в 1995–1996 годах, и сделал это математик из Технологического института в Джорджии Тед Хилл. Хилл заинтересовался законом Бенфорда в начале девяностых, когда готовил доклад о сюрпризах вероятности. Вот как он вспоминал об этом в беседе со мной: «Я начал работать над этой задачей для развлечения, однако многие коллеги предупреждали меня, что надо быть осторожным, поскольку закон Бенфорда вызывает наркотическое привыкание». После нескольких лет работы Теда наконец осенило, что не нужно рассматривать числа из одного конкретного источника: главное – это смесь данных. Хилл переформулировал закон Бенфорда статистически в новой форме: «Если распределения подбираются случайно (любым непредвзятым способом) и из каждого распределения выбираются случайные образцы, то частота встречаемости цифр на значимом месте в смеси образцов сходится к распределению Бенфорда, даже если некоторые отдельные выбранные распределения не подчиняются этому закону». Иными словами, предположим, что вы собрали случайный набор чисел из мешанины распределений – например, из таблицы квадратных корней, таблицы смертности в сенсационных авиакатастрофах, населения округов и расстояний между теми или иными городами на планете по воздуху. Некоторые эти распределения сами по себе не будут подчиняться закону Бенфорда, но Хилл доказал, что чем больше вы соберете подобных чисел, тем ближе встречаемость цифр в этих числах будет к предсказанной законом Бенфорда. Так почему же этому закону подчиняются и числа Фибоначчи? Ведь они-то строго определены рекурсивным соотношением, это не случайные образцы из случайных распределений.
Так вот, в этом случае выясняется, что соответствие закону Бенфорда свойственно не только числам Фибоначчи, но и другим подобным последовательностям. Если исследовать большой массив различных степеней двойки (21 = 2, 22 = 4, 23 = 8 и т. д.), станет видно, что они тоже подчиняются закону Бенфорда. Удивляться этому не следует, если учесть, что сами по себе числа Фибоначчи – это степени золотого сечения (вспомним, что n-ное число Фибоначчи близко к φn/√5). В сущности, можно доказать, что закону Бенфорда подчиняются последовательности, заданные большим классом рекурсивных соотношений.
Закон Бенфорда – очередной поразительный пример того, как чистая математика превращается в прикладную. В числе прочих занятных способов применения этого закона – выявление подделки и фабрикации данных в бухгалтерии и при уклонении от налогов. Данные из самых разных финансовых документов всегда очень хорошо соответствуют закону Бенфорда. А сфабрикованные данные – очень редко. Хилл доказал, как работает этот метод выявления мошенничества, на одном простом примере при помощи теории вероятности. На первом занятии своего курса по теории вероятностей Хилл просит студентов провести эксперимент. Если девичья фамилия их матери начинается с букв от А до L, они должны подбросить монетку 200 раз и записать результат – сколько было орлов и сколько решек. Остальным студентам предлагается подделать результат 200 бросков монетки, то есть создать случайную последовательность орлов и решек. На следующем занятии Хилл собирает результаты и очень быстро определяет, где результат подлинный, а где поддельный, и в 95 % случаев не ошибается. Как ему это удается? В любой последовательности из 200 бросков монетки, если ее действительно бросали, с большой вероятностью попадается по шесть орлов или шесть решек подряд. А когда кто-то пытается подделать последовательность из 200 бросков монетки, им кажется, что такого уж точно не может быть.
Недавно закон Бенфорда применили для выявления финансовых махинаций в одном американском туристическом бюро. Директор по аудиту обнаружил что-то странное в отчете начальника отдела медицинского страхования компании. Первые две цифры в суммах выплат на медицинскую страховку, когда эти данные проверили на соответствие закону Бенфорда, почему-то тяготели к 65 (более подробно о том, как закон предсказывает и вторую и далее цифры, см. в Приложении 9). Тщательный аудит выявил тринадцать поддельных чеков на суммы от 6500 до 6599 долларов. В управлении окружного прокурора в нью-йоркском районе Бруклин при помощи проверок на основе закона Бенфорда также выявили бухгалтерские подделки в семи нью-йоркских фирмах.