Красота в квадрате. Как цифры отражают жизнь и жизнь отражает цифры — Алекс Беллос

[41]. Они напечатали ее на гуммированной бумаге, вырезали отдельные слова и наклеили их на тысячах отдельных листков. Затем упорядочили эти слова по убыванию частоты их встречаемости в тексте. Полученные данные представляли интерес не только для студентов, изучающих лингвистику, но и для психологов, работающих с лексическими ассоциациями, а также для таких нестандартно мыслящих ученых, как профессор Гарвардского университета Джордж Кингсли Ципф, который выявил потрясающую закономерность[42].

Слово/Ранг (порядковый номер)/Частота

I («я»)/10/2653

Say («сказать»)/100/265

Bag («сумка»)/1000/26

Orangefiery («оранжево-пламенный»)/10 000/2

Оказалось, что десятое по частоте употребления слово встречается в тексте почти в десять раз чаще, чем сотое, почти в сто раз чаще, чем тысячное, и почти в тысячу раз чаще, чем десятитысячное. Джеймс Джойс не выбирал слова с такой арифметической точностью специально; тем не менее закономерность, которой подчиняется их встречаемость в его книге, очевидна.

Если говорить языком математики, частота встречаемости слов в романе «Улисс» приближенно подчиняется следующему закону:

частота × ранг = 26 500

Эту формулу можно привести к такому виду:

В общем виде данное уравнение выглядит так:

Следовательно, частотность употребления того или иного слова обратно пропорциональна его рангу (порядковому номеру) в списке, упорядоченном по убыванию частоты. Другими словами, если ранг слова в n раз больше, то частота его использования в n раз меньше.

Изучив другие тексты, Ципф пришел к выводу, что во всех книгах на всех языках частота встречаемости слов и их порядковый номер в частотном списке находятся в обратной зависимости, но с небольшим уточнением:

Это уравнение известно как закон Ципфа. (Когда два числа записаны в форме x^y, мы говорим «x в степени y», и это значит, что число x умножается само на себя y раз. Как мы знаем со школьных лет, 4² = 4 × 4, а 2³ = 2 × 2 × 2. Однако число y может быть не только целым числом. Следовательно, 2^1,5 означает, что число 2 умножается само на себя 1,5 раза, а это равно 2,83. Чем ближе значение числа y к 1, тем ближе x^y к числу x.)

Ципф обнаружил, что значение константы a всегда стремится к 1 независимо от того, кто автор книги и каково ее содержание. То есть зависимость между частотой встречаемости слов и их рангом всегда очень близка к обратно пропорциональной зависимости. В случае романа «Улисс» значение a равно 1.

Я считаю закон Ципфа чрезвычайно увлекательным. Он раскрывает заманчиво простую математическую закономерность, определяющую выбор слов. Я решил выяснить, соблюдается ли этот закон в книге, которую вы сейчас читаете. Для подсчета частотности слов я воспользовался компьютерной программой, а не гуммированной бумагой и ножницами. Просматривая частотную таблицу, я увидел, что частота встречаемости слов действительно обратно пропорциональна их порядковому номеру в таблице. Самое распространенное слово, употребляемое мною в книге («the»), встречается в десять раз чаще, чем десятое по частоте слово «was», примерно в сто раз чаще, чем сотое по частоте слово «who», и в тысячу раз чаще, чем тысячное слово «spirals».

Когда я составил на основе данных о частоте и ранге слов график (первый график, представленный ниже), оказалось, что соответствующие точки лежат близко к координатным осям. График, отображающий обратно пропорциональную зависимость, всегда представляет собой L-образную кривую. Сначала кривая резко снижается, а затем быстро выравнивается и переходит в своего рода «длинный хвост». Это говорит о том, что одни слова встречаются в тексте в огромном количестве, а другие почти не используются. (На самом деле во всех текстах, независимо от их объема, около 50 процентов слов употребляются только один раз. В данной книге таких слов 51 процент[43].)

Распределение частотности слов в книге «Алекс в Зазеркалье»

На нижнем графике отображены те же данные, но изменен масштаб. Расстояние от 1 до 10, от 10 до 100 и от 100 до 1000 теперь одинаковое на обеих осях, другими словами, мы имеем двойной логарифмический масштаб. График, напоминающий провисший кабель, как по волшебству превратился в туго натянутую струну. Появился некий математический порядок: точки графика образуют почти идеальную прямую.

Прямая линия на графике, построенном в двойном логарифмическом масштабе, — доказательство того, что эти данные подчиняются закону Ципфа (в Приложении 2 я объясню почему). С математической точки зрения прямая линия более полезна, чем кривая с длинным хвостом, поскольку ее свойства легче анализировать. В частности, у прямой есть постоянный градиент. Мы вернемся к понятию градиента немного позже, а пока вам нужно знать только то, что градиент — это степень наклона: отношение расстояния, покрытого прямой по вертикали, к расстоянию по горизонтали. Если нарисовать линию наилучшего соответствия и определить ее градиент, он и будет представлять собой константу a в уравнении закона Ципфа. Я рассчитал градиент линии на расположенном выше графике. Он чуть больше единицы, а это значит, что по сравнению с Джеймсом Джойсом я чаще использую самые распространенные слова и реже — наименее распространенные.

При более близком рассмотрении не все точки на графике попадают на прямую линию. Некоторые отклоняются от нее, особенно примерно двадцать слов, встречающихся в тексте чаще всего. Однако в большинстве случаев точки находятся очень близко к этой линии. Поразительно то, что порядковый номер подавляющего количества слов в этой книге позволяет достаточно точно определить частоту их использования, и наоборот.

Профессор Ципф обнаружил такую же обратно пропорциональную зависимость еще в одной книге — книге переписи населения США 1940 года. Однако в этот раз он подсчитывал не частотность слов, а численность населения крупных американских городов.

Муниципальный район/Ранг/Население

Нью-Йорк / северо-восток Нью-Джерси/1/12 миллионов

Кливленд/10/1,2 миллиона

Гамильтон/Мидлтаун/100/0,11 миллиона

В это трудно поверить, но и здесь прослеживается та же закономерность. В Нью-Йорке (самом крупном городе США) численность населения в десять раз больше, чем в Кливленде (десятом по величине городе), и в сто раз больше, чем в Гамильтоне (сотом по величине городе). Никто не предлагал американцам расселяться с такой точностью. Тем не менее их выбор подчинялся строгой закономерности. Это происходит и сейчас. На самом деле все мы поступаем именно так. На представленных ниже графиках в двойном логарифмическом масштабе отображены данные о численности населения американских городов и их ранге (порядковом номере), взятые из отчетов о переписи населения США 2000 года, а также данные о численности населения крупнейших городов мира.

Распределение численности населения крупнейших городов США в 2000 году (график сверху) и крупнейших городов мира в 2013 году (график снизу)

Все точки стремятся к прямой линии, как послушные муравьи. Это означает, что здесь, как и прежде, применимо все то же общее уравнение:

На этот раз Ципф тоже пришел к выводу, что для городов и стран значение константы a почти или равно 1. В случае американских городов это значение составляет 0,947, для крупнейших городов мира — 1,156, а в случае переписи населения США 1940 года равно 1.

Безусловно, имеются и отклонения, особенно в наиболее крупных странах и городах. Например, в действительности в Индии (второй самой густонаселенной стране мира) жителей больше, чем можно было бы ожидать, опираясь на закон Ципфа. Однако волатильность (изменчивость значений) в начале упорядоченного списка неизбежна, поскольку там намного меньше данных. Можно предположить, что города и страны обходят друг друга в рейтинге по мере изменения численности населения под влиянием экономических, социальных и экологических факторов. Когда подобные изменения происходят в странах, занимающих самые высокие места в списке, отклонение от прямой линии становится гораздо заметнее. Тем не менее такой разброс данных в верхней части графика не должен приуменьшать важности точного расположения точек далее вниз по линии. Из этого следует, что частота встречаемости слов, а также численность населения городов и стран подчиняются универсальному закону.

Для Ципфа обнаружение одной и той же элементарной математической закономерности в разных контекстах было равносильно духовному пробуждению. «В явлениях повседневной жизни мы находим единство, упорядоченность и равновесие, внушающие нам веру в высшую разумность всего сущего, целостность которого пребывает за пределами наших полномочий и понимания», — писал Ципф. Он предложил принцип наименьших усилий в качестве теоретической базы для своих эмпирических наблюдений. Мы часто используем ограниченное количество слов, потому что нашему мозгу так легче; мы живем в больших городах, потому что нам так удобнее. Однако Ципф так и не смог предоставить убедительное математическое обоснование закона, как, впрочем, и никто сто лет спустя. Многие пытались это сделать, и хотя некоторые даже добились определенных успехов в данном направлении, причина, почему закон действует, по-прежнему остается загадкой. Математические модели часто подвергают критике за то, что они слишком упрощают сложные закономерности. В случае закона Ципфа верно обратное утверждение: математические модели невероятно сложны, а закономерность настолько проста, что ее может понять даже ребенок.

В начале ХХ века итальянский экономист Вильфредо Парето заявил, что распределение богатства среди населения подчиняется следующему закону:

Очевидно, что с математической точки зрения закон Парето эквивалентен закону Ципфа. Если составить список всех граждан страны в порядке уменьшения их богатства, график распределения последнего будет выглядеть точно так же, как представленный выше график частоты использования слов в этой книге. В целом самый богатый человек страны существенно богаче второго наиболее состоятельного человека, а тот, в свою очередь, намного богаче (хотя и чуть меньше, чем в предыдущем случае) третьего наиболее состоятельного человека, который гораздо богаче (хотя и чуть меньше, чем в предыдущем случае) четвертого наиболее состоятельного человека и т. д. В общем, к категории богачей относится крохотное меньшинство населения, тогда как его подавляющее большинство живет в бедности. Парето вывел этот закон на основании данных из многих стран и череды столетий. И он по-прежнему актуален.

Предыдущая Стр. 10 из 58 Следующая

Оглавление