Форма реальности. Скрытая геометрия стратегии, информации, общества, биологии и всего остального — страница 18 из 82

, ведущего весьма стесненный образ жизни: он может летать всего в два места, назовем их Болото 0 и Болото 1. Где бы ни находился комар, он предпочитает оставаться, если может напиться достаточно крови. Предположим, что в любой день, когда комар находится в Болоте 0, он с вероятностью 90 % останется в нем же и на следующий день и с вероятностью 10 % перелетит в Болото 1, чтобы узнать, не лучше ли там ситуация с питанием. Болото 1 представляет собой несколько менее перспективные охотничьи угодья, так что здесь комар остается с вероятностью 80 % и перелетит в Болото 0 с вероятностью 20 %. Мы можем изобразить эту ситуацию на диаграмме.



Мы внимательно следим за перемещением комара, отмечая, где он проводит каждый день. Вероятнее всего, у вас будут длинные последовательности нулей (Болото 0) и единиц (Болото 1), потому что перелетать из болота в болото менее вероятно, чем в нем оставаться. Цепочка может выглядеть примерно так:

0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0…

Марков доказал следующий факт: если долго наблюдать за комаром, то средняя доля времени, которую он провел в Болоте 1, будет стремиться к фиксированной вероятности – так же, как сходилась к 50 % доля орлов при подбрасывании монеты. Вы можете подумать, что комар, летая наугад, окажется в каждом болоте с равными шансами. Нет! Та асимметрия, которую мы заложили в условия, сохранится. В нашем случае среднее будет сходиться к числу 2/3. То есть комар 2/3 жизни проведет в Болоте 0 и только 1/3 – в Болоте 1.

Я не утверждаю, что это очевидно, но постараюсь вас убедить, что это хотя бы разумно. В любой день в Болоте 0 шансы комара улететь из него составляют 1/10, поэтому вы можете ожидать, что типичное время пребывания комара в Болоте 0 равно 10 дням. По тем же причинам типичное время пребывания комара в Болоте 1 равно 5 дням. Следовательно, в целом комар должен проводить в Болоте 0 вдвое больше времени, чем в Болоте 1, что и было сказано выше.

Однако – и это было смертельным ударом для Павла Алексеевича – величины в этой последовательности не независимы. Ничего подобного! Нынешнее и завтрашнее местоположение комара очень сильно зависимы и в подавляющем большинстве случаев будут совпадать. Но тем не менее закон больших чисел применим. Независимость не нужна. О математическом доказательстве свободы воли можно забыть.

Последовательность таких случайных величин называется цепью Маркова в случае, если каждая следующая величина зависит только от одной предыдущей, но не от тех, что были в цепи ранее. Если вы хотите знать, где будет завтра комар, неважно, где он был вчера или позавчера, – важно только то, где он находится сегодня[160]. Каждая случайная величина связана со следующей, как звенья цепи. Даже если сеть болот и путей между ними будет более сложной (но останется при этом конечной[161]), доля времени, которую комар проведет на каждом из болот, будет стремиться к некоторому фиксированному числу, как и в случае монет или игральных костей. Если раньше у нас был только закон больших чисел, то теперь появился закон долгих блужданий.

В первом десятилетии XX века не существовало мирового научного сообщества в современном виде, и математические работы пересекали границы с большим трудом. Эйнштейн не знал о работе Башелье со случайными блужданиями. Марков не знал об Эйнштейне. Никто из них не знал о Рональде Россе. И тем не менее все они пришли к одним и тем же заключениям. Невозможно избавиться от ощущения, что в начале 1900-х годов нечто витало в воздухе – какое-то болезненное осознание неизбежной пузырящейся случайности, лежащей в основе вещей. (Не говоря уже о развитии квантовой механики, которая в итоге вплетет вероятность в физику совершенно другим путем.) Говорить о геометрии пространства (вне зависимости от того, является ли оно сосудом с жидкостью, пространством рыночных состояний или кишащим комарами болотом) – значит говорить о том, как что-то в нем движется, и, похоже, во всем мире геометрии не найдется области, где случайное блуждание не оказалось бы иллюстративным инструментом. Позже мы увидим, что цепи Маркова играют крайне важную роль при изучении способов разделения штатов на избирательные округа, а прямо сейчас посмотрим, как они применяются к чисто абстрактному пространству самого английского языка.

PONDENOME OF DEMONSTURES OF THE REPTAGIN

Оригинальная работа Маркова была чисто абстрактным упражнением по теории вероятностей. Есть ли у нее практические применения? В одном из писем Марков писал, что его заботят только вопросы чистой науки, а вопрос применимости теории вероятностей ему безразличен. Согласно Маркову, выдающийся статистик и специалист по биометрике Карл Пирсон не сделал ничего заслуживающего упоминания. Узнав через несколько лет о предыдущей работе Башелье о случайных блужданиях на бирже, он заметил, что, конечно же, видел ее[162], но она ему сильно не понравилась, и что он не берется судить о ее значимости для статистики, но для математики, на его взгляд, она совершенно бесполезна.

Однако в итоге Марков таки сдался и применил свою теорию к области, которая объединяет в России и атеистов, и православных, – поэзии Александра Сергеевича Пушкина. Смысл и искусство пушкинской поэзии, разумеется, не поддаются механике вероятности, поэтому Марков ограничился первыми 20 000 букв романа в стихах «Евгений Онегин», которые рассмотрел как последовательность согласных и гласных, а если точнее, то 43,2 % гласных и 56,8 % согласных. Возможно, кто-то наивно надеялся, что буквы независимы друг от друга, а значит, буква, следующая за согласной, будет согласной ровно с такой же вероятностью, с какой согласные встречаются во всем тексте, то есть 56,8 %.

Однако Марков обнаружил, что это не так. Он тщательно подсчитал все пары последовательных букв, разбив их на четыре комбинации – согласная-согласная, согласная-гласная, гласная-согласная и гласная-гласная, – и получил следующую диаграмму:



Эта марковская цепь похожа на ту, что управляла комаром на двух болотах; просто вероятности поменялись. Если искомая буква – согласная, то следующая буква будет гласной с вероятностью 66,3 % и согласной с вероятностью 33,7 %. Двойные гласные встречаются еще реже: шансы, что одна гласная сменит другую, составляют всего 12,8 %. Эти числа статистически устойчивы по всему тексту. Вы можете рассматривать их как статистическую подпись пушкинского текста. В самом деле, позднее Марков вернулся к задаче и изучил 100 000 букв из романа Сергея Аксакова «Детские годы Багрова-внука». Процентное содержание гласных у Аксакова не особо отличалось от пушкинского: 44,9 %. Но эта марковская цепь выглядит совершенно иначе:



Если по какой-нибудь причине вам нужно определить, принадлежит неизвестный текст на русском языке Аксакову или Пушкину, есть один хороший способ (особенно если вы не умеете читать по-русски) – посчитать пары последовательных гласных, к которым Аксаков, похоже, благоволил, а Пушкин их избегал.

Нельзя винить Маркова, что он свел литературные тексты к двоичной последовательности гласных и согласных; ему приходилось все считать вручную на бумаге. С появлением компьютеров возможности значительно расширились. Вместо двух болот у вас может быть 26 – по числу букв английского алфавита. А с учетом огромного количества текстов можно оценить все вероятности, необходимые для определения цепи Маркова для английских букв. Питер Норвиг, директор по исследованиям[163] компании Google, задействовал для вычисления этих вероятностей набор текстов объемом около 3,5 триллиона букв. Приблизительно 445 миллиардов букв, то есть 12,5 % от общего количества, – это буква Е, наиболее часто употребляемая в английском языке. Однако следующая за ней снова буква Е встречалась только в 10,6 миллиарда случаев, что дает нам вероятность немногим более 2 %. Гораздо чаще за Е следовала буква R, что наблюдалось 57,8 миллиарда раз; таким образом, доля буквы R среди «следующих за Е» составила почти 13 %, что примерно вдвое превышает частоту R среди всех букв. На деле сочетание («биграмма») ER – четвертое по частоте среди всех двухбуквенных сочетаний в английском языке. (Прежде чем посмотреть в сноске первые три, попробуйте их угадать[164].)

Мне нравится представлять буквы как места на карте, а вероятности – как дорожки, которые в различной степени привлекательны и проходимы. От E к R ведет широкая дорога с хорошим покрытием. Дорожка от E к B намного уже и заросла колючками. От T к H дороги почти односторонние: добраться в двадцать с лишним раз проще, чем от H к T. (Носители английского языка часто употребляют слова the, there, this и that, а вот light и ashtray реже[165].) Цепь Маркова сообщает нам, какой извилистый путь вероятнее, когда мы идем по карте английского текста.

Ну раз уж вы здесь, почему бы не пойти дальше? Вместо последовательности букв мы можем представить текст как последовательности биграмм; например, первое предложение этого абзаца будет начинаться так[166]:

ON, NC, CE, EY, YO, OU…

Теперь на наших дорогах есть определенные ограничения. От ON нельзя перейти к произвольному буквосочетанию: следующее должно начинаться на N. Данные Норвига показывают, что самое распространенное продолжение – NS (14,7 %), а затем NT (11,3 %). Это дает еще более четкое представление о структуре английского текста.

Инженер и математик Клод Шеннон