Десять уравнений, которые правят миром. И как их можете использовать вы — страница 38 из 49

Муравьи – один из моих любимых примеров. Многие из них используют химический маркер-феромон, чтобы показать другим насекомым, где они были. Когда они находят лежащую на земле сладкую пищу, то оставляют метку. Другие муравьи ищут ее и следуют за ней до еды. В итоге срабатывает механизм обратной связи: все больше муравьев оставляют свои феромоны, и находить пищу можно все быстрее.

Людям тоже нужны пища, кров и партнер для воспроизводства. В прошлом мы тратили уйму времени на поиск информации, которая позволила бы нам получить и сохранить три этих важнейших элемента. В современном обществе такой поиск изменил форму. Для значительной части населения мира поиск предметов первой необходимости уже завершен, однако поиск информации о еде, жилье и сексе продолжается и расширяется: теперь он принимает форму просмотра кулинарных передач и реалити-шоу Love Island («Остров любви»); чтения сплетен о знаменитостях; изучения выставленного на продажу жилья и цен на недвижимость. Мы публикуем фотографии наших партнеров, обеда, детей и домов. Показываем всем, куда едем и что делаем. Как муравьи, мы стремимся поделиться тем, что нашли, и следовать полученным советам.

Мне неудобно признать масштаб своих ежедневных поисков информации. Я захожу в Twitter проверять уведомления; открываю почту в поисках новых писем; читаю политические новости, а затем пробегаю по спортивным. Я иду на онлайн-платформу Medium, где публикую свои тексты – чтобы увидеть, нравятся ли мои истории и нет ли там интересных комментариев.

Математический способ интерпретации моего поведения возвращает нас к игровым автоматам, упомянутым в главе 3. Каждое приложение в телефоне – все равно что дергание ручки автомата в надежде получить вознаграждение. Я тяну ручку Twitter: семь ретвитов! Теперь электронной почты: письмо с приглашением выступить. Класс, я популярен! Я тяну ручку новостей и спорта: очередная заморочка брексита или слух о трансфере. Заглядываю на платформу Medium – но никто не поставил лайк моим постам. О боже, эта ручка плохо работает.

Сейчас я представлю такую жизнь с приложениями – игровыми автоматами в виде уравнения. Вообразите, что я открываю Twitter раз в час. Вероятно, это заниженная величина, но начнем с простого предположения.

Обозначим как Rt вознаграждение, которое я получу за час t. Для простоты скажем, что Rt = 1, если кто-то сделал ретвит моего поста, и Rt = 0, если не было ни одного ретвита.

Представим вознаграждения за рабочий день с 9 до 17 часов в виде последовательности единиц и нулей. Например, она может выглядеть так:

R9 = 0, R10 = 1, R11 = 1, R12 = 0, R13 = 1, R14 = 1, R15 = 0, R16 = 1, R17 = 1.

Эти вознаграждения моделируют ретвиты внешнего мира.

Теперь нужно учесть мое внутреннее состояние. Обращаясь к этому приложению, я улучшаю свою оценку качества Twitter, его способности дать мне мгновенное ощущение самоутверждения, которое предоставляет только ретвит или лайк. Здесь мы можем использовать уравнение вознаграждения:

Qt+1 = (1 – α)Qt + αRt (Уравнение 8).

Кроме времени t и вознаграждения Rt сюда входят еще два символа: Qt отражает мою оценку качества вознаграждения, а α определяет, насколько быстро я теряю уверенность при его отсутствии. Эти буквы требуют дополнительного пояснения.

Если я пишу: Qt+1 = Qt+1, это означает, что я увеличил Qt на единицу. Эта идея используется в программировании внутри «цикла со счетчиком»: мы увеличиваем Qt на 1 каждый раз, когда проходим цикл. Та же идея применяется и в уравнении вознаграждения. Но вместо прибавления 1 мы изменяем Qt, добавляя два разных слагаемых. Первый компонент – (1 – α)Qt – понижает оценку качества вознаграждения. Например, если мы выберем α = 0,1, на каждом шаге наша оценка будет снижаться на 1–0,1 = 90 % по сравнению с предыдущим уровнем. Это то же уравнение, которое мы сейчас используем, например, для описания того, как автомобиль каждый год падает в цене; далее мы увидим, как оно описывает испарение феромонов и других химических веществ. Второй компонент – αRt – повышает нашу оценку стоимости вознаграждения. Если вознаграждение равно 1, добавляем α к нашей оценке.

Сложив оба компонента, можем увидеть, как работает уравнение в целом. Представьте, что я начинаю работу утром в 9 часов с оценкой Q9 = 1. Иными словами, я на 100 % уверен, что Twitter даст мне вознаграждающий ретвит. Открываю его, но с разочарованием обнаруживаю, что R9 = 0. Нет ретвитов. Нет вознаграждения. И я использую уравнение 8, чтобы изменить мою оценку качества на Q10 = 0,9 ∙ 1 + 0,1 ∙ 0 = 0,9. Теперь я немного меньше уверен, когда открываю Twitter в 10 часов утра, однако на этот раз получаю то, что искал: R10 = 1. Ретвит! Моя оценка качества не возвращается к исходному состоянию, но чуть двигается вверх: Q11 = 0,9 ∙ 0,1 + 0,1 ∙ 1 = 0,91.

В 1951 году математики Герберт Роббинс и Саттон Монро доказали, что уравнение 8 всегда дает верную оценку среднего значения вознаграждения[153]. Чтобы понять этот результат, предположим, что вероятность получения вознаграждения (ретвита) за любой конкретный час равна R–, и пусть R– = 0,6, или 60 %. Перед тем как начать ежечасную проверку Twitter, я понятия не имел о значении R–. Моя цель – оценить значение этой величины по последовательности вознаграждений, которые я получаю после открытия Twitter. Они у нас представлены в виде последовательности из 0 и 1 – 011001011… Если та продолжается бесконечно, средняя частота единиц будет R– = 60 %.

Уравнение 8 быстро начинает отражать вознаграждения: R11 = 0, и поэтому Q12 = 0,919; R12 = 0, и поэтому Q13 = 0,827 и т. д., так что к концу дня мы получаем Q17 = 0,724. Каждое наблюдение приближает меня к истинному значению R–. По этой причине Qt часто называют отслеживающей переменной: она отслеживает значение R–. Рисунок 8 иллюстрирует этот процесс.


Рис. 8. Как отслеживающая переменная отслеживает вознаграждение


Роббинс и Монро показали, что для надежной оценки R– не нужно хранить всю последовательность нулей и единиц. Чтобы получать очередную оценку Qt+1, надо знать текущую оценку Qt и следующее вознаграждение в последовательности Rt. Если я все вычислил правильно вплоть до этого момента, то могу забыть о прошлом и сохранять только отслеживающую переменную.

Есть оговорки. Роббинс и Монро показали, что нам нужно очень медленно уменьшать со временем значение α. Помните, что α (греческая буква) – параметр, которые управляет скоростью забывания. Изначально у нас доверия нет, поэтому нужно уделять много внимания последним величинам, и поэтому α получает значение, близкое к 1. Со временем нам нужно понижать α, так что эта величина стремится к 0. Именно медленное уменьшение гарантирует, что наша оценка сходится к вознаграждению.

* * *

Представьте, что вы лежите на диване и вознаграждаете себя просмотром телевизора. На экране какой-то сериал Netflix. Первая серия – отличная (как всегда), вторая – средняя, третья – чуть лучше. Вопрос таков: сколько времени вам следует смотреть, прежде чем бросить сериал? Вашему мозгу это не особо важно, но вас это заботит. Вы хотите смотреть в выходной что-то хорошее.

Решение – использовать уравнение вознаграждения. Для телесериала хорошим значением для нашего показателя снижения доверия будет α = 0,5, или половина. Это очень высокая скорость забывания прошлого, но хорошее шоу должно постоянно дарить новые идеи.

Вот ваши действия. Вы ставите первому эпизоду оценку по 10-балльной шкале – скажем, 9. Итак, Q1 = 9. Если смотрите серии подряд, то держите в голове число 9 и начните следующую серию. Поставьте ей оценку. Предположим, это 6. Теперь имеем Q2 = 9/2 + 6/2 = 7,5. Удобно каждый раз округлять, так что новая оценка будет 8. Смотрим следующий эпизод. Пусть на этот раз мы ставим 7. Берем Q2 = 8/2 + 7/2 = 7,5, снова округляем до 8.

Продолжаем в том же духе и дальше. Сила этого метода в том, что не нужно помнить, насколько сильно вам понравились предыдущие эпизоды. Вы отмечаете Qt для последней серии в голове. Сохранять отслеживающую переменную Qt можно не только при просмотре телесериала, но и при оценке того, нравится ли вам ходить на разные мероприятия, читать различных авторов или заниматься в классе йоги. Это единственное число для каждого занятия позволяет понимать общее вознаграждение за различную деятельность, не возвращаясь к конкретным моментам, когда вас втянули в разговор с одним скучным математиком во время выпивки после работы или когда вы повредили седалищный нерв во время йоги.

Когда бросать просмотр? Чтобы ответить на этот вопрос, нужно установить личный порог. Я использую число 7. Если качество серий падает до 7, я останавливаюсь. Это довольно жесткое правило, поскольку оно означает, что если текущий уровень 8, а очередной эпизод получает оценку 6, то у меня получается 8/2 + 6/2 = 7 и я вынужден бросить просмотр. Но мне кажется, что это справедливо. Хороший сериал должен регулярно выдавать эпизоды уровня 8, 9 и 10. Если он достигает таких высот, то переживет оценку 6 и даже 5. Например, если текущее значение