[181]. Одно из расследований The New York Times обнаружило, что YouTube рекомендовал семейные видео с голыми детьми, играющими в бассейнах-лягушатниках, своим пользователям, которые интересовались педофилией[182].
YouTube может дать нам «видение воронки». Возможно, его цель – обеспечение лучших рекомендаций для вас, однако уравнение 9 выполнено, когда обнаруживается наилучшее решение для доступных данных. Происходит подъем по градиенту обучения, пока не будет достигнут пик, а затем остановка – чтобы вы наслаждались видом, причем каким угодно. «Воронка» совершает ошибки, а ответственность за их исправление лежит на нас. YouTube не всегда преуспевал в решении этой задачи.
Некоторые люди со стороны могут решить, что участники «Десятки» похожи на Железного человека – Тони Старка (промышленники и талантливые инженеры, использующие технологии для преобразования мира). Но если бы любому из участников «Десятки» предложили выбрать какого-нибудь супергероя, чтобы описать себя, это, вероятно, был бы Человек-паук (Питер Паркер). У него нет плана, нет нравственной программы – он как подросток, пытающийся сохранить контроль над организмом, когда тот меняется неожиданно.
Напряженность среди участников «Десятки» можно рассматривать по-разному. Похожи ли они на наивного Марка Цукерберга из фильма «Социальная сеть» или роботоподобного Марка Цукерберга, дающего свидетельские показания в юридическом и торговом комитетах Сената США? Похожи ли они на того Илона Маска, который курит травку на камеру, или на того, который связывает наше будущее с перелетом на Марс?
С одной стороны, уравнения дают «Десятке» возможность выносить безупречные суждения, и им доверяют планировать глобальные перемены в нашем обществе. Они создали научный подход, который укрепляет уверенность в моделях, использующих данные. Они связали нас всех так, как мы не ожидали. Они оптимизируют и улучшают работу. Они приносят эффективность и стабильность. С другой стороны, эти участники будут придерживаться уравнения вознаграждения, которое предлагает брать то, что есть сейчас, и забыть о прошлом. Они создают преимущество перед теми, кто не может позволить себе платить.
Это как раз то, о чем Алфред Джулс Айер говорил в 1936 году: в математике нет морали, а если и была когда-то, то сейчас уже утрачена. Невидимость «Десятки» означает, что мы не можем найти даже подходящую аналогию с супергероем. Кто такие участники «Десятки»? Наивные подростки, осознающие, как Питер Паркер, что с большой властью приходит и большая ответственность; или жадные до власти маньяки, которые хотят управлять миром «ради его же блага»? Может, они даже похожи на суперзлодея Таноса из вселенной Marvel, готового убить половину людей, – поскольку думают, что это станет оптимальным решением?
Что бы они ни думали о себе, нам нужно знать, что они замышляют, потому что, куда бы они ни отправились, они всё меняют.
Когда мы изучаем примеры современного ИИ – например, нейронную сеть компании DeepMind, которая стала лучшим в мире игроком в го, или искусственный интеллект, который научился играть в «Космических захватчиков» либо в другие игры для Atari, – мы должны считать их выдающимися достижениями инженерии. Некая группа математиков и программистов собрала воедино все фрагменты. За этим ИИ стоит не какое-то одно уравнение.
Но – и это важно для всего моего проекта по описанию десяти уравнений – компоненты искусственного интеллекта включают девять из них. Так что в финале я попробую объяснить, как DeepMind стала мастером игры, используя ту математику, которую мы уже изучили в этой книге.
Представьте сцену, где в окружении кольца столиков стоит шахматный гроссмейстер. Он подходит к одному столу, изучает позицию и делает ход. Затем переходит к следующему и делает ход там. В конце сеанса оказывается, что он выиграл все партии. Сначала может показаться невероятным, что гроссмейстер отслеживает столько шахматных партий одновременно. Неужели он может помнить, как развивалась игра до данного момента, и решать, что делать дальше? Но потом вы вспоминаете уравнение умений.
Ситуацию в партии можно увидеть непосредственно на доске: защитная структура пешек, качество убежища для короля, насколько хорош для атаки ферзь и т. д. Гроссмейстеру не нужно знать, как шла игра до настоящего момента, достаточно изучить позицию и выбрать следующий ход. Умения шахматиста можно измерить тем, как он берет текущее состояние доски и переводит его в новое, делая какой-то закономерный ход. Это новое состояние уменьшает или увеличивает его шансы на победу в партии? При оценке гроссмейстеров применяется уравнение 4 (марковское предположение).
«Многие игры с полной информацией – например, шахматы, шашки, реверси или го – можно считать марковскими». Такой была первая фраза в разделе «Методы» статьи Дэвида Сильвера и других специалистов Google DeepMind об их программе, ставшей лучшим игроком в го в мире[183]. Это наблюдение упрощает задачу нахождения решения для этих игр, поскольку позволяет сосредоточиться на поиске оптимальной стратегии для текущего состояния на доске, не заботясь о том, что происходило до этого момента.
Мы уже анализировали математику отдельного нейрона в главе 1. Уравнение 1 брало текущие коэффициенты для какого-нибудь футбольного матча и преобразовывало в решение, стоит нам делать ставку или нет. По сути, это упрощенная модель того, что делает отдельный нейрон в вашем мозге. Он получает внешние сигналы – от других нейронов или из внешнего мира – и преобразует их в решение, что ему сделать. Такое упрощающее предположение легло в основу первых моделей нейронных сетей, а уравнение 1 использовалось для моделирования реакции нейронов. Сегодня это одно из двух очень похожих уравнений, которые используются для моделирования нейронов почти во всех сетях[184].
Далее мы обратимся к одному из вариантов уравнения вознаграждения. В уравнении 8 величина Qt была оценкой качества сериала Netflix или вознаграждения, получаемого от проверки аккаунта в Twitter. Вместо того чтобы оценивать один фильм или один аккаунт, сейчас мы просим нашу нейронную сеть оценить 1,7 × 10172 разных состояний в игре го или 10172 сочетаний клипов и пользователей на YouTube. Обозначим Qt(st, at) качество состояния мира st при условии, что мы намереваемся произвести некоторое воздействие at. В игре го состояние st – решетка 19 × 19, где у каждого узла (в го они называются пунктами) есть три возможных состояния: пуст, занят белым камнем или занят черным камнем. Возможные действия at – пункты, куда можно поставить очередной камень. Тогда величина, характеризующая качество – Qt(st, at), – говорит нам, насколько хорош будет ход at в состоянии st. Для YouTube одно состояние – все пользователи в сети и все имеющиеся ролики. Действие – просмотр конкретным пользователем конкретного видеоролика, а качество – насколько долго он его просматривает.
Вознаграждение Rt(st, at) – награда, которую мы получаем за выполнение действия at в состоянии st. В го награда появляется только с концом партии. Мы можем дать 1 за выигрывающий ход, – 1 за проигрывающий и 0 за любой другой. Какое-нибудь состояние может иметь высокое качество, но нулевое вознаграждение: например, если некоторое расположение камней близко к победному.
Когда DeepMind использовала уравнение вознаграждения для игр Atari, она добавляла еще один компонент: будущее. Когда мы производим какое-нибудь действие at (ставим камень в го), то переходим в новое состояние st+1 (на доске занят тот пункт, куда мы сделали ход). Уравнение вознаграждения DeepMind добавляет вознаграждение размером Qt(st+1, a) за наилучшее действие в этом новом состоянии. Это позволяет искусственному интеллекту планировать свои будущие шаги в игре.
Уравнение 8 дает нам гарантию. Оно говорит, что если мы будем следовать такой схеме и обновлять качество нашей игры, то постепенно ее освоим. Более того, с помощью этого уравнения мы в итоге придем к оптимальной стратегии для любой игры – от крестиков-ноликов до шахмат и го.
Но есть одна проблема. Это уравнение не говорит нам, сколько времени придется играть, чтобы узнать качество всех различных состояний. В игре го 319×19 состояний, что дает примерно 1,7 × 10172 различных возможных позиций на доске[185]. Даже очень быстрому компьютеру потребуется огромное время, чтобы сыграть их все, а ведь чтобы наша функция качества сходилась, нам нужно пройти через каждое состояние много раз. Нахождение наилучшей стратегии возможно теоретически, но не практически.
Ключевой идеей для специалистов Google DeepMind стало понимание, что качество Qt(st, at) можно изобразить в виде нейронной сети. Вместо того чтобы узнавать, как искусственный интеллект должен играть во всех 1,7 × 10172 возможных позициях в го, разбирающийся в этой игре ИИ был представлен в таком виде: на входе позиции на доске 19 × 19, далее несколько уровней из скрытых нейронов и выходные нейроны, которые определяли следующий ход. Как только задача была переформулирована в форме нейронной сети, исследователи смогли для получения ответа использовать метод градиентного спуска (уравнение 9).