Базальные ядра есть в мозге у всех млекопитающих. В базальных ядрах дофаминовые нейроны отвечают за одну из форм обучения, которую называют ассоциативным обучением. Вспомним знаменитую собаку Павлова. В эксперименте Павлова сенсорный стимул, например звонок (условный стимул), предшествовал приему пищи (безусловный стимул), который вызывал слюноотделение (безусловный рефлекс). После нескольких повторений звонок также начинал вызывать у собаки слюноотделение (условный рефлекс). Разные животные предпочитают разные ассоциативные стимулы: например, пчелы хорошо реагируют на запах, цвет и форму цветка, используя выученную ассоциацию для поиска похожих цветов, когда те расцветают. По всей видимости, эта универсальная форма обучения очень важна, и в 1960-е годы психологи активно изучали условия, способствующие ассоциативному обучению, и разрабатывали модели для его объяснения.
С вознаграждением ассоциируется только тот стимул, который ему предшествует[466]. Это логично, поскольку стимул, возникающий до вознаграждения, с большей вероятностью окажется его причиной, чем тот, который поступит после вознаграждения. В природе принцип причинности играет важную роль.
Предположим, вы приняли ряд решений для достижения цели. Если вы не будете знать наперед результат каждого из этих решений, вам придется учиться на собственном опыте в реальном времени. Если вы получаете вознаграждение по итогам последовательности решений, как узнать, какое из них привело к положительному результату? Алгоритм обучения, который может ответить на этот вопрос, называется методом временного присваивания коэффициентов доверия. Он был разработан Ричардом Саттоном в Массачусетском университете в Амхерсте в 1988 году[467]. В тесном сотрудничестве с Эндрю Барто, своим научным руководителем, Саттон работал над сложными вопросами обучения с подкреплением — это метод машинного обучения, образцом для которого стало ассоциативное обучение у животных. При обучении методом временных разностей вы сравниваете свои ожидания относительно вознаграждения за выбор того или иного варианта с полученным в реальности вознаграждением, после чего корректируете ожидания, чтобы в следующий раз принять лучшее решение. Затем обновляется оценочная сеть, которая рассчитывает ожидаемое вознаграждение для каждого решения в каждой точке выбора. Алгоритм временных разностей приближает вас к оптимальной серии решений, когда у вас достаточно времени на анализ возможностей. После этого начинается этап реализации наилучшей стратегии, выработанной на основе анализа.
Пчелы — лучшие ученики в мире насекомых. Им требуется лишь несколько полетов к цветку с нектаром, чтобы запомнить его. Это быстрое обучение исследовалось в лаборатории Рэндольфа Мензеля в Берлине, когда я приехал туда в 1992 году. Мозг пчелы состоит из миллиона нейронов, и регистрировать их электрические сигналы очень трудно. Мартин Хаммер из группы Мензеля открыл уникальный нейрон, названный VUMmx1, который реагирует усилением электрической активности на сахарозу, но не на запах; однако если вскоре после обоняния запаха пчела получала вознаграждение в виде сахарозы, VUMmx1 начинал реагировать и на запах.
Когда я вернулся в Ла-Хойю, сотрудник моей лаборатории Питер Дэйан, специалист по обучению с подкреплением, сразу же понял, что этот нейрон можно использовать для обучения методом временных разностей. Наша модель обучения пчелы позволяет объяснить некоторые особенности психики этих насекомых, такие как избегание риска. Когда пчеле предлагают выбор между гарантированным вознаграждением и удвоенным вознаграждением с 50-процентной вероятностью (в среднем получается тот же объем), она предпочитает гарантированное. Рид Монтегю, еще один сотрудник моей лаборатории, сделал следующий шаг, осознав, что дофаминовые нейроны в системе вознаграждения позвоночных могут выполнять аналогичную функцию[468]. Это был один из самых волнующих этапов моей научной жизни: наши модели и сделанные на их основе прогнозы были опубликованы, а впоследствии подтверждены на обезьянах (Вольфрамом Шульцем) и на людях. У обезьян для этого регистрировались сигналы отдельных нейронов, а в случае с людьми применялись методы визуализации мозга[469]. Кратковременные изменения в активности дофаминовых нейронов сигнализируют об ошибке в ожиданиях вознаграждения.
Обучение методом временных разностей может показаться не слишком эффективным, поскольку обратная связь состоит лишь в том, получаете вы вознаграждение или нет. Однако некоторые варианты применения такого обучения показали, что в сочетании с другими алгоритмами оно может быть весьма мощным инструментом. Джерри Тезауро работал со мной над обучением нейросети игре в нарды. Эта игра очень популярна на Ближнем Востоке, и некоторые даже зарабатывают на жизнь игрой с высокими ставками. Это соревнование между двумя игроками — кто раньше снимет с доски свои шашки. Скорость перемещения шашек определяется броском игральной кости, ходы делаются по очереди. В отличие от детерминированных игр вроде шахмат, в нардах неопределенность результата при броске игральной кости значительно затрудняет предсказание результата каждого хода. Стратегия игры в нарды в программе Джерри определялась на основе функции ценности, которая рассчитывала вероятность выиграть матч на основе всех возможных позиций на доске, каждой из которых группа мастеров этой игры присваивала оценку. Программа анализировала все возможные ходы в конкретной позиции и выбирала ход с наивысшей оценкой.
В нашем подходе для обучения нейросети оценке игровых позиций и выбору ходов использовалось экспертное знание. Недостаток этого подхода состоит в необходимости собрать и хранить множество экспертных оценок; кроме того, программа по определению не могла играть лучше экспертов. Когда Джерри перешел в исследовательский центр IBM имени Томаса Уотсона, он переключился с метода контролируемого обучения на метод временных разностей и заставил программу играть саму с собой. Проблема игры с собой заключается в том, что единственный обучающий сигнал — это выигрыш или проигрыш всей партии, а информация о влиянии на победу или поражение каждого из множества ходов отсутствует.
В начале обучения игре в нарды ходы вычислительной машины были случайными, но в итоге одна из сторон выигрывала. Сначала система вознаграждения обучала программу «выигрывать», то есть снимать все шашки с доски к концу игры. Когда программа освоила завершение игры, функция ценности для выигрыша начала обучать функцию ценности для середины игры, где приходилось принимать сложные решения о взаимодействии с шашками противника. Наконец, после ста тысяч партий, функция ценности научилась разыгрывать дебют, в котором шашки занимают оборону, чтобы помешать продвижению шашек противника. Процесс обучения шел с конца игры, где вознаграждение очевидно, к началу, с использованием неявного вознаграждения, рассчитанного функцией ценности. Таким образом, обратная последовательность функции ценности позволяет слабому обучающему сигналу (такому, как в дофаминовой системе вознаграждения) обучать машину последовательности решений, ведущих к достижению отдаленной цели.
Программа Тезауро, получившая название TD-Gammon, была представлена миру в 1992 году и удивила меня и многих других[470]. Функция ценности использовала несколько сотен смоделированных нейронов — по нынешним меркам это относительно небольшая нейросеть. После ста тысяч партий программа начала выигрывать у Джерри, и он позвонил Биллу Роберти, мастеру игры в нарды из Нью-Йорка, и тот приехал в исследовательский центр IBM, чтобы сыграть с компьютером. Роберти выиграл большинство партий, но был удивлен, проиграв несколько напряженных поединков. Он заявил, что это лучшая программа для игры в нарды из всех, с которыми он имел дело. Некоторые ходы компьютера были необычными, каких он не видел раньше; при тщательном анализе выяснилось, что эта стратегия лучше той, к которой обычно прибегают люди. Роберти вернулся, когда программа сыграла сама с собой миллион партий, и был поражен ничейным исходом серии поединков с TD-Gammon. Возможно, вам покажется, что миллион — это много, но программа ознакомилась лишь с ничтожно малой долей возможных позиций на доске. TD-Gammon приходилось сводить к общим правилам каждую новую позицию почти после каждого хода.
В марте 2016 года кореец Ли Седоль, чемпион мира по игре в го, провел матч с программой AlphaGo, которая обучалась игре в го методом временных разностей[471]. В AlphaGo использовались нейросети с гораздо более мощной функцией ценности, состоящие из миллионов компонентов, которые оценивали позиции на доске и возможные ходы. По сложности го превосходит шахматы примерно настолько же, насколько шахматы превосходят шашки. Даже компания Deep Mind, разработавшая программу AlphaGo, не знала ее силы. Программа сыграла сама с собой сотни миллионов партий, и не было никакого критерия для оценки ее возможностей. Многие были потрясены, когда AlphaGo выиграла первые три партии, продемонстрировав неожиданно высокий уровень мастерства. Некоторые ходы, сделанные программой, были поистине революционными. Возможности AlphaGo значительно превзошли наши ожидания — мои и других специалистов. Процесс объединения биологического интеллекта с искусственным ускоряется, и впереди нас ждет еще много сюрпризов. Урок, который нам нужно усвоить, заключается в том, что природа гораздо умнее нас.
Мы только начинаем понимать, какую важную роль играет дофамин в принятии решений и в управлении нашей жизнью. Воздействие дофамина происходит на бессознательном уровне, а потому история, которую мы расскажем себе, чтобы обосновать то или иное решение, вероятно, будет основана на опыте, уже стертом из нашей памяти. Мы придумываем истории, поскольку нуждаемся в осознанных объяснениях. Когда вы делаете выбор на основе «интуиции», не поддающейся рациональному объяснению, помните: это работа дофамина.