[261], который постоянно менял то, что было представлено обезьяне, чтобы получить максимальную реакцию от клетки. Результаты данного подхода, предложенного десятилетием ранее Чарльзом Эдвардом Коннором[262] и его коллегами, пугают. За более чем сотню итераций эволюционировавшие образы превратились из сероватого чистого листа в призрачные, сюрреалистические версии обезьяньих лиц, с некими объектами, напоминающими глаза, размытые части тела и с различными компонентами в разных положениях.
Искусственные изображения, полученные с помощью алгоритма XDReAM, каждое из которых оптимально стимулировало различные нейроны в зрительной коре обезьян. Предположительно, они выглядели вот так
Именно такими странными образами действительно интересовались нейроны, а не обычными портретами. Если что-то подобное происходило в мозге людей с «клетками Дженнифер Энистон», это означало бы, что нейроны не были настроены на что-то вроде фотографического представления – чтобы вызвать реакцию, фотографии достаточно обладать отдаленным сходством с объектом. Аналогичные, хотя и менее зловещие результаты были получены одновременно исследователями из Массачусетского технологического института, которые применили такую же технику исследования к нейронам в той части зрительной коры обезьян, которая не участвует в распознавании лиц [29]. Эти клетки, казалось, были особенно возбуждены странными, не вполне естественными геометрическими образами, напоминающими какое-то жуткое порождение тяжелой мигрени[263].
Хотя заманчиво представить, что эти странные визуальные «сгустки» представляют собой то, что видит обезьяна, когда смотрит на другую особь, помните, что в процессе восприятия лица задействуются миллионы клеток. И прежде всего, как сказал Барлоу, нет мини-обезьяны, всматривающейся в результаты активности отдельных нейронов.
Каким-то образом восприятие порождается зрительной системой в целом, а не единичным нейроном или даже небольшим их скоплением.
Научно-исследовательская работа на мышах недавно открыла мощный путь к пониманию нейронной основы зрительного восприятия. С промежутком в несколько недель летом 2019 года группа Рафаэля Юсте в Колумбийском университете и команда Карла Дейссерота в Стэнфорде показали, что с применением сложных оптогенетических техник можно воссоздать паттерны активности в мозге мыши, которые формируются во время зрительного восприятия [30]. Когда эти паттерны были искусственно активированы, мышь демонстрировала соответствующее поведение, даже несмотря на отсутствие визуальной стимуляции. В обоих случаях грызунов учили лизать, когда они видели узор из полос. Обе группы использовали несколько разные методы.
Восприятие рождается через зрительную систему в целом, а не определенным нейроном.
Команда Дейссерота точно воспроизводила активность примерно в дюжине нейронов, а команда Юсте сосредоточилась всего на двух тесно связанных нейронах, которые были способны включать в работу ансамбль клеток в зрительной системе мозга. Эти впечатляющие исследования еще не позволяют сказать, были ли паттерны активности действительно зрительным восприятием у мыши или же представляют собой некую необходимую предпосылку для того, чтобы это восприятие возникло через активность других наборов нейронов. Несмотря на десятилетия усилий математиков и нейробиологов, пока что мы лишь смутно понимаем, что происходит с мозгом, когда мы на что-то смотрим.
В середине 1980-х годов нейробиологи и психологи очень заинтересовались новыми вычислительными подходами, позволив расширить рамки возможностей «Пандемониума» и «Персептрона». Метод, названный параллельной распределенной обработкой (англ. parallel distributed processing, PDP), был анонсирован в двухтомнике, где описывались инновационные компьютерные модели поведения и их потенциальные психологические и нейробиологические эквиваленты [31]. Метод PDP разрабатывался рядом исследователей, включая Дэвида Румельхарта[264], Джеймса Макклелланда и Джеффри Хинтона (ныне ведущего исследователя Google), а также Фрэнсиса Крика. Их работа привела непосредственно к нейронным сетям и глубокому обучению[265], которые преобразовали вычислительную нейробиологию и искусственный интеллект и дают поразительные результаты, регулярно попадающие в журнальные заголовки.
Все сети PDP имеют одну и ту же базовую трехслойную структуру, унаследованную от «Перцептрона»: два из них – это слой входа, который реагирует, когда какая-то функция запускает данный блок, и слой выхода, информирующий внешний мир о завершении работы предыдущих слоев. Магия заключается в промежуточном слое (обычно называемом скрытым), который использует различные системы взаимосвязей и алгоритмы, обычно соответствующие закону Хебба: последующее предпочтение отдается соединениям, активирующимся одновременно.
Способность данных программ имитировать аспекты поведения вызывала, по выражению Фрэнсиса Крика, «пьянящее чувство эйфории» в научном сообществе [33]. Ученый вошел в группу PDP, выпустившую прорывную книгу, хотя позже описал свою роль как «незначительную», а также назвал себя «возмутителем спокойствия» в группе [34]. Эта близость к разработкам не помешала Крику разделить вышеупомянутую «эйфорию». Особенно его искусственная нейронная сеть NetTalk, разработанная Терри Сейновски и Чарли Розенбергом, которая научилась правильно произносить написанные английские слова, – Крик считал, что результат был «впечатляющим». Хотя программа обладала способностью правильно произносить новый текст с точностью до 80 %, она явно не изучала правила английского произношения (в той мере, в какой они существуют) [35].
Двухтомник «Метод PDP» разошелся удивительным для научной книги тиражом более 50 000 экземпляров и стал чрезвычайно популярным.
Способность сети PDP выполнять задачи настолько эффективно в значительной степени основана на использовании так называемого метода обратного распространения ошибки (обычно сокращается как бэкпроп, от англ. backprop, back propagation), который включает информацию, идущую между слоями в обоих направлениях в форме петли обратной связи. Это позволяет программе совершенствовать свое поведение, что быстро приводит к более точному результату. Военные и научные спонсоры вскоре пришли в восторг от таких возможностей, и исследования в последующие десятилетия, вкупе с ростом вычислительной мощности, привели к нынешнему массовому интересу к данной теме со стороны частных корпораций, таких как Google. С самого начала, когда эти алгоритмы были запущены, они начали жить собственной жизнью, давая неожиданные результаты. Эта особенность, обусловленная способом настройки алгоритмов в скрытом слое, может сильно разочаровывать, если, к примеру, «слетит» программное обеспечение или просто потерпит неудачу (таких примеров, должно быть, легион, хоть мы и мало слышим о них). Программа также способна преподносить и приятные сюрпризы. Один из самых ранних алгоритмов PDP был создан Румельхартом и Макклелландом, чтобы моделировать изучение прошедших времен английских глаголов. Программа успешно выполнила задачу, но изначально неверно поняла правила, которые разработала для правильных глаголов, и перенесла их на неправильные, точно так же, как дети в процессе обучения. Например, она выдала результат go/goed, несмотря на то что в начале выучила корректную форму этого неправильного глагола (go/went) [36].
Нечто еще более экстраординарное произошло в 2012 году, когда Google создала программу, содержащую 1 миллиард соединений, которая работала в течение трех дней на 1000 машинах и анализировала 10 000 000 изображений из различных видео на YouTube. У нее не было ни предустановленных шаблонов, ни каких-либо спрогнозированных результатов [37]. И все же за время многочасовой активности программа создала особые единицы, реагирующие на морды кошек. Виртуальная «бабушкина клетка» для виртуальных кошек. Это не было предполагаемым результатом проекта – программа не смотрела на фотографию кошки и затем не выдавала реакцию, потому что ей было сказано искать кошек. Изображения предоставлялись в виде одномерного потока информации, и программа просто училась распознавать последовательности данных, которые регулярно встречала в обучающем наборе видео с YouTube. Следовательно, это были кошки. Последовательности данных соответствовали бы компонентам кошачьей морды – глазам, треугольным ушам и т. д., – что повторялось во всех видео. Необходимо взглянуть на этот экстраординарный результат с определенной точки зрения.
Для наивного человека вроде меня кошачья «сущность», обнаруженная программой, не вызывает восторга. И при тестировании на новом наборе изображений программа правильно идентифицировала кошек только в 16 % случаев (существенное улучшение по сравнению с предыдущими значениями, но все же).
Программа использовала новейшую нейротехнологию – сеть глубокого обучения. Именно эти системы стояли за многими выдающимися прорывами в области компьютерных технологий, задачами, которые, когда я был студентом, были отвергнуты как невозможные для машины: распознавание лиц, анализ сцен, вождение автомобиля, распознавание естественного языка, перевод, игры, как шахматы или го[266], и так далее. Системы глубокого обучения отлично умеют идентифицировать содержание огромных массивов данных, в частности о природных объектах, например о кошках. В последнее время сети глубокого обучения были усовершенствованы неким образом, намекающим на принципы утройства мозга, – введением модуля, который может запоминать. Эта идея, впервые разрекламированная в 1997 году, называется «долгая кратковременная память» (long short-term memory, LSTM), и она значительно повышает скорость и эффективность глубокого обучения, позволяя машинам извлекать информацию поистине замечательно [38].