Наш успех в разработке перцептрона будет означать, что впервые небиологический объект достигнет осмысленной организации внешней среды… Мой коллега [Маршалл Йовитс] не одобряет туманные разговоры, которые можно услышать в эти дни о механических мозгах. Он предпочитает называть нашу машину самоорганизующейся системой, но, честно говоря, именно это и представляет собой каждый мозг[478].
Значение экспериментов растет по мере того, как системы, которые необходимо изучать, становятся все сложнее, а объем знаний, который можно получить путем логических рассуждений, все больше отстает от полного понимания их работы. Это не означает, что нужно отказаться от теоретического анализа. Скорее, в духе Галилея, теория должна всегда соответствовать эксперименту, и тогда из взаимодействия теории и эксперимента возникнет понимание, какие шаги следует совершить[479].
Ошибки возникают по умолчанию, но инструменты все равно работают. Принцип научных исследований состоит в том, что диссенсус не патологичен, а полезен, консенсус же не неизбежен и нуждается в объяснении. Адекватное функционирование инструментов требует сравнительного анализа. Возникает серьезный вопрос: как выносится суждение о том, что инструменты работают, и о том, что именно они собой представляют[480].
«Осмысленная организация внешней среды»
В 1958‑м, через два года после Дартмутского семинара по ИИ, проект новой «мыслящей машины» – искусственной нейронной сети «перцептрон» – удостоился кричащих заголовков в New York Times[481]. Изобретатель, психолог Фрэнк Розенблатт (ему тогда было всего тридцать лет) и его спонсор Маршалл Йовитс из Управления военно-морских исследований США нуждались в хорошей реакции прессы, чтобы оправдать расход денег налогоплательщиков. Восхваляя изобретение, в газете будто описывали мультфильм: «Военно-морской флот показал эмбрион электронного компьютера… который, как ожидается, сможет ходить, говорить, видеть, писать, воспроизводить себя и осознавать свое существование». Это были фанфары для военных, но некоторые преувеличения предвосхитили жутковатые достижения глубоких нейронных сетей в будущем. Например, статья оказалась устрашающе пророческой в отношении распознавания лиц и обработки естественного языка, которые возникнут полвека спустя: «В будущем перцептрон сможет распознавать людей и звать их по имени, моментально переводить речь и письмо на другой язык»[482].
В том же году в журнале New Yorker более трезво осветили тему, опубликовав интервью с Розенблаттом. Ученый пояснил, что перцептрон был не «механическим мозгом», как утверждали хайпующие СМИ, а самоорганизующейся машиной, которая также способна обеспечить «осмысленную организацию внешней среды». Перефразировав принцип нейропластичности Хебба («нейроны, которые активируются вместе, связываются»), автор статьи дал точное для того времени описание работы искусственной нейронной сети:
Отличительной чертой перцептрона служит то, что он взаимодействует со средой, формируя понятия, которые не подготовил для него человек. Биологи утверждают, что видят, чувствуют и думают только биологические системы, но перцептрон ведет себя так, как если бы видел, чувствовал и думал. И у вычислительных машин, и у перцептронов есть так называемая память; в перцептроне, однако, память представляет собой не хранилище преднамеренно отобранных и накопленных фактов, а свободную, неопределенную область ассоциативных единиц, где соединяются, по возможности случайным образом, сенсорный ввод, или глаз, с огромным числом реактивных единиц.
Если к глазу перцептрона поднести треугольник, связанные с глазом ассоциативные единицы улавливают изображение треугольника и передают его по случайной последовательности линий к реактивным единицам, которые регистрируют изображение. В следующий раз, когда треугольник будет поднесен к глазу, изображение пройдет тот же путь, что и предыдущее. Примечательно, что, как только определенная реакция установлена, все связи, ведущие к ней, усиливаются, и если к перцептрону поднести треугольник другого размера и формы, его изображение пройдет по тому же пути, что изображение первого треугольника[483].
Рис. 9.1 Пример классификации целей (Murray A. Perceptron Applications in Photo Interpretation // Photogrammetric Engineering 27, no. 4 (1961): 633)
Какой искусственной нейронной сетью был перцептрон? Розенблатт старался объяснить работу перцептронов простыми словами и позже сетовал, что журналисты подорвали «доверие к науке»[484]. В Корнеллской авиационной лаборатории в Буффало, штат Нью-Йорк, перцептрон был зарегистрирован как «Проект PARA: Автомат восприятия и распознавания». Военно-морской флот – главный спонсор – был заинтересован в автоматизированной классификации целей, например, для разведки кораблей противника на основе радиолокационных, гидроакустических или визуальных данных (см. рис. 9.1 и 9.2)[485].
Рис. 9.2 Пример классификации целей (Murray A. Perceptron Applications in Photo Interpretation // Photogrammetric Engineering 27, no. 4 (1961): 634)
Помимо фотоперцептронов Розенблатт планировал спроектировать целый класс устройств, работающих по той же логике, – фоноперцептроны (распознавали слова в аудиокоммуникации) и радиоперцептроны (распознавали объекты в сигналах радаров и сонаров)[486]. С технической точки зрения перцептрон представлял собой статистическую нейронную сеть для распознавания образов, то есть самоорганизующуюся вычислительную сеть для двоичной классификации стимулов, о которой мы говорили в предыдущих главах.
Перцептрон Mark I
Впервые перцептрон был испытан с помощью компьютерной симуляции, написанной на языке программирования SHARE и запущенной в 1957 году на IBM 704, одной из первых коммерческих центральных ЭВМ. На самых ранних этапах в ЭВМ вводили серию перфокарт и после пятидесяти попыток она, видимо, «научилась отличать карты, помеченные слева, от карт, помеченных справа»[487]. Розенблатт считал это доказательством того, что более сложная архитектура перцептрона позволит распознать более сложные образы. Вскоре после статьи в New York Times идея стала принимать форму громоздкого оборудования, работа над которым закончилась только в 1960 году. Это был легендарный перцептрон Mark I (сейчас находится в Смитсоновском музее в Вашингтоне, округ Колумбия; см. рис. 9.3). Mark I – та цифровая ЭВМ, которую Джон фон Нейман использовал в 1940‑х годах для расчетов Манхэттенского проекта.
Рис. 9.3 Перцептрон Mark I (Rosenblatt F. Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms. Buffalo, NY: Cornell Aeronautical Laboratory, 1961. P. III)
Ее расширили аналоговым модулем перцептрона. Работая в тысячу раз медленнее IBM 704, аппаратно-программный гибрид Mark I позволял программисту перемонтировать сеть вручную, что было быстрее, чем переписывать программу. В руководстве по эксплуатации это описано так:
Перцептрон Mark I представляет собой устройство для обучения и распознавания образов. Оно учится классифицировать плоские образы в группы на основе определенных геометрических сходств и различий. К свойствам, которые устройство использует для различения и обобщения, относятся положение на сетчатке поля зрения, геометрическая форма, частота встречаемости и размер. Если из множества возможных оснований для классификации требуется какое-то конкретное, его можно передать перцептрону с помощью сессии принудительного обучения, или исправления ошибок. Если предоставить перцептрон самому себе, он все равно сможет разделить представленные образы на классы, пользуясь самостоятельно сформированным критерием классификации. Процесс формирования таких критериев называется спонтанным обучением[488].
Рис. 9.4. Схема организации перцептрона Mark 1 (Rosenblatt F. Mark I Perceptron Operators’ Manual. Buffalo, NY: Cornell Aeronautical Laboratory, 1960)
Перцептрон Mark I представлял собой простую нейронную сеть, состоящую из трех слоев блоков, которые последовательно соединялись: «сенсорные, или S-блоки, ассоциативные, или A-блоки, реактивные, или R-блоки» (см. рис. 9.4)[489]. Входной слой («сетчатка») представлял собой камеру размером 20 x 20 пикселей с 400 фоторецепторами. Эти сенсорные блоки, которым назначались фиксированные веса, случайно или топологически связывались со слоем из 512 ассоциативных блоков[490]. Ассоциативные блоки в свою очередь связывались с восемью реактивными блоками (R-блоками, или выходом), веса которых автоматически регулировались («веса» назначались аналоговыми потенциометрами, также доступными к ручной регулировке). Подобно искусственным нейронам Уоррена Мак-Каллока и Уолтера Питтса, ассоциативные и реактивные блоки действовали по логике порогового значения: они суммировали входные значения и срабатывали, только если сумма превышала заданный порог (см. рис. 9.5)[491]. В руководстве по эксплуатации процесс описывался как своеобразная реализация правила Хебба, но, возможно, это слишком вольное толкование:
А-блоки отличаются от других блоков тем, что при активации значение возбуждения, которое они передают R-единицам, зависит от сравнительного успеха, достигнутого конкретным А-блоком в переключении соответствующей R-единицы в прошлом. Эти значения формируют память перцептрона[492].
Из этого запутанного клубка проводов стоит вынести, что обучаемые параметры суть потенциометры, которые связывают А-блоки с Р-блоками. 512 х 8 = 4096 параметров. Если быть точным, перцептрон Mark 1 запускал параллельно восемь простых перцептронов, каждый из которых предназначался для распознавания определенного шаблона. При сетчатке размером 20 х 20 пикселей каждый простой перцептрон имел 400 параметров. В любом случае, с точки зрения алгоритмической сложности для ресурсов того времени речь шла о большом количестве переменных, которые требовалось вычислять методом пошаговой аппроксимации. В качестве сравнения с другим масштабом сложности: для запуска алгоритма перцептрона современному настольному компьютеру хватит трех строчек кода на Python, а такая большая модель, как GPT, насчитывает триллион параметров (поэтому для ее обучения и развертывания нужен большой центр обработки данных).
Рис. 9.5 В 1963 году Розенблатт подал в заявке на патент US3287649A эскиз простого перцептрона. Патент был получен в 1966-м и истек через двадцать лет в 1983 году
Случайность исходных связей и весов была критически важна для Розенблатта, который хотел показать, что перцептрон проявляет способность к самоорганизации, даже если запускается из неупорядоченного состояния. Ученый был воодушевлен вычислительным разрешением перцептрона: «Ясно, что при удивительно малом числе единиц – по сравнению с 1010 нервных клеток в человеческом мозге, – перцептрон способен к очень сложной деятельности»[493]. Архитектура перцептрона может варьироваться и принимать различные конфигурации, увеличивая число слоев и функций. Уже по статьям Розенблатта было понятно, что угадывание оптимальной конфигурации вычислительной сети становится самостоятельным ремеслом и частью экспериментальной практики.
Угадать хорошую архитектуру перцептрона – ползадачи; вторая половина заключается в том, чтобы разработать алгоритм обучения и метода исправления ошибок, которые позволят найти оптимальное значение параметров, заданных сетевыми соединениями[494]. Процедура обучения основывалась на предположении, что если задача классификации в принципе решаема (множество изображений можно линейно разделить на две группы), то параметры придут к оптимальным значениям за конечное число шагов. Основным алгоритмом обучения перцептрона служит процедура пошаговой аппроксимации, которая по сути представляет собой автоматизированную версию дифференциального исчисления:
1. Возьмите обучающий набор данных, запустите перцептрон со случайными весами.
2. Вычислите выход перцептрона для входных данных примера из обучающего набора.
3. Если выход перцептрона не соответствует правильному для этого примера выходу:
a. Если на выходе 1, а должно быть 0, уменьшите веса с входом 1.
b. Если на выходе 0, а должно быть 1, увеличьте веса с входом 1.
4. Перейдите к следующему в обучающем наборе примеру и повторяйте шаги 2–4, пока перцептрон не перестанет ошибаться[495].
Современное глубокое обучение использует более совершенные алгоритмы (например, градиентный спуск), но принцип проб и ошибок остается прежним:
– представить нейронной сети изображение;
– проверить правильность вывода;
– если результат неправильный, немного увеличить или уменьшить значение параметров;
– повторять процедуру до тех пор, пока нейронная сеть не вычислит правильный результат.
Необходимо найти самую эффективную процедуру, которая приводит к конечному результату за наименьшее количество шагов. Дизайн алгоритма обучения – еще один уровень абстракции и решения задач, отличный от структуры нейронной сети. С этой точки зрения то, что многие до сих пор называют «искусственным интеллектом», представляет собой лишь метод математической оптимизации. Это все еще случай аппроксимации грубой силой, и логика такой аппроксимации в больших моделях с триллионами параметров стала еще «грубее». Как бы то ни было, показательно, что в основе самых передовых методов «искусственного интеллекта» лежат те же процедуры аппроксимации, что и в основе расчетов со времен Античности (см. главу 1).
Что умел перцептрон Mark 1? С точки зрения распознавания образов – не очень многое. Он мог отличить черный квадрат в левой стороне поля зрения от квадрата в правой стороне и различать простые буквы, если они выровнены по центру визуальной матрицы 20 x 20. Как продемонстрировали Марвин Минский и Сеймур Пейперт в рамках знаменитой критики, способность устройства распознавать образы была примитивной и ограничивалась непрерывными фигурами. Розенблатт и его команда знали об этих ограничениях, но полагали, что архитектуры с бóльшим числом слоев смогут решать более сложные задачи по распознаванию (их правоту в конечном итоге доказало глубокое обучение):
Представляется разумным ожидать, что подобная перцептрону машина с логической глубиной 3 и более (с двумя и более слоями А-блоков, обеспечивающих последовательное возбуждение) окажется мощнее, чем перцептрон[496].
Следует отметить, что уже в 1958 году Розенблатт предвидел появление пространственных ограничений (похожи на фильтры), ставших основой идеи сверточных нейронных сетей, из которой возникло глубокое обучение[497]. В частности, в «Принципах нейродинамики» он упоминал проведенное Дэвидом Хьюбелем и Торстеном Визелем исследование коры головного мозга кошек и сформулированные этими учеными топологические ограничения, которые повлияли на создание нейронной сети «неокогнитрон» Кунихико Фукушимы (1980), архитектуру Яна Лекуна LeNet (1989) и, наконец, AlexNet (2012)[498].
Розенблатт также понимал, что статистические нейронные сети логически ограничены в имитации человеческого интеллекта: «Только лишь статистическая разделимость не дает достаточного основания для более высокого уровня абстракции. Для таких целей требуется некоторая более мощная система, чем перцептрон»[499]. На сегодняшний день из-за отсутствия полной теории статистического обучения искусственные нейронные сети и глубокое обучение остаются на эпистемологической стадии эксперимента. Иными словами, это машины, чьи возможности неизвестны, а ошибки непредсказуемы.
Модели мозга и экспериментальный метод
Простой перцептрон был не первой искусственной, а первой адаптивной нейронной сетью. Это значит, что он умел не только распознавать паттерны, но и обучаться их распознавать (и мог изменять свою конфигурацию, чтобы обучаться иначе). Хотя его достижения примитивны, он считается первым алгоритмом-классификатором. Архитектура нейронной сети тогда была уже известна; чтобы продемонстрировать способность мозговых нейронов к самоорганизации и адаптации, Розенблатт запускал перцептрон со случайными параметрами. Затем согласно алгоритму исправления ошибок ученый корректировал значения параметров и приводил их к оптимальному равновесию с внешними данными, получая таким образом «разум», подобно спонтанному порядку из хаоса.
Ажиотаж вокруг нейронных сетей и теорий самоорганизации (см. главу 6) поначалу вызывал неприязнь и зависть в кругах «искусственной интеллигенции», особенно среди сторонников символического ИИ, которые соревновались за то же финансирование со стороны военных[500]. Чтобы дать ответ критикам, Розенблатт систематизировал результаты своих исследований в объемной монографии «Принципы нейродинамики» (1961). Эта работа мало изучена, но остается лучшим источником по вопросу происхождения искусственных нейронных сетей. Вместе с тем идеальной иллюстрацией исследовательской позиции Розенблатта служит его эссе 1964 года «Аналитические методы изучения нейронных сетей» (Analytic Techniques for the Study of Neural Nets). В этом более позднем тексте Розенблатт, чтобы отстоять экспериментальный характер искусственных нейронных сетей, использовал метод Галилея против метода Аристотеля. Этот второй метод применялся в других исследованиях моделей мозга. Теоретики символического ИИ, например, верили в возможность кодирования правил разума в правила машины напрямую, без экспериментальной проверки:
Две тысячи лет после Аристотеля считалось, что фундаментальные истины природы можно раскрыть с помощью чистого разума и что именно философ, а не экспериментатор, способен разглядеть необходимый порядок природы чистой мощью интеллекта… Но в начале XVII века Галилей написал «Рассуждение о двух новых науках», впервые дав голос учению об экспериментальном методе. Предложив альтернативу аристотелевскому рационализму, Галилей положил этой работой начало эпохе научного роста и открытий в естественных науках, которая еще не закончилась… Полученные результаты могут найти применение в инженерной области, но для достижения целей настоящего времени мы предлагаем работать как первооткрыватели, а не изобретатели; теоретическая работа, которая ведет к научному открытию, сильно отличается от теоретической работы на нужды инженерного синтеза[501].
Претензии Розенблатта на роль «первооткрывателя», а не «изобретателя», можно счесть наивными, но это своего рода защита экспериментального научного метода от «инженерного мышления» многих кибернетиков. Розенблатт исповедовал экспериментальную культуру исследования искусственных нейронных сетей, выступая, в частности, против самодоказывающей логики символического ИИ. Во введении к «Принципам нейродинамики» Розенблатт, по сути, воспроизвел метод «экспериментальной эпистемологии» Мак-Каллока:
Перцептрон является прежде всего и главным образом моделью мозга, а не устройством для распознавания образов. Его использование в качестве модели мозга позволяет определить физические условия образования различных физиологических свойств. Он ни в коей мере не является «полной» моделью, и мы ясно сознаём те упрощения по сравнению с биологическими системами, которые при этом введены; однако принятая модель по крайней мере поддается анализу[502].
Розенблатт стремился объединиться с нейроучеными, размежевавшись с инженерами-компьютерщиками и полагая, что это поможет отстоять предварительную, неполную и незавершенную природу перцептрона как экспериментальной модели. Как и Хайек, Розенблатт утверждал, что модель мозга всегда остается практической реализацией, то есть упрощением и преувеличением некоторых характеристик:
Перцептроны не предназначены служить точной копией какой-либо конкретной нервной системы. Они представляют собой упрощенные сети, созданные для изучения закономерных взаимосвязей между организацией нервной сети, структурой окружающей ее среды и «психологическими» свойствами, которыми может обладать данная сеть. Перцептроны могут соответствовать конкретным частям больших сетей в биологических системах; в этом случае получаемые результаты могут сразу найти непосредственное применение. Чаще всего, однако, они представляют собой предельно упрощенную модель центральной нервной системы. Это приводит к тому, что одни свойства оказываются гипертрофированными, другие – подавленными[503].
Перцептрон представлял собой машину c множеством параметров, которые нужно регулировать ради приближения к результату. Поскольку научное экспериментирование и заключается в тестировании моделей с рядом параметров, нейронная сеть Розенблатта, где их количество можно увеличивать, была экспериментальной моделью par excellence. В символическом ИИ экспериментальное измерение отсутствовало, и алгоритмы исходили из противоположной гипотезы, что неограниченный интеллект может возникнуть из ограниченного набора правил; при этом важнейшей роли практической реализации фактически не уделялось внимания[504]. Числовые параметры перцептронов не выступали представлением мира, как в символическом ИИ, а были относительными и частичными элементами конструкции неизоморфной модели мира. В глубоком обучении и алгоритмических моделях с триллионами параметров (например, GPT), эта черта только усилилась. Несмотря на кажущуюся простоту архитектуры, если добавить несколько слоев и соединений, оперативная мощность нейронной сети вырастет экспоненциально. С точки зрения алгоритмической сложности, то есть если исходить из объема вычислений и использованных ресурсов, статистические нейронные сети, такие как перцептрон, наткнулись на непреодолимое в то время – из-за нехватки вычислительной мощности – препятствие.
От символической логики к векторному пространству
Первый международный симпозиум в новой сфере исследований ИИ, известный под названием «Механизация мыслительных процессов», прошел в ноябре 1958 года в Национальной физической лаборатории в Теддингтоне, Западный Лондон[505]. Хотя это событие сыграло ключевую роль в истории ИИ, его редко изучают; я остановлюсь на выступлении Розенблатта. Ученый стремился прояснить и обосновать математическую интуицию, на которой основывался перцептрон, а именно теорему о статистической разделимости данных в многомерном пространстве. В противовес жесткому вычислительному подходу, которого придерживались другие участники симпозиума, Розенблатт настаивал, что математика перцептрона имеет гораздо больше общего с «математикой физики элементарных частиц», то есть со статистикой, чем с «математикой цифровых вычислительных машин»[506]. В моделировании мозга Розенблатт призывал коллег отказаться от парадигмы цифровых вычислений: «Булева алгебра, или символическая логика, хорошо подходит для изучения полностью поддающихся описанию логических систем, но перестает работать, как только мы пытаемся применить ее к системам, полная информация о которых нам недоступна»[507]. Защищая свой тезис, Розенблатт опирался на авторитет фон Неймана, который скончался за год до конференции. В одной из последних лекций фон Нейман подчеркнул (см. главу 7):
Логика и математика центральной нервной системы… со структурной точки зрения должны существенно отличаться от языков, к которым отсылает наш повседневный опыт… Возможно, когда мы говорим о математике, мы обсуждаем вторичный язык, построенный на первичном, которым в действительности пользуется центральная нервная система. Поэтому внешние формы нашей математики не могут быть полностью релевантными для оценки математического и логического языка, которыми действительно пользуется центральная нервная система…[508]
Фон Нейман утверждал, что «логическая глубина» у мозга меньше, чем у вычислительной машины, которой для имитации простого мыслительного процесса могут потребоваться миллионы последовательных логических шагов (имеется в виду упомянутая проблема комбинаторного взрыва). Вслед за фон Нейманом Розенблатт пришел к выводу, что, «по-видимому, в работе мозга задействован иной вид математики, статистический по природе, поскольку мозг приходит ко многим результатам напрямую, интуитивно, а не аналитически». Из этих отрывков ясно, что Розенблатт намеревался концептуализировать перцептрон не как логическую, а как статистическую машину, стоящую вне парадигмы булевых и двоичных вычислений того времени. Генеалогия перцептрона технологически связана с генеалогией цифрового компьютера, но явно от нее отличается.
В изобретении перцептрона сошлись влияния различных дисциплин – неврологии, психологии, инженерной науки, кибернетики, математики и статистики. Лучшим доказательством этой комбинации служит книга Розенблатта «Принципы нейродинамики». Помимо фон Неймана, Розенблатт упоминает Николаса Рашевского, Мак-Каллока и Питтса, а также Минского за вклад в идею логической нейронной сети; Альберта Аттли – за вероятностную модель распределенной памяти; Уильяма Росса Эшби – за теорию самоорганизации машин; Дональда Хебба и Хайека – за идею самоусиления нервных путей, а гештальт-теоретиков – за концепции холистического восприятия и распределенной памяти[509]. Но почему и как именно перцептрон стал прорывом по отношению к существовавшей традиции? Коротко говоря, как техническая форма перцептрон представлял собой электромеханическую вычислительную сеть, но в его математической форме воплощался новый трюк: настраиваемые параметры были координатами в многомерном векторном пространстве. Такая интуиция имеет отношение не столько к нейрофизиологии, сколько к статистике. Новаторство Розенблатта заключалось в том, что он применил к распознаванию образов статистический метод многомерного анализа (в США доминировал в психологии в 1950‑х годах). Именно этот метод задал логическую форму, лежащую в самом сердце машинного обучения[510].
Таким образом, математический «трюк» распознавания изображений с помощью многомерного анализа реконструируется следующим образом. Каждое цифровое изображение в обучающем наборе данных выступает двумерной матрицей числовых значений, представляющих пиксели. Также каждое изображение можно определить как отдельную точку в многомерном пространстве, координаты которой заданы значениями того или иного пикселя. Например, при разрешении перцептрона Mark I изображение размером 20 x 20 пикселей эквивалентно одной точке в 400‑мерном пространстве. Проекция цифровых изображений в многомерное пространство обнаруживает неожиданные свойства. В частности, близкорасположенные точки в многомерном пространстве обозначают похожие изображения, а удаленные друг от друга точки соответствуют разным изображениям. Кроме того, меняя значения одного измерения, можно упорядочить изображения по градиенту схожести. В таком многомерном пространстве распознавание образов можно выполнить, отделив определенный кластер точек (класс похожих изображений) от всех остальных точек (разные изображения). Если провести затем границу («гиперплоскость» в технических терминах), пространство данных разделится на две области, что позволит выяснить, какие изображения принадлежат к классу, а какие – нет. Разделение пространства данных на две области называется двоичной классификацией (отсюда происходит термин «алгоритм-классификатор»).
Согласно теоремам статистической разделимости Розенблатта, перцептрон способен самостоятельно автоматизировать классификацию и вычислить гиперплоскость, чтобы линейно разделить векторное пространство на две области. Изображения, соответствующие паттерну, которому нужно «обучиться», в одну область попадут, а в другую – нет. Параметры математической функции гиперплоскости определяют веса сетевых связей. Веса перцептрона строят гиперплоскость в гиперпространстве и регулируют ее наклон до тех пор, пока два кластера не будут идеально разделены. В случае простого перцептрона (400 весов между ассоциативными и выходными единицами) гиперплоскость задает линейное уравнение с 400 неизвестными. Значения неизвестных (то есть веса нейронной сети) вычисляются тренировкой алгоритма по приведенной процедуре пошаговой аппроксимации.
С перцептроном связана веха в истории культурных технологий: теперь плоские изображения путем оцифровки переносились в двумерную числовую матрицу, которая затем векторизировалась в виде многомерной статистической матрицы. С помощью этого метода человеческая способность распознавать образы была переведена и тем самым ограничена проблемой математической оптимизации векторного пространства[511]. Влияние метода преобразования вышло далеко за рамки распознавания собственно изображений: многомерная векторизация стала применяться ко всем видам данных и превратилась в эпистемическую форму «разумности», воплощенную в машинном обучении, то есть фактически в форму статистического интеллекта[512]. Антропоморфизированный системами ИИ «интеллект» – это всего лишь трюк с проецированием данных в многомерное пространство для последующей кластеризации, классификации и предсказания. По сути, машинное обучение демонстрирует свойство пространственного и геометрического «интеллекта».
Новые векторы разума
В 1950‑х годах психометрия стала влиятельной областью исследований на кафедрах психологии в американских университетах. Это был редукционистский поворот в изучении психики, поскольку психометристы в основном занимались количественным и статистическим измерением личностных качеств, когнитивных способностей и рабочих навыков. Обычным занятием для многих студентов стало преобразование данных психологических тестов в векторную форму для вычисления различных сходств, ковариаций и закономерностей.
Изучая происхождение перцептрона, исследователь ИИ Джонатан Пенн в 2020 году обнаружил, что уже в докторантуре Розенблатт использовал психометрические методы многомерного анализа для составления личных профилей[513]. В 1953 году Розенблатт попросил двести студентов Корнеллского университета заполнить анкету об их детстве. В полном соответствии с психометрическим кредо «Личности можно объективно классифицировать», каждому вопросу соответствовала числовая шкала ответов[514]. Следуя традиции Альфреда Бине, Льюиса Термана, Чарльза Спирмена и в особенности Луиса Леона Терстоуна, Розенблатт проанализировал результаты с помощью факторного анализа и вычислил сходство между числовыми матрицами каждой анкеты[515]. Таким образом, 25-летний Розенблатт намеревался математически показать существование кластеров похожих ответов, что с точки зрения правоверного психометриста доказывало бы существование различимых типов личностей.
Вероятно, уже дописывая диссертацию, Розенблатт обратил внимание, что числовые матрицы когнитивных тестов идентичны числовым матрицам цифровых изображений, и задумался о применении методов многомерного анализа к распознаванию визуальных образов. Очевидно, что перцептрон Розенблатта вычислял паттерны подобия в числовых изображениях точно так же, как психометристы вычисляют паттерны подобия в числовых матрицах психологических профилей[516]. Перед нами еще один пример того, насколько происхождение ИИ лежит в области экспериментов и неопределенности. Этот пример обнаруживает специфичную и интригующую модальность технологических инноваций, где метрики предвосхищают автоматизацию. По сути, Розенблатт перепрофилировал инструменты количественной оценки когнитивной задачи для ее автоматизации.
В ходе работы над диссертацией у Розенблатта появилась еще одна идея, которая послужила предвестницей перцептрона. Ученый планировал автоматизировать статистический анализ с помощью новой счетной машины – Электронного вычислителя для анализа профилей (Electronic Profile Analyzing Computer, EPAC)[517]. В журнале American Scientist писали:
«Мозг-идиот», электронная вычислительная машина, способный решать только один тип задач, спроектирован и построен 25-летним студентом-психологом Корнеллского университета. Машина помогает изобретателю Фрэнку Розенблатту подготовить данные для диссертации. Задача, на которую у настольной ЭВМ ушло бы 15 минут, решается теперь за две секунды. Розенблатт проверяет гипотезу, что личности можно классифицировать научным и объективным образом[518].
EPAC Розенблатта, предшествовавший перцептрону Mark I, стал первым экспериментом по автоматизации многомерного анализа, которая в психологических лабораториях того времени обычно возлагалась на людей-«вычислителей» (часто женщин). Точно так же, как Бэббидж заменил человека-компьютера счетной машиной, Розенблатт заменил электронным вычислителем специалиста или специалистку по статистике, сформировав машинное обучение в современном виде. Работая над диссертацией, Розенблатт стремился расширить с помощью компьютера возможности психометрии, при этом именно психометрия помогла рассчитать матрицы искусственных нейронных сетей и способствовала созданию новой, теперь уже статистической модели синтетического разума.
Исторически важно, что перцептрон способствовал автоматизации статистических инструментов как раз в те годы, когда они стали преобладающим в США методом в психологии. Институционализацию статистики в 1940–1955 годах изучил и зафиксировал немецкий психолог Герд Гигеренцер. Кроме того, он обратил внимание на еще один важный феномен – превращение инструментов психологического анализа в самостоятельную теорию разума:
Статистики принялись завоевывать новые территории в психологии в 1940‑х годах… К началу 1950‑х половина психологических факультетов в ведущих американских университетах предлагала курсы по методам Фишера и сделала выводные статистические методы обязательными для аспирантов. К 1955 году в более 80 % экспериментальных статей в ведущих журналах использовались выводные статистические методы для обоснования заключений, основанных на данных… По этой причине я называю 1955 год ориентировочной датой институционализации статистики в учебных программах, учебниках и редакционных материалах… В экспериментальной психологии выводные статистические методы стали синонимом научного метода. С их помощью возникла большая часть концепций умственных процессов, запустивших в 1960‑х годах т. н. когнитивную революцию. Теории познания очистились от таких терминов, как реструктуризация и инсайт, и «новый разум» стали представлять с помощью случайных выборок нервных волокон, вычисления вероятностей, анализа дисперсии (ANOVA), установления критериев принятия решений и анализа полезности. После институционализации выводных статистических методов широкий спектр когнитивных процессов – сознательных и бессознательных, элементарных и сложных – подвергся переосмыслению в качестве «интуитивной статистики»[519].
Гигеренцер приводит периодизацию, которая соответствует проникновению статистических методов в исследования искусственных нейронных сетей. Розенблатт получил докторскую степень в 1956 году, а в 1957‑м опубликовал первую статью о перцептроне, так что 1950‑е действительно стали десятилетием, когда был совершен междисциплинарный скачок и статистические инструменты многомерного анализа получили применение в искусственных нейронных сетях и автоматизации распознавания образов. Именно этим путем психометрия вошла в историю ИИ, наделив его статистическим мышлением.
Этому развитию не стоит удивляться, поскольку в начале XX века психологи уже пытались статистически измерить человеческий интеллект. Без сомнений, автоматизацию интеллекта в XX веке подготовило не изучение логики разума, а измерения интеллекта в XIX веке, а также стандартная метрология когнитивных способностей (с помощью головоломок и картинок на распознавание). Историк науки Саймон Шаффер отмечает:
Со времен Просвещения неврология, антропология и физиология нередко полагались на показатели: расход кислорода, частоту пульса, гальваническую активность, френологические карты, церебральную термометрию и, чаще всего, емкость черепа. Все это становилось основными маркерами активности мозга и, следовательно, интеллектуального, социального и морального статуса. Несомненно, инструменты подобных измерений послужили источником неврологической метафоры. Однако этот вид церебральной метрологии обладает более широкой историей, которая не сводится к отношениям между краниометрией с психометрией и более поздними стратегиями тестирования интеллекта[520].
Насколько работу машины можно назвать «разумной», то есть соизмеримой (измеримой по тем же критериям) с человеческим разумом? Тест Тьюринга предлагал выявлять «разумность», сравнивая поведение машин с социальными конвенциями. Кибернетика шла другим путем, постулируя существование у людей и машин общего «механизма» (логического или физиологического). Но задолго до появления кибернетики и компьютерной науки психометрия уже превратила человеческий интеллект в поддающийся количественной оценке (и потенциально вычисляемый) объект. В начале XX века Спирмен, например, предложил измерять «общий интеллект» (g-фактор) статистически как корреляцию между решением несвязанных задач в тесте навыков[521]. Для Спирмена эти корреляции математически демонстрировали, что существует базовая когнитивная способность, которая на языке здравого смысла называется «разумностью»[522]. Анализ Спирмена учитывал два фактора – общий интеллект (g) и конкретный навык (s). Несколько десятилетий спустя Терстоун раскритиковал Спирмена за то, что тот свел интеллект только к двум факторам, и предложил учесть семь признаков, или «первичных умственных способностей»[523]. Гибкость статистических техник воодушевляла: потенциально число их измерений можно было увеличить настолько, чтобы смоделировать самые сложные аспекты разума и мира. В 1935 году Терстоун опубликовал книгу под визионерским названием «Векторы разума». Это доступное введение в многофакторный анализ для студентов еще сильнее сблизило психологию и статистическое мышление[524].
Количественная мера интеллекта, абстрагированная от социальных обстоятельств и лишенная исторического контекста, поддерживала, однако, меритократический общественный строй и способствовала закреплению, среди прочего, сомнительной практики измерения коэффициента интеллекта (IQ). Эти техники были и остаются инструментами для поддержания социальной иерархии и расовой сегрегации, а также для дисциплинирования работников. Следует помнить, что лженауку психометрии основал английский статистик Фрэнсис Гальтон, который, следуя расистским и евгеническим соображениям, стремился продемонстрировать корреляцию между интеллектом и этнической принадлежностью[525]. Вряд ли можно считать случайным, что система математической дискриминации людей разных классов и «рас» впоследствии пригодилась для приравнивания людей к машинам.
G-фактор Спирмена способствовал овеществлению «интеллекта» в качестве нового научного «объекта», поддающегося статистическому измерению. Как уже упоминалось, Гигеренцер отметил аналогичное овеществление исследовательского инструмента в парадигме психологического мышления и назвал это явление «эвристикой “от орудия к теории”»[526]. По его словам, в середине XX века «статистические инструменты» психометрии «превратились в теории разума» в психологии. Совместно с Даниэлем Гольдштейном Гигеренцер описал, как внедрение статистических методов популяризировало вычислительную метафору разума, повысив ее правдоподобность. По их мнению, проверка гипотезы Неймана-Пирсона и дисперсионный анализ Роланда Фишера (ANOVA) помогли закрепить метафору разума в качестве вычислительной машины во второй половине XX века[527].
Примером превращения инструмента исследования в модель сознания также служит перцептрон, имплицитно превративший статистическую технику в модель мозга (и, в конечном счете, коллективного знания). Статистические нейронные сети самой конструкцией подразумевали, что «разум есть интуитивный статистик», и одновременно делали статистику моделью нового искусственного интеллекта[528]. Статистические инструменты с тех пор служат не только моделью «интеллекта» в психологии, но и моделью «искусственного интеллекта» в автоматизации труда. В конечном счете весь статистический взгляд на мир и общество подвергся автоматизации, становясь благодаря ИИ все более нормализованным и естественным.
Взлом векторного пространства
В книге 1969 года «Перцептроны» Марвин Минский и Сеймур Пейперт математически показали, что простой перцептрон Розенблатта не способен распознать определенные паттерны, и поставили под сомнение, что его можно использовать для других задач, которые решаются с помощью интеллектуальных способностей человека[529]. В частности, ученые утверждали, что устройство не способно линейно разделить некоторые изображения, спроецированные в многомерном пространстве. Например, оно не могло отличить связанные фигуры от несвязанных. Расчеты были проиллюстрированы изображениями странных форм, не поддающимися автоматической классификации, а на обложке книги красовались две замысловатые спирали, способные обмануть человеческий глаз (на первый взгляд, они казались одинаковыми, но одна была непрерывной, а вторая состояла из двух элементов). Если использовать термины логики, центральный тезис заключался в том, что перцептрон, состоящий только из двух входных нейронов, может «выучить» логические функции И, ИЛИ и НЕ, но не более сложную функцию XOR (исключающее ИЛИ)[530].
Впервые векторное пространство искусственной нейронной сети «взломали», раскрыв его уязвимость. Выводы Минского и Пейперта оказались верны не только для простейшего класса перцептронов (один слой нейронов). Эти результаты признали справедливыми для всех конфигураций искусственных нейронных сетей. По всей исследовательской области был нанесен разрушительный удар. Началась первая «зима ИИ» (по сути, «зима Массачусетского технологического института», распространившаяся на другие исследовательские сообщества). Минский и Пейперт заняли довольно надменную и непримиримую позицию. Они явно хотели вернуть военное финансирование в МТИ (не самое бедное учреждение) и продемонстрировать, что искусственные нейронные сети – ненастоящий «искусственный интеллект», а истинный путь к нему лежит через другие техники. Но еще в «Принципах нейродинамики», монографии 1961 года, Розенблатт предложил различные конфигурации «многослойных перцептронов», которые позволяли преодолевать ограничения. Теорему сходимости было невозможно доказать, а эффективный алгоритм обучения (например, градиентный спуск) еще оставался неизвестным. Впрочем, уже в 1971‑м, всего через два года после публикации «Перcептронов», было доказано (как отмечает ученый-компьютерщик Ричард Форсайт), что «простой перцептрон Mark I, дополненный расширительным регистратором, можно научить решать задачу “исключающего ИЛИ”». Однако «это не изменило широко распространенное среди ученых-компьютерщиков мнение, что нейровычисления – это “пробовали, не сработало”»[531].
Минский и Пейперт (как и Розенблатт) заметили, что искусственные нейронные сети плохо различают фигуру и фон: при вычислении поля зрения каждая точка имеет одинаковый приоритет, а человеческое зрение работает совершенно иначе. Дело в том, что у искусственных нейронных сетей нет «концепции» фигуры и фона, но есть статистическое распределение корреляций (отношение фигура-фон подразумевает модель причинно-следственной связи). Проблема не исчезла с появлением глубокого обучения: обнаружено, что большие сверточные нейронные сети, такие как AlexNet, GoogleNet и ResNet-50, по-прежнему предпочитают текстуру форме. Вероятно, они различают, например, образы слона и кошки не по форме, а по текстуре кожи и меха соответственно. Смещение в сторону текстуры объясняется тем, что даже сверточные нейронные сети, разработанные специально для детекции краев, особенностей и деталей, по-прежнему вычисляют статистическое распределение всех данных, а не только их «значащих» частей (как, согласно гештальт-школе, делает человеческий разум). Очевидно, эта закономерность еще ярче проявлялась в случае с простым перцептроном Розенблатта, но проблема разрешения при обработке общедоступных знаний, судя по всему, сохраняется в больших фундаментальных моделях, таких как современная GPT[532].
Можно утверждать, что Минский и Пейперт придумали первый состязательный метод для взлома «интеллектуальной машины» и разработали первые «состязательные патчи», как их называют сегодня, – специальные картинки, которые обманывают глубокие нейронные сети для распознавания изображений[533]. Взлом оказался довольно успешным, поскольку он сорвал военное финансирование и заморозил военные исследования нейронных сетей до конца 1980‑х годов. Но помимо вопросов, поставленных на карту в полемике, Минский и Пейперт внесли вклад в критику парадигмы знаний, воплощенной в искусственных нейронных сетях, и вскрыли ограничения многомерного моделирования.
Тем не менее, в сообществе исследователей ИИ, в том числе среди критиков, существует тенденция занимать сторону в споре о «перцептронах», используя воззрения и философские традиции, которые в качестве альтернативы оправдывают либо символический, либо коннекционистский ИИ как более рациональную и прогрессивную парадигму или как ту, что более способна к каузальному мышлению. Лагеря объединяет общая инструменталистская повестка вооруженных сил и их генеалогии власти. Я предлагаю иной подход, а именно изучение и оценку генеалогий ИИ с (экстерналистской) точки зрения автоматизации труда, а не сведение их к (интерналистской) проблеме вычислительной логики, выполнения задач и человеческого подобия. Ни дедуктивные алгоритмы, ни статистические техники не способны имитировать человеческий интеллект, поскольку в нем нет внутренней логики, которую исследователи могли бы обнаружить. Человеческое познание и машинные задачи можно изучать и сравнивать, потому что интеллект, будь то «естественный» или «искусственный», экстравертен, контекстуален и ситуативен по своему устройству. Можно считать, что машины «думают», поскольку они имитируют театр человеческого[534].
При всем противоречивом наследии усвоение статистических инструментов в машинном обучении служит доказательством от противного. Это доказательство демонстрирует, что верховный алгоритм «искусственного общего интеллекта», который остается для огромного сообщества инженеров и ученых-компьютерщиков мечтой о технологической сингулярности и альфа-машине, представляет собой статистическую иллюзию, проецируемую данными. Иными словами, верховный алгоритм существует не как алгоритм, а только как расширенная социальная форма.
Социальное исчисление знания
В 1980‑х годах французский теоретик Поль Вирильо в книге «Машина зрения» (The Vision Machine) переоткрыл малоизвестную в то время историю перцептрона в качестве элемента в спектре промышленных и военных проектов по «автоматизации восприятия». Военное происхождение не должно отвлекать от рассмотрения перцептрона в широкой генеалогии проектов автоматизации труда, социального контроля и экстрактивизма знаний. Наряду с известными кейсами автоматизации ручного и умственного труда перцептрон оказался пионером в автоматизации труда восприятия, или надзора. Речь о том надзоре за машинами (Maschinenarbeit по Марксу), рабочими местами и конвейерами, который обладает четкой дисциплинарной функцией, когда в нем участвует власть – хозяева, охранники и полицейские. Как резюмировал медиа-исследователь Джонатан Беллер, «смотреть – значит трудиться», и так было с давних пор. Однако «смотреть также значит организовывать труд», следовательно, хозяйский глаз все это время не моргал[535]. В прошлом оптические средства, такие как кинематограф и фотография, часто использовались для автоматизации трудового надзора, и эксперименты по распознаванию образов, в частности, перцептрон, вывели уже существовавшие режимы машинного зрения на новый уровень.
Для индустриальной эпохи характерно стремление механизировать ручной труд с помощью станков и паровых машин (см. главу 2), Бэббидж хотел механизировать умственный труд в форме ручных расчетов и манипуляций с символами (расчетов, которые до сих пор остаются в значительной степени «ручной» деятельностью, как указывает их название). В середине XX века центральные ЭВМ расширили автоматизацию умственного труда в виде подсчетов и манипуляций с символами в сфере государственного управления, в крупных компаниях и научных исследованиях. Надзорный труд механизировался иначе. Новизна перцептрона (и алгоритмов распознавания образов в целом) заключается в том, что машина впервые автоматизировала столь высокую умозрительную способность, как распознавание, то есть интерпретация изображения, что не ограничивалось манипуляцией с символами заданного значения. Розенблатт определял перцептрон как машину «интерпретации среды», утверждая, что «концептуализация среды представляет собой первый шаг к творческому мышлению». В этом отношении перцептрон, конечно, можно назвать интерпретационной машиной[536].
На современном техническом жаргоне машинного обучения перцептрон – это классификатор, то есть алгоритм статистического различения изображений и присвоения им класса или категории («метки») в конкретной культурной таксономии. Этот, пожалуй, самый важный аспект классификаторов не имеет ничего общего с их внутренней логикой и относится только к ассоциации выхода с внешней конвенцией, которая устанавливает значение изображения или другого символа в той или иной культуре. Теория гештальта, кибернетика и символический ИИ по-разному пытались выявить внутренние законы восприятия, но ключевая особенность классификатора, такого как перцептрон, заключается в записи внешних правил (социальных конвенций). В конечном счете, искусственная нейронная сеть – это экстравертная машина (машина, спроецированная вовне), потому что интерпретация паттерна всегда больше зависит от опыта и внешних социальных факторов, чем от внутренних физиологических контуров.
Алгоритм классификации, реализованный, например, в перцептроне, автоматизирует рассуждения, понимаемые не как способность к символической манипуляции, а скорее как ситуативное знание, которое входит в культурное наследие того или иного контекста. Акт распознавания или классификации паттернов – особый вид умственного труда, глубоко социальный акт, который мобилизует неявные и явные ноу-хау, научные и традиционные таксономии, народные и технические грамматики, то есть создание знаний как исторический и зачастую противоречивый процесс. Хотя промышленную задачу машинного надзора можно строго кодифицировать, распознавание образов «в дикой природе» остается открытой интерпретацией, а не жесткой процедурой, основанной на правилах. По этим причинам машина, предназначенная для автоматизации эпистемологического беспорядка (см. проект беспилотных автомобилей), во все времена сталкивается с большими трудностями. Недавние дебаты о гендерной, классовой и расовой предвзятости систем машинного обучения для распознавания лиц напоминают о том, что семиотики, философы языка и историки искусства знали всегда. Интерпретация изображений – действие, имеющее неразрешимые политические последствия. В связи с этим критические исследователи ИИ Майкл Кастель и Тайлер Рейгелут предложили сравнивать машинное обучение с теорией советского психолога Льва Выготского об обучении как социальном процессе[537]. Семиотическая структура классификатора (машины имитации) подтверждает то, что заявлял Выготский: в интеллекте нет доступной для обнаружения внутренней логики, поскольку по своему устройству он представляет собой социальный процесс.
Подведем итоги. Эксперимент Розенблатта по автоматизации распознавания образов с помощью небольшой 400‑мерной матрицы привел к разработке сверточных нейронных сетей в 1980‑х годах, развитию глубокого обучения в 2010‑х и, наконец, алгоритмическому моделированию обширных запасов спонтанных знаний, массовой коммуникации и культурного наследия. Перцептрон был экспериментом по распознаванию визуальных образов, который впоследствии расширился на невизуальные данные и приобрел масштаб нового «распознавания паттернов» в наборах данных культурного, социального и научного характера. В эпоху глубокого обучения архитектура многослойного перцептрона служит моделью не биологического мозга, а коллективного разума, и выражает его базовую онтологию, сформированную психометрией. Благодаря перцептрону Розенблатта искусственные нейронные сети унаследовали методы многомерного анализа психометрии и статистики, и это можно назвать, пожалуй, самым важным событием в истории ИИ. Стало возможным не только распознавание образов, но и вычисление данных гораздо большей размерности – полвека спустя, в эпоху «больших данных» (big data) эта функция стала ключевой. Как известно, этот неудачный термин относится к данным, которые не только огромны по размеру, но и типологически разнообразны – в статистике такое разнообразие представляют «измерения». В настоящее время Google, Amazon, Facebook[538] и Twitter собирают данные, которые определяют многомерное множество параметров о пользователях – местоположение, возраст, пол, национальность, язык, образование, работа, количество контактов, а также политические взгляды, культурные интересы и т. п. Разнообразие социальных измерений, анализируемых платформенными компаниями, поистине головокружительно и превосходит воображение любого профессионального статистика. Таким образом, подъем алгоритмов машинного обучения служит ответом на взрыв размерности социальных данных, а не только на проблему информационной перегрузки.
За последнее десятилетие машинное обучение превратилось в обширное алгоритмическое моделирование коллективных знаний, «социальное исчисление», цель которого заключается в кодировании индивидуального поведения, общественной жизни и культурного наследия в форме колоссальных архитектур статистических корреляций[539]. Это помогло установить монополистический режим экстрактивизма знаний в глобальном масштабе и навязать новые методы автоматизации труда и управления. Подобно лишь немногим артефактам нашей эпохи, ИИ служит примером уникальной концентрации власти в виде знания.