Далее. Имеются определенные виды задач, простых для людей, но традиционно чрезвычайно сложных для машин. Стандарт – это визуальная идентификация: что это за объект? Люди могут распознать и дать простое описание, но компьютер здесь просто безнадежен. Однако пару лет назад мы разработали небольшую систему идентификации изображений, и многие другие поступили так же (похвастаюсь: наша программа оказалась чуть лучше остальных). Вы показываете машине изображение, и, как говорится, зуб даю, что она почти наверняка его опознает. Любопытно было бы показать ей абстрактную картину и оценить ее реакцию, к слову. Но в целом опыт следует признать успешным.
Мы используем ту же технологию нейронных сетей, которую Маккаллок и Питтс описывали в 1943 году и с которой многие из нас работали в начале 1980-х. В 1980-х годах люди успешно реализовали оптическое распознавание символов. Взяли двадцать шесть букв алфавита[232] и сказали: «Так, вот это A? Это B? Это C?» и т. д. Подобное можно проделать для двадцати шести переменных, но этого нельзя сделать для десяти тысяч переменных. Все упиралось в масштабирование системы, которое сулило замечательные перспективы. В английском языке существует, допустим, пять тысяч «наглядных» нарицательных существ, даже десять тысяч, если добавить сюда названия особых видов растений и жуков (ведь кто-то же их узнает с первого взгляда). Мы заложили в нашу систему 30 миллионов изображений. В итоге получилась большая, сложная и запутанная нейронная сеть. Детали, полагаю, не имеют значения, скажу только, что для обучения потребовалось приблизительно четыре квадриллиона процессорных операций.
Наша система изумляет, поскольку она в значительной степени соответствует человеческим навыкам. У нее примерно те же «обучательные» данные – примерно такое же количество изображений, какое человеческий младенец видит в первую пару лет своей жизни. Примерно такое же количество операций нужно выполнить в процессе обучения, используя примерно одинаковое количество нейронов, по крайней мере на первых уровнях нашей зрительной коры. Отличия в следующем: принципы работы искусственных нейронов имеют мало общего с принципами работы нейронов человеческого мозга. Но концепции схожи, и, безусловно, обнаруживается даже некая универсальность. Математически это составление очень большого количества функций с определенными свойствами непрерывности, позволяющее использовать методы исчисления для инкрементного обучения системы. При таких свойствах возможно в конечном счете делать все то, что делает человеческий мозг в процессе физиологического распознавания образов.
Но разве это ИИ? Давайте призадумаемся. У нас есть физиологическое распознавание образов, есть перевод голоса в текст, есть перевод с языка на язык – люди справляются с перечисленными задачами лучше или хуже, но справляются. Таковы, между прочим, наметки создания машин, похожих на людей в своих действиях. Лично мне любопытно внедрение указанных возможностей в строгий символический язык для репрезентации повседневного мира. Теперь у нас есть система, которая может сказать: «Это стакан воды». Мы переходим от изображения стакана воды к понятию стакана воды. Теперь настала пора изобрести некий реальный символический язык для репрезентации этих понятий.
Я начал с попытки представить математические, технические виды знаний, а затем взялся за другие виды знания. Мы проделали довольно хорошую работу по представлению объективных знаний в мире. Теперь проблема заключалась в том, чтобы репрезентировать повседневный человеческий дискурс в строгой символической форме – на языке знаний, предназначенном для общения между людьми и машинами, чтобы и люди, и машины могли его понимать. Например, вы можете сказать: «Х больше 5». Это предикат. Также можно сказать: «Я хочу кусочек шоколада». Это тоже предикат. В нем присутствуют слова «Я хочу». Мы должны найти строгое символическое представление желаний, которые выражаются на естественном, человеческом языке.
В конце 1600-х годов Готфрид Лейбниц, Джон Уилкинс и другие мыслители заинтересовались, как они сами это называли, философскими языками, то есть полным, универсальным и символическим представлением знаний о мире[233]. Вот, к примеру, философский язык Джона Уилкинса, отражающий значимые для того времени концепции мироздания. Некоторые стороны человеческого бытия остались неизменными с 1600-х годов, некоторые радикально изменились. В языке Уилкинса много внимания уделяется смерти и различным формам человеческих страданий; в современной онтологии об этом размышляют намного меньше. Любопытно проследить, в чем современный философский язык отличается от философского языка середины 1600-х годов. Это мера нашего прогресса. Такие попытки формализации предпринимались неоднократно на протяжении человеческой истории. В математике, например, имеется фундаментальный труд Уайтхеда и Рассела «Principia Mathematica» (1910). До них к той же задаче подступались Готлоб Фреге и Джузеппе Пеано[234], но масштаб начинаний несопоставим. В конечном счете они ошибались в том, что именно, по их мнению, следовало формализовать: они считали, что нужно формализовывать некие процедуры математического доказательства, но выяснилось, что большинству людей это нисколько не интересно.
Применительно к современному аналогу теста Тьюринга возникает занятный вопрос. По-прежнему витает идея разговорного бота, о котором помышлял Тьюринг. Пока такой бот не реализован на практике, но непременно появится; вот только хотелось бы знать – для чего? Признаться, я привык спрашивать: «Зачем нам это нужно?», поскольку мне всегда казалось, что в данном случае в выигрыше окажется разве что сфера клиентского обслуживания, а последнюю я, увы, ценю не слишком высоко. Но служба поддержки клиентов, с которой вы пытаетесь взаимодействовать, как раз и является идеальной средой для внедрения разговорного языка.
Существенное различие между эпохой Тьюринга и нашим временем состоит в способе общения с компьютерами. Ранее вы печатали запрос, а машина печатала ответ. Сегодня она выводит информирующие экраны – например, когда вы хотите купить билет в кино. Чем взаимодействие с машиной отличается от взаимодействия с человеком? Прежде всего наличием визуального дисплея. Машина что-то спрашивает, вы нажимаете кнопку – и сразу видите результат. Скажем, пусть система WolframAlpha установлена внутри Сири; при наличии короткого ответа Сири даст вам этот короткий ответ. Но большинство людей тяготеет к визуализации, к инфографике и т. п. Это нечеловеческая форма общения, которая оказывается богаче традиционной устной или печатной человеческой коммуникации. Во взаимодействии человека с человеком мы обыкновенно больше полагаемся на речь, но в общении человека с компьютером располагаем гораздо более широкой полосой пропускания – визуальным каналом.
Многие из очевидных вариантов теста Тьюринга отпадают с появлением этого дополнительного канала связи. Например, вот задача, над которой мы работаем сейчас. Наш бот ведет беседу о составлении программ. Вы говорите: «Я хочу написать программу. Хочу, чтобы она делала то-то и то-то». Бот отвечает: «Программа написана. Она делает то-то. Это то, что вам нужно?» И т. д. Несколько неожиданный бот, верно? Проектирование таких систем – увлекательная задача, поскольку им приходится моделировать человека, когда они пытаются что-то вам объяснить. Они должны знать, что приводит человека в замешательство.
Мне долго было трудно понять, в чем смысл обычного теста Тьюринга. Какая тут скрыта мотивация? Ну да, для развлечения можно создать простенький чат-бот, с которым люди могли бы общаться. Это следующий шаг. Нынешний этап глубинного обучения, особенно в рекуррентных нейронных сетях, позволяет достаточно удачно моделировать человеческие речь и письмо. Мы можем напечатать, скажем, «Как самочувствие?» – и большую часть времени машина ответит нам осознанно. Но я хочу выяснить, возможно ли автоматизировать ответы на электронные письма. Мне известно, что ответом будет «Нет». Для меня хорошим вариантом теста Тьюринга будет умение бота отвечать на значительную часть писем. Это непростая задача. Ведь ответы нужно узнавать у людей, которые направляли письма мне. Быть может, я слегка забегаю вперед, потому что собираю данные о себе вот уже двадцать пять лет. У меня хранятся все электронные письма за двадцать пять лет, и каждое нажатие клавиши зафиксировано в промежутке двадцати лет. В общем, я, наверное, смогу обучить аватару ИИ, который станет отвечать на почту за меня – не исключено, что лучше, чем я сам.
Люди беспокоятся о том, что ИИ восторжествует над человеком. Думаю, намного раньше произойдет кое-что весьма забавное, в некотором смысле. ИИ научится угадывать наши намерения и преуспеет в прогнозировании. Я сообщаю навигатору в своей машине, куда хочу поехать. При этом я понятия не имею, где нахожусь, и слепо полагаюсь на GPS. Мои дети любят вспоминать, как однажды – это была одна из первых версий GPS, которая лишь командовала «Поверни сюда, поверни туда», – мы очутились на одном из пирсов Бостонской гавани.
Еще важнее то, что ИИ будет знать вашу историю, будет «понимать», что, заказывая ужин по интернету, вы, вероятно, захотите того-то и того-то, а когда пишете электронное письмо какому-то человеку, вы собираетесь обсудить с ним такие-то темы. Все чаще и чаще ИИ станет предлагать, что именно мы должны делать, и подозреваю, что большинство людей будут соглашаться. Советы же хороши, всяко лучше тех, какие дали бы мы сами.
Что касается сценария с мировым господством ИИ, технология позволяет творить жуткие злодеяния – и действовать ради всеобщего блага. Отдельные люди наверняка попытаются применить технологии во зло, а другие постараются использовать их во благо. В современных технологиях мне нравится то уравнивание, которое они обеспечили. Раньше я гордился тем, что у меня компьютер лучше, чем у всех моих знакомых, а теперь у нас одинаковые компьютеры. У нас одни и те же смартфоны, плюс аналогичные технологии может использовать значительная часть из семи миллиардов человек на планете. Уже нет такого, что королевская технология сильно превосходит прочие. Это важный шаг вперед.