Чтобы переводить с одного языка на другой, переводчик улавливает определенные закономерности, последовательные зависимости. Стандартные нейронные сети различают шаблоны ассоциаций между входом и выходом – например, какими наборами химических свойств обычно обладают антибиотики. Но они не могут так же просто улавливать последовательные зависимости – такие, например, как вероятность появления того или иного слова в предложении с учетом предыдущих слов. Если предложение начинается со слов «пойду выгуливать», следующим словом будет скорее «собаку», чем «кошку» или «самолет». Чтобы обучить ИИ таким последовательным зависимостям, исследователи разработали сети, использующие в качестве входных данных пары «текст – перевод». Это позволяет ИИ определять следующее слово на основе последовательных зависимостей на языках, между которыми осуществляется перевод. Наиболее мощные из этих сетей – так называемые трансформеры, которым не требуется обрабатывать последовательности по порядку. Например, Google BERT – двунаправленный трансформер, предназначенный для улучшения поиска.
Кроме того, разработчики систем перевода с иностранных языков использовали так называемые параллельные корпусы. Это было значительным достижением по сравнению с традиционным контролируемым обучением, требующим конкретных соответствий между входными и выходными данными. При традиционном подходе разработчики обучали ИИ, используя тексты с уже существующими переводами, поскольку в таких парах был необходимый уровень детального соответствия между языками. Но такой подход значительно ограничивал объем обучающих данных, а также типы доступных текстов – ведь если официальные тексты правительств или литературные труды переводятся на другие языки достаточно часто, то огромные массивы текстов из СМИ, соцсетей, с веб-сайтов и т. п., как правило, остаются непереведенными.
Вместо того чтобы ограничивать ИИ обучением на предварительно переведенных текстах, разработчики использовали статьи и другие тексты на разных языках по одной и той же теме, не являющиеся прямым переводом друг друга. Эти похожие, но непереведенные тексты и есть параллельные корпусы. Такой процесс обучения сродни переходу от изучения языков на специализированных курсах к обучению методом погружения. При этом происходит менее точное обучение, зато значительно увеличивается объем доступных данных. В параллельные корпусы включают новостные статьи, напечатанные в газетах на разных языках, рассказы о знаменитостях, рецензии на книги и фильмы, истории путешествий – одним словом, практически любые официальные или неофициальные публикации на темы, широко освещаемые во всем мире. Успех этого подхода привел к более широкому использованию частично контролируемого обучения, при котором используется весьма приблизительная или частичная информация.
Когда система Google Translate стала использовать глубокие нейронные сети, обученные на параллельных корпусах, ее производительность повысилась на 60 % – и продолжает расти.
Речь пока не идет о параллельном переводе устной речи – до робота C-3PO или вавилонской рыбки[28] нам еще далеко. Но радикальное развитие письменного перевода обещает изменить бизнес, дипломатию, СМИ, науку и другие сферы, поскольку люди будут общаться на чужих языках легче, быстрее и с меньшими затратами, чем когда-либо прежде.
ИИ, о которых мы рассказывали до сих пор, умели находить решения: победу в шахматной партии, искомое лекарство, осмысленный перевод с иностранного языка. Отдельная область – создание новых текстов, изображений, звуков и т. п. На это способна другая технология – генеративные нейронные сети. Сначала они обучаются на основе существующих текстов или изображений, а затем создают новые тексты или изображения – искусственные, но реалистичные. Если стандартная нейронная сеть может распознать изображение человеческого лица, то генеративная сеть может создать подобное изображение, которое будет выглядеть как реальное. Это концептуально новая технология.
Перспективы применения генеративных нейронных сетей поражают воображение. Настроив такую сеть на создание программного кода или оригинальных текстов, автор может задать общую структуру, которую генеративная нейросеть заполнит деталями. Можно будет поручать таким нейросетям создавать, например, финальные тексты, рекламные ролики и фильмы на основе исходных материалов. Серьезная опасность кроется в возможности создания так называемых цифровых фабрикаций (deep fake) – неотличимых от реальности изображений людей, которые делают или говорят то, что реальные люди никогда не делали и не говорили. В перспективе генеративные нейросети могут значительно обогатить наше информационное пространство, но, если не контролировать эту деятельность, она может существенно размыть границу между реальностью и вымыслом.
Распространенный алгоритм обучения таких моделей – генеративно-состязательные сети (generative adversarial network, GAN). В них генеративная модель, которая генерирует образцы, соревнуется с дискриминаторной моделью, которая борется с созданием некачественных вариантов. Представьте, например, что генератору поручено проводить мозговые штурмы, а дискриминатору – оценить, какие из проведенных мозговых штурмов оказались полезны и результативны. Генеративная и дискриминаторная модели обучаются попеременно: сначала генеративная модель тренирует дискриминаторную, затем наоборот.
Обучение GAN может быть довольно сложным, оно выполняется на огромных объемах данных и часто дает плохие результаты, но ИИ, созданные с их помощью, могут решать замечательные задачи. ИИ, обученные с помощью GAN, могут дописывать начатые предложения (например, при составлении электронных писем) или дополнять запросы для поисковых систем. В перспективе такие ИИ, возможно, научатся завершать недописанные программы.
Одним из наиболее примечательных генеративных ИИ является GPT-3, упомянутый в главе 1 (другие генеративные модели могут создавать неотличимые от реальности изображения или видео). GPT-3 расширяет подход, который оказался таким удачным в машинном переводе. Взяв несколько слов, GPT-3 обнаруживает закономерности в идущих друг за другом элементах текста, после чего предсказывает и генерирует последующие элементы. Несколько слов GPT-3 может экстраполировать в предложение, а предложение – в абзац.
Обученные на массивах данных, взятых в основном из интернета, трансформирующие ИИ также могут преобразовывать текст в изображения и наоборот, расширять или сокращать описания и т. д. Иногда продукция GPT-3 и аналогичных ИИ кажется высокоинтеллектуальной, иногда – глупой или совершенно непонятной. Но в перспективе такие системы могут изменить многие области, включая творческие. Поэтому они вызывают большой интерес исследователей и разработчиков, изучающих их сильные стороны, ограничения и возможности применения.
Машинное обучение не просто расширило возможности применения ИИ – оно произвело революцию даже в тех областях, в которых люди ранее успешно обходились без ИИ. Именно методы машинного обучения позволили открыть совершенно новые шахматные стратегии. Разумеется, способность ИИ к открытиям не ограничивается играми. Как уже упоминалось, компания DeepMind создала ИИ, который понизил энергозатраты дата-центров Google на 40 % после того, как они уже были оптимизированы отличными инженерами-людьми. Это означает, что такие ИИ не просто выполняют тест Тьюринга, показывая продуктивность, неотличимую от человеческой, – они выходят за его рамки, превосходя человеческую производительность и раздвигая границы нашего понимания. Такие достижения означают, что ИИ и дальше будет учиться решать новые задачи и спектр его применения будет расти – возможно, он действительно будет писать оригинальные тексты и разрабатывать программные коды.
Разумеется, чем мощнее становится технология и чем больше она распространяется, тем чаще ее преимущества сопровождаются проблемами. Наглядный пример – персонализация поиска. В главе 1 мы описали, чем отличается интернет-поиск, управляемый ИИ, от обычного интернет-поиска – первый может ограничить поле зрения пользователя предложениями только дизайнерской одежды, в то время как второй познакомит его с полным ассортиментом, доступным для приобретения в интернете. Поисковая система подстраивается под конкретного пользователя двумя способами: 1) получив запрос вроде «чем заняться в Нью-Йорке», ИИ может генерировать идеи, такие как «прогулка по Центральному парку» или «посещение бродвейских шоу»; 2) ИИ может запоминать как историю запросов, так и ответные идеи. Со временем он будет конкретизировать эти идеи, делая их (теоретически) все более полезными для пользователей. Онлайн-кинотеатры выполняют подобную задачу, используя ИИ, чтобы сделать телевизионные шоу и фильмы более подходящими для зрителей, которые хотели бы смотреть, например, более позитивные фильмы. Это путь к расширению возможностей. Такой ИИ будет прятать от детей взрослый контент и сможет рекомендовать им программы, соответствующие их возрасту и вкусам. Такой ИИ будет беречь всех зрителей от жесткого контента или слишком откровенных фильмов или историй, оскорбляющих чувства, – в зависимости от того, какие выводы о предпочтениях пользователей сделают алгоритмы, анализируя их предшествующие действия. По мере того как ИИ будет изучать аудиторию, он будет добиваться все более положительных результатов – например, онлайн-кинотеатры будут с большей вероятностью рекомендовать своим подписчикам именно те фильмы и сериалы, которые их заинтересуют, а не те, которые их оскорбят или смутят.
То, что такая фильтрация может помочь, нам всем уже знакомо на практике. Находясь в другой стране, мы можем нанять гида, который покажет нам те исторические места или достопримечательности, которые в большей степени соответствуют нашей религии, национальности или профессии. Это может превратиться в своего рода цензуру – ведь такой экскурсовод, вероятно, будет избегать трущоб или районов с высоким уровнем преступности. В авторитарных странах гиды могут показывать туристам только то, что разрешено правящим режимом. Что же касается киберпространства, то в нем такая фильтрация возникает и развивается сама по себе. Как только алгоритмы, персонализирующие поиск, начинают отбирать для нас новости, книги и другие источники информации, они неизбежно начинают педалировать одни темы и скрывать другие. В результате будут расти изоляция пользователей друг от друга и разногласия между ними. Реальность одного пользователя будет отличаться от реальности другого, реальность которого будет совсем непохожа на реальность третьего, – этот парадокс мы рассмотрим более детально в главе 6.