Появление быстродействующей компьютерной техники привело к ряду радикальных изменений в конце 1990-х годов. В мае 1997 года компьютер Deep Blue компании IBM с небольшим перевесом победил чемпиона мира по шахматам Гарри Каспарова в турнире из шести игр. Хотя такое событие назвали триумфом искусственного интеллекта, в действительности это был, по сути, ловкий трюк, проделанный благодаря высокой скорости вычислений. Специализированные алгоритмы, исполняемые компьютером Deep Mind размером с холодильник, были способны заглядывать далеко вперед, быстро перебирая множество возможных ходов, что было не под силу даже самому гениальному человеческому разуму.
IBM снова добилась триумфа в 2011 году с появлением Watson, машины, легко победившей самых сильных в мире игроков в телеигре Jeopardy!. Во многих отношениях это было намного более впечатляющее достижение, потому что для него потребовалось понимание естественного языка, включающее даже способность распознавать шутки и каламбуры. В отличие от Deep Blue система Watson обладала способностью выходить за пределы игровой доски с жестко определенными правилами и работать с, казалось бы, безграничным массивом информации. Watson выиграла в Jeopardy! одновременно задействуя массу умных алгоритмов, которые в поисках верного ответа прочесывали наборы данных, зачастую почерпнутых из статей в «Википедии».
Watson возвестила о наступлении новой эпохи и стала предтечей машин, которые впоследствии начали анализировать язык и по-настоящему общаться с людьми, но в 2011 году произошло и кардинальное изменение базовой технологии искусственного интеллекта. Если Watson опиралась на алгоритмы машинного обучения, осмысляющие информацию с использованием методов статистики, то в следующие несколько лет другой тип машинного обучения, непосредственно восходящий к перцептрону, задуманному Фрэнком Розенблаттом более чем за полстолетия до этого, снова вышел на первый план и затем быстро стал господствующим в области искусственного интеллекта.
Коннекционистский и символический ии и развитие глубокого обучения
На протяжении десятилетий разработка искусственного интеллекта переживала взлеты и падения, но в общем в центре внимания исследователей попеременно оказывались два противоположных подхода к разработке умных машин. Одна школа сформировалась на основе работы Розенблатта по нейронным сетям в 1950-х годах. Его последователи считали, что интеллектуальную систему необходимо строить по образцу базовой архитектуры головного мозга и что она должна использовать глубоко соединенные компоненты, напоминающие биологические нейроны. Согласно этому подходу, получившему название «коннекционизм», способность к обучению — главное свойство интеллекта, поэтому если заставить машину эффективно учиться на предлагаемых ей данных, то у нее постепенно могут развиться и другие возможности человеческого мозга. В конце концов, имелось убедительное свидетельство эффективности этой модели — головной мозг человека, представляющий собой, как было известно, непостижимо сложную систему взаимосвязанных биологических нейронов.
К противоборствующему лагерю относились исследователи, избравшие «символический» подход, делающий акцент на применении логики и рационального мышления. С точки зрения символистов, обучение не столь важно, а суть интеллектуальности — это способность использовать знание посредством мышления, принятия решений и действия. Вместо разработки алгоритмов, способных учиться самостоятельно, символисты вручную вводили информацию в создаваемые ими системы. Из этой деятельности выросла такая область компьютерных наук, как инженерия знаний.
Практически все первые образцы применения искусственного интеллекта опирались на символический ИИ. Так, специалисты по инженерии знаний совместно с врачами создали системы для диагностирования болезней с помощью алгоритмов с использованием дерева решений. Результаты применения подобных медицинских экспертных систем были неоднозначными, а сами они негибкими и ненадежными. Однако во многих других сферах, например в автопилотах для реактивных самолетов, наработки, связанные с экспертными системами, постепенно стали обычной частью программного обеспечения и перестали именоваться «искусственный интеллект».
Коннекционизм восходит к исследованию, целью которого было понимание принципов работы человеческого мозга. В 1940-х годах Уоррен Маккаллок и Уолтер Питтс предложили идею искусственной нейронной сети как своего рода вычислительного аналога биологических нейронов в мозге[125]. Фрэнк Розенблатт, получивший психологическое образование и читавший лекции на психологическом факультете Корнеллского университета, впоследствии включил эти идеи в свою концепцию перцептрона.
Перцептрон был способен к рудиментарному распознаванию образов, например печатных символов, воспринимаемых через прикрепленную к устройству камеру. Изобретатель и писатель Рэй Курцвейл, в настоящее время технический директор Google, познакомился с Розенблаттом в его лаборатории в Корнелле в 1962 году. Курцвейл рассказывал мне, что приносил в лабораторию образцы текста для проверки на перцептроне и что машина работала идеально, если символы были четко напечатаны нужным шрифтом. Розенблатт поделился с юным Курцвейлом, готовившимся к поступлению в МТИ, своей уверенностью в том, что результаты будут значительно лучше, если связать перцептроны в многоуровневый каскад так, чтобы выходной сигнал одного уровня становился входным для следующего[126]. Однако Розенблатт погиб при кораблекрушении в 1971 году и не успел создать многоуровневую структуру.
К концу 1960-х годов первоначальный энтузиазм в отношении искусственных нейронных сетей стал угасать. Одной из главных причин утраты интереса к ним стал выход в свет в 1969 году книги «Перцептроны», одним из авторов которой был Марвин Мински. По иронии судьбы Мински, глубоко убежденный в блестящем будущем искусственного интеллекта, в целом с большим пессимизмом относился к данному подходу, которому суждено было обеспечить беспрецедентный прогресс. В книге Мински и его соавтор Сеймур Пейперт привели формальные математические доказательства ограничений нейронных сетей и высказали предположение, что эта технология окажется неспособной решать комплексные практические задачи[127].
Когда ученые-компьютерщики и аспиранты стали отказываться от работ с нейронными сетями, возобладал подход на основе символического ИИ — сейчас его часто называют классическим ИИ. Нейронные сети пережили краткий период возрождения в 1980-х годах, повторившийся в 1990-х, но на протяжении десятилетий господствовала символическая школа, как бы ни менялся интерес к искусственному интеллекту в целом. Коннективистов же преследовали пугающе суровые и затяжные зимы ИИ, не слабевшие даже в те моменты, когда символический ИИ вступал в пору весеннего цветения.
Особенно тяжелая ситуация сложилась в 1970-х и в начале 1980-х годов. Ян Лекун, считающийся одним из главных идеологов глубокого обучения, сказал мне, что в тот период исследование нейронных сетей было «не просто в загоне»: «Статью, в которой хотя бы упоминались „нейронные сети“, сразу же заворачивали»[128]. Тем не менее некоторые исследователи сохраняли верность коннективизму. Многие из них имели базовое образование не в области компьютерных наук, а психологии или когнитивистики и хотели создать математическую модель работы мозга. В начале 1980-х годов Дэвид Румельхарт, профессор психологии из Калифорнийского университета в Сан-Диего, создал метод так называемого обратного распространения, остающийся основным алгоритмом обучения в сегодняшних многослойных нейронных сетях. Румельхарт, Рональд Уильямс, ученый в области компьютерных наук из Северо-Восточного университета, и Джеффри Хинтон, в то время работавший в Университете Карнеги — Меллона, описали возможное использование этого алгоритма в статье, опубликованной в журнале Nature в 1986 году, — теперь она считается одной из самых важных научных работ об искусственном интеллекте[129]. Алгоритм обратного распространения стал фундаментальным концептуальным прорывом, в конечном счете обеспечившим господство глубокого обучения в области ИИ, но потребовались десятилетия, прежде чем компьютеры стали достаточно мощными для полноценного использования этого подхода. Джеффри Хинтон, в 1981 году молодой исследователь, работавший с Румельхартом в Калифорнийском университете в Сан-Диего[130], впоследствии стал, пожалуй, самой видной фигурой в революции глубокого обучения.
К концу 1980-х годов начали появляться примеры практического применения нейронных сетей. Ян Лекун, в то время исследователь в Bell Labs компании AT&T, использовал алгоритм обратного распространения в новой архитектуре, так называемой сверточной нейронной сети. В сверточных сетях искусственные нейроны соединены по образцу зрительной коры головного мозга млекопитающих, и эти сети предназначались в первую очередь для распознавания визуальных образов. Система Лекуна могла распознавать рукописные символы, и к концу 1990-х годов благодаря сверточным нейронным сетям машины AT&T научились понимать цифры, написанные на банковских чеках.
Двухтысячные годы стали эпохой расцвета «больших данных». Фирмы и государственные структуры получили возможность собирать и анализировать информацию в масштабах еще недавно немыслимых, и стало очевидно, что общий объем данных, генерируемых в мире, продолжит расти в геометрической прогрессии. Этот поток данных в сочетании с новейшими алгоритмами машинного обучения открыл путь для революции в области искусственного интеллекта.
Один из самых значимых массивов данных появился благодаря усилиям молодого профессора компьютерных наук из Принстонского университета. Фей-Фей Ли, работавшая над компьютерным зрением, поняла: чтобы машины смогли ориентироваться в реальном мире, нужен всеобъемлющий комплекс обучающих материалов, включающий правильно классифицированные образцы вариантов внешнего вида людей, животных, зданий, транспортных средств, предметов — практически всего, что нас окружает. За два с половиной года она классифицировала больше 3 млн изображений из 5000 с лишним категорий. Эту работу пришлось выполнить вручную; только человек мог установить верную связь между фотографией и описанием. Поскольку нанять хотя бы магистрантов для выполнения этой огромной работы было непозволительно дорого, команда Ли обратилась к Mechanical Turk, только что созданной Amazon платформе краудсорсинга для задач в области информации, которая нашла дистанционных исполнителей в основном в странах с низким уровнем оплаты труда