Я работала в области, которая затем превратилась в computational science[21], а позже стала заниматься теоретической информатикой. Когда пришло время выбирать тему диссертации, Алан Кей предложил написать программу, которая будет читать детскую историю и пересказывать ее от лица одного из персонажей. Именно это вызвало у меня интерес к обработке естественного языка и привело в сферу ИИ.
М. Ф.: Алан Кей? Человек, который, работая в научно-исследовательском центре Xerox PARC, изобрел графический интерфейс пользователя? Именно его идеи Стив Джобс использовал при разработке компьютеров Macintosh.
Б. Г.: Да, верно, Алан был ключевым игроком в работе над Xerox PARC. На самом деле я работала с ним над созданием объектно-ориентированного языка программирования Smalltalk. Целью было создание системы, подходящей для обучения в детских садах и школах. Моя детская сказочная программа должна была быть написана на Smalltalk. Однако до того, как система Smalltalk была закончена, я поняла, что детские истории – это не просто истории, которые нужно читать и понимать. Они призваны прививать культуру, и задачу Алана мне будет очень тяжело выполнить.
В то время первая группа систем понимания речи также разрабатывалась в рамках проектов DARPA (Управления перспективных исследовательских проектов Министерства обороны США), и сотрудники SRI International, работающие над одной из них, сказали мне: “Если вы готовы рискнуть, работая над детскими историями, почему бы вам не поработать с нами над более предметным языком, направленным на диалог, но использующим речь, а не текст”. В результате я включилась в работу над системами, которые помогали людям в выполнении задач, и именно тогда начала проводить исследования в области искусственного интеллекта. Именно эта работа привела меня к открытию того, что диалог между людьми, работающими вместе над задачей, имеет структуру, которая зависит от структуры задачи, и что диалог – это гораздо больше, чем просто пары вопросов-ответов. Исходя из этого, я поняла, что как люди мы вообще никогда не говорим обособленными высказываниями, расставленными в нужной последовательности. Всегда существует структура, как, например, в журнальной или газетной статье, учебнике, и что мы можем смоделировать эту структуру. Это был мой первый крупный вклад в обработку естественного языка и искусственного интеллекта.
М. Ф.: Идея представить математически структуру диалога была прорывом в области естественного языка. Каким образом вы к ней пришли?
Б. Г.: Изначально перед нами стояла задача построить систему, умеющую вести естественный беглый диалог с человеком. Алана Кея тоже интересовало создание систем, которые будут адаптироваться к людям, а не наоборот.
В то время в лингвистике велись работы над синтаксисом и формальной семантикой, а в computer science – над алгоритмами синтаксического анализа. Уже была известна огромная роль контекста, но не было инструментов, математического описания и вычислительных конструкций для учета контекста в речевых системах.
Нам нужно было получить образцы реальных диалогов, которые ведут люди, совместно решающие некую задачу. Для этого двух человек, играющих роли эксперта и ученика, посадили в разные комнаты, чтобы исключить невербальную передачу информации, и попросили эксперта объяснить ученику, как выполнить некие действия. Проанализировав полученные диалоги, мы смогли понять их структуру и то, как она зависит от структуры задачи.
Позднее совместно с Кенди Сиднер мы написали статью Attention, Intentions, and the Structure of Discourse («Внимание, намерения и структура дискурса»), в которой рассказали, что диалоги имеют структуру, которая обусловлена самим языком, причинами вступления в диалог и целями каждого участника. Эта интенциональная структура представляет собой обобщение структуры задачи. Всеми этими аспектами управляет модель состояния внимания.
М. Ф.: Если сравнивать разработки «тогда» и «сейчас», что сильнее всего изменилось?
Б. Г.: Мы перешли от практически глухих речевых систем к системам, которые потрясающе обрабатывают речь. Улучшился анализ предложений и вычленение значений из них.
Но диалоговые системы, по сути, не работают. Они отлично справляются со всем, что попадает в рамки заданных сценариев, но реальные люди редко так разговаривают. Иногда ошибки, которые совершает система, создают серьезную этическую проблему.
Аналогичным образом обстоят дела со встроенными в смартфоны персональными помощниками. Например, если спросить, где находится ближайший травмпункт, вы получите его адрес, а вот в ответ на вопрос, куда обратиться с вывихнутой лодыжкой, система, скорее всего, просто откроет веб-страницу с информацией о способах лечения растяжений.
С этими проблемами сталкиваются и диалоговые системы, способные обучаться на данных. Летом 2017 г., когда Ассоциация по компьютерной лингвистике вручала мне награду, я обратилась к тем, кто работает над системами естественного языка на базе глубокого обучения, и сказала, что микроблоги Twitter не годятся в качестве примеров диалогов – нужны реальные данные.
М. Ф.: Но ведь способность отойти от сценария и справиться с непредсказуемой ситуацией это и есть настоящий интеллект. Именно здесь проходит граница между автоматом или роботом и человеком.
Б. Г.: Вы совершенно правы. Вспомните философскую идею коммуникативной импликатуры, разработанную в 1960-х гг. Полом Грайсом, Джоном Остином и Джоном Серлем. Например, говоря компьютеру: «Принтер неисправен», человек хочет, чтобы система предприняла какие-то действия для устранения неисправности, а не просто ответила: «Спасибо, факт зафиксирован». Но такое возможно только в случае, когда система может вычленить смысл из того, что было сказано.
Современные системы игнорируют интенциональную структуру диалога. Другие признаки интеллекта в системах на базе глубокого обучения в большинстве случаев тоже отсутствуют: они не могут использовать контрафактное мышление или рассуждать с точки зрения здравого смысла. Все эти вещи нужны для участия в свободном диалоге, когда на слова и действия обеих сторон не наложено никаких ограничений.
М. Ф.: Помню, как меня поразила победа суперкомпьютера Watson от IBM в телевикторине «Своя игра». Это действительно крупный прорыв или же существуют какие-то более передовые разработки?
Б. Г.: Я считаю Siri и Watson феноменальными достижениями техники. Они поменяли наш способ взаимодействия с компьютерами. Но до человеческих способностей им все еще далеко.
Когда в 2011 г. я впервые поговорила с Siri, мне понадобилось всего три вопроса, чтобы понять, что передо мной не человек. А когда допускает ошибки Watson, сразу становится ясно, где именно язык обрабатывается не так, как это делают люди.
Но мы действительно феноменально продвинулись. Я в восторге от того, что ИИ появился и начал менять наш мир, потому что не думала его застать, ведь преграды на пути к нему казались слишком сложными.
М. Ф.: Вы действительно не верили, что ИИ появится при вашей жизни?
Б. Г.: Тогда, в 1970-х гг.? Нет, не верила.
М. Ф.: Watson удивил меня умением понимать каламбуры, шутки и сложные языковые конструкции.
Б. Г.: Если заглянуть внутрь этих систем, сразу станут заметными их ограничения. Для сферы ИИ, да и, честно говоря, для всего мира было бы полезнее, если бы мы не стремились заменить людей или создать сильный ИИ, а попытались понять, для чего лучше подходят способности компьютера и как мы можем взаимодополнять друг друга.
М. Ф.: Способность говорить не по сценарию напрямую связана с тестом Тьюринга. Я знаю, что вы внесли свой вклад в эту область. Как вы думаете, зачем Тьюринг придумал этот тест?
Б. Г.: Я напомню, что Тьюринг предложил свой тест в 1950 г., после появления новых вычислительных машин. Конечно, по сравнению с тем, что предлагают современные смартфоны, возможности этих систем были невелики, но уже тогда многие задавались вопросом, могут ли эти машины думать как человек. Если помните, Тьюринг приравнивал термины «интеллект» и «мышление». Он поставил интересный философский вопрос – могут ли машины демонстрировать определенный тип поведения? В то время психология базировалась на бихевиоризме, поэтому его тест представлял собой испытание эксплуатационных качеств, без учета того, что происходит внутри.
Тест Тьюринга нельзя считать хорошим тестом на интеллект. Честно говоря, я бы его, скорее всего, провалила. Не показывает он и того, в какую сторону нужно развивать ИИ. Тьюринг был удивительно умным человеком, и, мне кажется, он бы предложил другой вариант теста, если бы жил сейчас.
М. Ф.: Я знаю, что и вы предложили усовершенствование или даже замену тесту Тьюринга.
Б. Г.: Сейчас мы знаем, что развитие человеческого интеллекта, как и языковой потенциал, зависит от социального взаимодействия. Кроме того, во многих ситуациях люди предпочитают действовать совместно. Поэтому я предположила, что нужно стремиться создать систему, которая была бы хорошим партнером и работала бы в коллективе так хорошо, что люди бы даже не задумывались о ее природе. Дело ведь не в том, чтобы одурачить людей, заставив их думать, что ноутбук, робот или телефон – это такой же человек. Нужно сделать так, чтобы у людей не возникало вопроса «почему он поступил именно так?». А такой вопрос непременно возникает, когда совершается ошибка, не характерная для человека.
Поставленная таким образом цель имеет несколько преимуществ по сравнению с тестом Тьюринга: к ней можно двигаться постепенно, выбирая оптимальное направление, и получить взаимодополнение способностей человека и компьютера. Мой тест высоко оценили в Эдинбурге на мероприятии, посвященном 100-летию со дня рождения Тьюринга.
М. Ф.: Я всегда полагал, что как только мы действительно получим машинный интеллект, это попросту будет очевидно всем. Ведь в процессе общения мы каким-то образом без предварительных тестов понимаем, умный перед нами человек или не очень.