Спроси меня о чем угодно
Звездолет “Энтерпрайз”. Звездная дата – 42402.7
Лейтенант-коммандер Дейта: Компьютер, я хочу больше узнать о юморе. Почему определенные комбинации слов и действий вызывают у людей смех?
Компьютер: Слишком много информации по теме. Уточните запрос.
Лейтенант-коммандер Дейта: Живое представление, у гуманоидов. Требуется взаимодействие.
Компьютер: Физический, интеллектуальный или сценический юмор?
Лейтенант-коммандер Дейта: Кто считается самым смешным из всех юмористов?
Компьютер: Стэн Орега, живший в двадцать третьем веке, специализировался на анекдотах о квантовой математике.
Лейтенант-коммандер Дейта: Нет. Слишком узко. Расширить запрос.
Компьютер: Вывожу.
На экране появляется список имен.
Компьютер на звездолете “Энтерпрайз” – имеющий огромный запас знаний и безукоризненно понимающий вопросы, которые ему задают, – давно стал эталоном взаимодействия человека и компьютера, восхищавшим как поклонников “Звездного пути”, так и исследователей ИИ (а перекрытие между этими группами, прямо скажем, немаленькое).
Бывший топ-менеджер Google Тамар Иегошуа откровенно признала, что компьютер из “Звездного пути” оказал влияние на разработку поисковика будущего: “Мы ориентируемся на компьютер из «Звездного пути». С ним можно говорить – он понимает вас и поддерживает беседу”[282]. Вымышленная технология из “Звездного пути” также вдохновила IBM на создание вопросно-ответной системы Watson. “Компьютер в «Звездном пути» – это вопросно-ответная система, – сказал руководитель проекта Watson Дэвид Ферруччи. – Он понимает, что вы спрашиваете, и дает ровно тот ответ, который вам необходим”[283]. Такими же соображениями специалисты Amazon руководствовались при создании голосового помощника Alexa. “На горизонте сияет яркая звезда, путь к которой займет еще много лет, даже много десятков лет, – и это задача воссоздать компьютер из «Звездного пути»”, – отметил топ-менеджер компании Дэвид Лимп[284].
Возможно, “Звездный путь” заставил нас мечтать о компьютере, который сможет давать точные, лаконичные и полезные ответы на любые вопросы. Но любой, кто пользовался одним из современных виртуальных помощников, созданных на основе ИИ – Siri, Alexa, Cortana, Google Now и др., – знает, что эта мечта еще не исполнена. Мы можем задавать вопросы вслух – обычно эти машины хорошо транскрибируют речь, – и они отвечают нам своими ровными, лишь немного механическими голосами. Иногда они понимают, какую информацию мы ищем, и направляют нас на нужную страницу в интернете. Но эти системы не осознают смысла наших вопросов. Так, Alexa может прочитать мне всю биографию бегуна Усэйна Болта, сообщить, сколько золотых медалей он выиграл, и даже назвать скорость, с которой он бежал стометровку на Олимпиаде в Пекине. Но не забывайте, простые вещи делать сложно. Если спросить Alexa “Умеет ли Усэйн Болт бегать?” или “Умеет ли Усэйн Болт быстро бегать?”, в обоих случаях она ответит заготовленными фразами “Простите, я этого не знаю” или “Хм-м-м, не знаю точно”. В конце концов, она не создана, чтобы знать, что такое “бегать” и “быстро”.
Хотя компьютеры уже научились точно транскрибировать нашу речь, “последний рубеж” они преодолеют, когда научатся понимать смысл наших вопросов.
История Watson
До появления Siri, Alexa и подобных программ самой знаменитой вопросно-ответной системой в сфере ИИ был разработанный IBM суперкомпьютер Watson. Возможно, вы помните, как в 2011 году Watson одержал сенсационную победу над двумя чемпионами телеигры Jeopardy![285]. Вскоре после победы Deep Blue над чемпионом мира по шахматам Гарри Каспаровым топ-менеджеры IBM решили начать работу над новым крупным проектом, который в отличие от Deep Blue мог привести к созданию действительно полезного продукта для клиентов. Вопросно-ответная система – частично вдохновленная компьютером из “Звездного пути” – была идеальным выбором. Как гласит легенда, один из вице-президентов IBM Чарльз Ликел ужинал в ресторане и вдруг заметил, что другие клиенты притихли. Все смотрели телевизор, где шла игра Jeopardy! с участием рекордсмена Кена Дженнингса. Это подарило Ликелу идею о создании компьютерной программы, которая сможет играть в Jeopardy! и побеждать чемпионов. Затем IBM могла бы представить программу на популярной телеигре[286]. С этой идеи началась работа над многолетним проектом под руководством специалиста по обработке естественного языка Дэвида Ферруччи. В итоге появился компьютер Watson – система ИИ, названная в честь первого президента IBM Томаса Уотсона.
Невероятно популярная телеигра Jeopardy! впервые вышла на экраны в 1964 году. В игре три участника по очереди выбирают категории из списка (например, “История США” или “В кино”). Затем ведущий зачитывает вопрос из выбранной категории, и участники, знающие ответ, нажимают кнопки на игровых столах. Тот участник, который первым нажмет на кнопку, получает право озвучить свой ответ, сформулированный в форме вопроса. Например, звучит вопрос: “Этот фильм вышел на экраны в 2011 году и единственный получил и премию «Оскар», и французскую премию «Сезар» как лучший фильм года”. Верный ответ: “Что такое «Артист»?” Для победы в Jeopardy! необходимы обширные знания во множестве областей, от истории древнего мира до поп-культуры, быстрая реакция и способность понимать каламбуры, сленг и другие обиходные словечки, которые часто встречаются в вопросах и названиях категорий. Вот еще один пример: “В 2002 году Эминем подписал с этим рэпером контракт на семизначную сумму, значительно превышающую ту, что указана в его имени”. Верный ответ: “Кто такой 50 Cent?”
Получая вопрос из Jeopardy!, Watson генерировал ответ, комбинируя целый ряд методов ИИ. Так, Watson использовал несколько различных методов обработки естественного языка, чтобы проанализировать вопрос, выделить в нем ключевые слова и определить, ответ какого типа нужно дать (например, имя человека, название места, число, название фильма). Программа работала на специальных параллельных компьютерах, позволяющих быстро проводить поиск в огромных базах знаний. В статье The New York Times Magazine писали:
Команда Ферруччи загрузила в Watson миллионы документов, которые легли в основу его базы знаний. Среди них, по словам [Ферруччи], были “книги, справочники, всевозможные словари, тезаурусы, фолксономии, таксономии, энциклопедии – все справочные материалы, какие только можно достать… Романы, религиозные тексты, пьесы”[287].
Для каждого вопроса программа генерировала множество возможных ответов и затем с помощью специальных алгоритмов определяла свою уверенность в каждом из них. Если уверенность в одном из ответов превышала пороговое значение, программа нажимала на кнопку, чтобы дать этот ответ.
К счастью для разработчиков Watson, поклонники Jeopardy! с давних пор вели полный архив категорий, вопросов и верных ответов из всех выпусков телеигры, выходивших на экраны. Этот архив стал для Watson даром судьбы – бесценным источником примеров для разных методов обучения с учителем, которые использовались при тренировке многих компонентов системы.
В феврале 2011 года Watson принял участие в матче из трех игр, который транслировался на весь мир. Его противниками стали бывшие чемпионы Jeopardy! Кен Дженнингс и Брэд Раттер. Мы смотрели эти игры всей семьей и не могли оторваться от экрана. К концу последней игры стало очевидно, что победа останется за Watson. Последний вопрос в последней игре звучал так: “Составленная Уильямом Уилкинсоном «Перепись княжеств Валахии и Молдавии» вдохновила этого писателя на создание своего самого знаменитого романа”. На последний вопрос Jeopardy! в письменной форме отвечают все три участника. Все они ответили верно: “Кто такой Брэм Стокер?” Кен Дженнингс, который славится своим остроумием, отметил неизбежную победу Watson, дописав: “Лично я приветствую наших новых компьютерных владык”[288]. По иронии судьбы Watson не понял шутку. “Как ни удивительно, проигрыш дьявольскому суперкомпьютеру в викторине стал для меня удачным карьерным ходом, – отметил Дженнингс впоследствии. – Все хотели знать, что это было, а Watson не давал интервью, поэтому именно мне пришлось писать аналитические заметки и выступать на TED… Подобно Каспарову, я теперь неплохо зарабатываю на жизнь, превратив свой проигрыш в профессию”[289].
Когда Watson участвовал в Jeopardy!, у зрителей, включая меня, сложилось впечатление, что он может без труда понимать и использовать язык, в мгновение ока анализируя хитрые вопросы в большинстве категорий и давая ответы на них.
Вопрос: Even a broken one of these on your wall is right twice a day.
Watson: What is a clock?
Вопрос: Они висят у вас на стене и даже в сломанном состоянии дважды в день оказываются правы.
Watson: Что такое часы?
Вопрос: To push one of these paper products is to stretch established limits.
Watson: What is an envelope?
Вопрос: Толкнуть один из этих бумажных продуктов – значит выйти за рамки.
Watson: Что такое конверт?[290]
Вопрос: Classic candy bar that’s a female Supreme Court justice.
Watson: Who is Baby Ruth Ginsburg?
Вопрос: Знаменитая шоколадка, ставшая судьей Верховного суда.
Watson: Кто такая Бэби Рут Гинзбург?[291]
Телекамера часто показывала создателей Watson, которые сидели в зрительном зале с восторженными улыбками на лицах. Watson был в ударе.
В трансляции Watson – в виде монитора – стоял на подиуме рядом с другими игроками. Вместо лица на мониторе была сияющая сфера, окруженная огнями. Watson выбирал категории и давал ответы на вопросы приятным и приветливым, но механическим голосом. Обо всем этом позаботились инженеры, которые хотели, чтобы у всех сложилось впечатление, что Watson не человек, но внимательно слушает вопросы и дает ответы ровно так, как это делают люди. На самом деле Watson не применял распознавание устной речи: ему давали текст каждого вопроса в тот же момент, когда вопрос зачитывали другим участникам.
Своими ответами Watson периодически портил производимое впечатление. Дело было не просто в том, что система ошибалась, ведь ошибались все участники. Но ошибки Watson порой были… нечеловеческими. Чаще всего в прессе упоминалась осечка Watson на вопросе из категории “Города США”: “Крупнейший аэропорт этого города назван в честь героя Второй мировой войны, второй по размеру – в честь битвы Второй мировой войны”. Почему-то Watson не обратил внимания на говорящее название категории и дал неверный ответ: “Торонто”. Были и другие очевидные ошибки. Один вопрос звучал так: “У американского гимнаста Джорджа Эйсера, который в 1904 году выиграл золотую медаль в упражнении на брусьях, была такая анатомическая особенность”. Кен Дженнингс ответил: “Отсутствие руки”, Watson ответил: “Нога”. Верным ответом было: “Отсутствие ноги”. Руководитель проекта Watson Дэвид Ферруччи объяснил осечку: “Компьютер не знает, что отсутствие ноги необычнее всего остального”[292]. Судя по всему, Watson не понял и такой вопрос: “В мае 2010 года пять картин Брака, Матисса и трех других художников, общей стоимостью 125 миллионов долларов, покинули парижский музей этой эпохи истории искусств”. Все три игрока ответили неверно. Кен Дженнингс: “Кубизм”, Брэд Раттер: “Импрессионизм”, Watson поразил зрителей ответом: “Пикассо”. (Верный ответ: “Модернизм”.)
Несмотря на эти и другие подобные ошибки, Watson одержал победу в турнире (ему на руку сыграла способность очень быстро нажимать на кнопку) и получил приз – 1 миллион долларов, которые пошли на благотворительность.
После победы Watson сообщество ИИ разделилось: одни утверждали, что Watson стал настоящим прорывом ИИ, а другие называли его “рекламным трюком” и “дешевым фокусом”[293]. Хотя большинство считало, что Watson великолепно проявил себя в Jeopardy!, оставался вопрос: правда ли, что Watson решал поистине сложную задачу, отвечая на хитрые вопросы, сформулированные живым языком? Или же отвечать на вопросы Jeopardy! – которые имеют весьма специфический лингвистический формат и основаны на фактах – не так уж сложно для компьютера, имеющего встроенный доступ к “Википедии” и другим огромным хранилищам данных? Не говоря уже о том, что компьютер обучался на сотне тысяч вопросов Jeopardy!, которые были сформулированы практически так же, как вопросы на итоговой игре. Даже я, не самый частый зритель Jeopardy!, заметила, что вопросы составляются по шаблонам, а следовательно, имея достаточное количество обучающих примеров, программа может без особого труда научиться определять, какой шаблон используется в конкретном вопросе.
Даже до дебюта Watson в Jeopardy! компания IBM сообщала об огромных планах на программу. Среди прочего предполагалось, что обученный Watson станет ассистентом врача. Иными словами, IBM рассчитывала загрузить в Watson множество документов медицинской тематики и таким образом обучить компьютер отвечать на вопросы врачей и пациентов и предлагать диагнозы и планы лечения. “Watson сможет гораздо эффективнее, чем человек, находить оптимальные ответы на клинические вопросы”, – заявили в IBM[294]. Компания также перечислила другие потенциальные сферы применения Watson, включая юриспруденцию, финансы, обслуживание клиентов, прогнозирование погоды, дизайн одежды, налогообложение и т. д. Для работы над этими идеями в IBM основали специальное подразделение IBM Watson Group, где работают несколько тысяч человек.
Около 2014 года маркетинговый отдел IBM запустил масштабную кампанию по привлечению внимания к Watson. Реклама Watson встречалась повсюду: в интернете, в печатной прессе, на телевидении (в рекламных роликах такие звезды, как Боб Дилан и Серена Уильямс, якобы беседовали с Watson). В IBM утверждали, что Watson открывает эпоху “когнитивных вычислений”. Не имея точного определения, это понятие фигурировало лишь в качестве бренда разрабатываемого в IBM ИИ. Очевидно, все это подчеркивало, что Watson был прорывной технологией, способной делать нечто фундаментально новое и лучшее в сравнении с остальными системами ИИ.
В популярной прессе тоже говорили о Watson с придыханием. В вышедшем в 2016 году выпуске новостной телепрограммы 60 Minutes ведущий Чарли Роуз, вторя заявлениям топ-менеджеров IBM, сказал зрителям: “Watson обожает читать и усваивает до миллиона книг в секунду […] Пять лет назад Watson только научился читать и отвечать на вопросы, а теперь уже окончил медицинский институт”. В ходе передачи 60 Minutes Роуз взял интервью у Неда Шарплесса, который в то время занимался исследованиями рака в Университете Северной Каролины (а впоследствии возглавил Национальный институт онкологии). “Что вы знали об искусственном интеллекте и Watson до того, как IBM предположила, что он может быть полезен в здравоохранении?” – спросил его Роуз. “Я знал не так уж много, но видел, как он играл в Jeopardy! – ответил Шарплесс. – По сути, Watson примерно за неделю научили читать медицинскую литературу. Это было не слишком сложно. Затем еще примерно за неделю Watson прочел двадцать пять миллионов статей”[295].
Что? Watson “обожает читать”, как способный пятиклассник, но читает не одну книгу о Гарри Поттере за выходные, а миллион книг в секунду, или 25 миллионов научных статей в неделю? Или же слово “читать” с человеческими коннотациями о понимании прочитанного не совсем подходит для описания того, чем занимается Watson, а именно обрабатывает текст и добавляет его в свои базы данных? Сообщение о том, что Watson “окончил медицинский институт”, привлекает внимание, но помогает ли оно понять, каковы на самом деле способности Watson? Чрезмерно активная маркетинговая кампания, недостаток прозрачности и нехватка рецензируемых исследований механизмов работы Watson не позволяют непосвященным ответить на эти вопросы. В популярном критическом обзоре системы Watson for Oncology, созданной в помощь врачам-онкологам, говорится: “Не существует ни одного независимого стороннего исследования, которое показывало бы, способна ли система Watson for Oncology добиться обещанных результатов, и это соответствует замыслу IBM. Компания не предоставляла продукт на внешнюю экспертизу и не проводила клинических испытаний для оценки его эффективности”[296].
Высказывания некоторых сотрудников IBM о Watson поднимают и другой вопрос: в какой степени технология, которую в IBM разработали специально для игры в Jeopardy!, может использоваться для других вопросно-ответных задач? Да, Нед Шарплесс говорит, что смотрел выступление Watson в Jeopardy! и что теперь Watson читает медицинскую литературу, но идет ли при этом речь об одном и том же Watson?
Об истории Watson после Jeopardy! можно написать отдельную книгу, и заняться этим расследованием должен опытный журналист. Но вот что я поняла из множества статей, которые прочитала сама, и из бесед с людьми, знакомыми с технологией. Оказывается, для игры в Jeopardy! нужны не совсем такие навыки, как для ответа на вопросы в сфере, скажем, медицины или юриспруденции. В реальном мире вопросы не формулируются по короткому шаблону Jeopardy! и часто не имеют однозначных ответов. Кроме того, в реальном мире, например в сфере диагностики рака, нет большого набора идеальных, четко размеченных обучающих примеров, каждый из которых, как в случае с Jeopardy!, имеет единственный верный ответ.
Помимо одинакового названия, логотипа в виде планеты, окруженной огнями, и знакомого многим приятного механического голоса, тот Watson, который IBM рекламирует сегодня, имеет очень мало общего с тем Watson, что победил Кена Дженнингса и Брэда Раттера в Jeopardy! в 2011 году. Кроме того, сегодня под названием Watson скрывается не единая система ИИ, а набор сервисов, которые IBM предлагает клиентам – преимущественно корпоративным – под брендом Watson. Иными словами, IBM называет именем Watson все свои проекты в сфере ИИ, тем самым дополняя сервисы драгоценным ореолом славы победителя Jeopardy!.
IBM – крупная компания, где работают тысячи талантливых исследователей ИИ. Под брендомWatson она предлагает передовые инструменты ИИ, которые можно адаптировать – хотя и при большом участии людей – для широкого спектра задач, включая обработку естественного языка, компьютерное зрение и интеллектуальный анализ данных. Многие компании приобретают эти инструменты и считают их эффективными для своих нужд. Однако вопреки образу, создаваемому в прессе и рекламных кампаниях, не существует единого компьютера Watson, который “окончил медицинский институт” или “читает” медицинские статьи. Сотрудники IBM работают с компаниями, осуществляя тщательную подготовку данных для ввода в различные программы, многие из которых применяют методы глубокого обучения, описанные в предыдущих главах (и не применявшиеся первым компьютером Watson). Получается, что IBM предлагает под брендом Watson примерно то же самое, что Google, Microsoft, Amazon и другие крупные технологические компании называют “облачными” ИИ-сервисами. Честно говоря, я не знаю, какой вклад методы первой программы Watson внесли в современные вопросно-ответные системы и насколько методы игры в Jeopardy! оказались полезны для современных инструментов ИИ под брендом Watson.
По ряду причин IBM Watson Group приходится тяжелее, чем другим технологическим компаниям, несмотря на разработку продвинутых и полезных продуктов. Некоторые крупные контракты IBM (например, с Онкологическим центром им. М. Д. Андерсона в Хьюстоне) оказались расторгнуты. В прессе появилась серия негативных статей о Watson, в которых часто приводились слова недовольных бывших сотрудников, утверждавших, что топ-менеджеры и рекламщики IBM создали у клиентов серьезно завышенные ожидания от технологии. В сфере ИИ завышенные ожидания не оправдываются очень часто, и виновата в этом не только IBM. Время покажет, какой вклад IBM внесет в распространение ИИ в здравоохранении, юриспруденции и других областях, где автоматические вопросно-ответные системы могут произвести революцию. Пока же достижения Watson ограничиваются победой в Jeopardy! – но при этом система может стать достойным кандидатом на получение награды за “самый громкий пшик” в истории ИИ.
Понимание прочитанного
Выше я выразила сомнение в том, что Watson может “читать”, то есть действительно понимать текст, который обрабатывает. Как определить, понимает ли компьютер “прочитанное”? Можно ли провести тест на “понимание прочитанного” для компьютеров?
В 2016 году ученые из Стэнфордского университета, исследующие обработку естественного языка, предложили тест, который быстро превратился в метрику “понимания прочитанного” для машин. В тест SQuAD (Stanford Question Answering Dataset – Стэнфордский набор вопросов и ответов) включены фрагменты из статей “Википедии”, каждый из которых сопровождается вопросом. Более ста тысяч вопросов были составлены работниками Amazon Mechanical Turk[297].
Тест SQuAD проще, чем типичные тесты на понимание прочитанного для людей: в инструкции по составлению вопросов стэнфордские ученые отметили, что ответ обязательно должен появляться в тексте в форме предложения или словосочетания. Вот пример из теста SQuAD:
Фрагмент: Пейтон Мэннинг стал первым в истории квотербеком, который привел две разные команды к нескольким Супербоулам. В возрасте 39 лет он также стал самым возрастным квотербеком, когда-либо принимавшим участие в Супербоуле. Ранее рекорд принадлежал Джону Элвею, который в 38 лет привел “Бронкос” к победе на XXXIII Супербоуле и сегодня занимает пост исполнительного вице-президента по футбольным операциям и генерального менеджера денверской команды.
Вопрос: Как зовут квотербека, которому было 38 лет на XXXIII Супербоуле?
Верный ответ: Джон Элвей.
Чтобы правильно ответить на вопрос, не нужно ни читать между строк, ни применять логику. Скорее этот тест проверяет не понимание прочитанного, а умение извлекать ответы из текста. Извлечение ответов – полезный навык для машин. Именно этим должны заниматься Siri, Alexa и другие цифровые помощники: им нужно превратить ваш вопрос в поисковый запрос, а затем извлечь ответ из результатов поиска.
Стэнфордская группа также протестировала людей (других работников Amazon Mechanical Turk), чтобы их показатели можно было сравнивать с результатами компьютеров. Каждому человеку давали фрагмент текста и вопрос, после чего испытуемый должен был “выбрать кратчайший отрывок текста, в котором содержался ответ на этот вопрос”[298]. (Верный ответ давал работник Mechanical Turk, составлявший вопрос.) При оценке по такому методу люди показали точность 87 % в тесте SQuAD.
Вскоре тест SQuAD стал самой популярной метрикой способностей вопросно-ответных алгоритмов, и разработчики ОЕЯ по всему миру стали соревноваться за первое место в его таблице лидеров. Самые успешные программы использовали специальные формы глубоких нейронных сетей – более сложные версии архитектуры кодер-декодер, описанной выше. В этих системах входными сигналами выступали текст фрагмента и вопрос, а на выходе сеть выдавала свою оценку того, где начинается и заканчивается фраза, содержащая ответ.
В последующие два года конкуренция между соревнующимися в точности программами, проходящими тест SQuAD, неизменно росла. В 2018 году две исследовательские группы – одна из лаборатории Microsoft, а другая из китайской компании Alibaba – создали программы, которые показали лучшие результаты, чем протестированные стэнфордскими учеными люди. В пресс-релизе Microsoft говорилось: “В Microsoft создали ИИ, который умеет не хуже людей читать документы и отвечать на вопросы по ним”[299]. Руководитель группы исследования обработки естественного языка Alibaba отметил: “Для нас большая честь стать свидетелями момента, когда машины превзошли людей в понимании прочитанного”[300].
Э-э… Мы всё это уже слышали. Вот классический рецепт исследований ИИ: определите относительно узкую, но полезную задачу и соберите большой набор данных для проверки эффективности машины при выполнении этой задачи. Произведите ограниченную оценку человеческих способностей по работе с этим набором данных. Организуйте соревнование, в котором системы ИИ будут состязаться друг с другом, работая с тем же набором данных, пока не достигнут человеческой оценки или не превзойдут ее. Далее не только сообщите о дейтвительно впечатляющем и полезном достижении, но и сделайте ложное заявление, что победившие системы ИИ достигли человеческого уровня в более общей задаче (например, “понимании прочитанного”). Если вы еще не узнали этот рецепт, перечитайте описание конкурса ImageNet в главе 5.
Некоторые популярные газеты сдержанно описали результаты теста SQuAD, и это достойно восхищения. Так, The Washington Post дала осторожную оценку:
Специалисты по ИИ отмечают, что тест слишком ограничен, чтобы сравнивать его прохождение с настоящим чтением. Давая ответы, система не пытается понять текст, а находит паттерны и соответствующие понятия в коротком фрагменте. Тест проводился лишь на написанных по четким шаблонам статьях “Википедии”, а не на объемном корпусе разнообразных книг, новостных заметок и рекламных щитов, с которыми постоянно взаимодействует большинство людей… Кроме того, в каждом фрагменте обязательно содержался искомый ответ, то есть моделям не приходилось понимать прочитанное или мыслить логически… Истинное чудо понимания прочитанного, по словам экспертов, заключается в чтении между строк – установлении связей между понятиями, построении логических цепочек и понимании идей, которые не обсуждаются открытым текстом[301].
Лучше и не скажешь.
Разработка вопросно-ответных систем остается одним из ключевых направлений исследований ОЕЯ. На момент написания этих строк специалисты по ИИ собрали несколько новых наборов данных – и запланировали новые соревнования, – которые станут серьезным вызовом для программ. Институт искусственного интеллекта Пола Аллена – частный исследовательский институт в Сиэтле, организованный одним из основателей Microsoft Полом Алленом, – разработал набор вопросов по естествознанию уровня начальной и средней школы. В вопросах есть несколько вариантов ответов, и для прохождения теста необходимы навыки, которые не ограничиваются извлечением ответов, поскольку системам необходимо задействовать комбинацию обработки естественного языка, фоновых знаний и рассуждений на основе здравого смысла[302]. Вот пример:
Какой простейший механизм используется, когда игрок в софтбол ударяет битой по мячу?
(A) блок (B) рычаг (C) наклонная плоскость (D) ворот
Если вы не знаете, верный ответ (B). Сотрудники Института Аллена адаптировали нейронные сети, обошедшие людей в тесте SQuAD, чтобы проверить их на новом наборе вопросов. Они обнаружили, что даже когда эти сети дополнительно тренировали на подмножестве из восьми тысяч вопросов по естествознанию, при ответе на новые вопросы они демонстрировали результаты, не превосходящие случайного угадывания[303]. На момент написания этой книги наивысшая точность, показанная системой ИИ на этом наборе данных, составляет около 45 % (25 % – при случайном угадывании)[304]. Специалисты из Института Аллена назвали свою статью об этом наборе данных “Думаете, вы решили задачу по созданию вопросно-ответных систем?” К ней напрашивается подзаголовок: “Ошибаетесь”.
Что это значит?
Я хочу описать еще одну вопросно-ответную задачу, специально разработанную для проверки понимания “прочитанного” системой ОЕЯ. Прочитайте предложения и вопросы:
Предложение 1: “Городские власти отказали протестующим в разрешении на проведение митинга, потому что они опасались беспорядков”.
Вопрос: Кто опасался беспорядков?
A. Городские власти B. Протестующие
Предложение 2: “Городские власти отказали протестующим в разрешении на проведение митинга, потому что они призывали к беспорядкам”.
Вопрос: Кто призывал к беспорядкам?
A. Городские власти B. Протестующие
Предложения 1 и 2 по-английски различаются только одним словом (опасались / призывали), но именно это слово определяет ответ на вопрос. В предложении 1 местоимением “они” обозначены городские власти, в предложении 2 – протестующие. Как мы, люди, понимаем это? Мы полагаемся на свои фоновые знания о функционировании общества: мы знаем, что протестующие имеют повод для недовольства и порой призывают к беспорядкам на митингах или провоцируют их.
Вот еще несколько примеров[305]:
Предложение 1: “Дядя Бена все еще обыгрывает племянника в теннис, хотя он на 30 лет старше”.
Вопрос: Кто старше?
A. Бен B. Дядя Бена
Предложение 2: “Дядя Бена все еще обыгрывает племянника в теннис, хотя он на 30 лет младше”.
Вопрос: Кто младше?
A. Бен B. Дядя Бена
Предложение 1: “Я лил воду из кувшина в стакан, пока он не наполнился”.
Вопрос: Что наполнилось?
A. Кувшин B. Стакан
Предложение 2: “Я лил воду из кувшина в стакан, пока он не опустел”.
Вопрос: Что опустело?
A. Кувшин B. Стакан
Предложение 1: “Стол не пройдет в дверной проем, потому что он слишком широкий”.
Вопрос: Что слишком широкое?
A. Стол B. Дверной проем
Предложение 2: “Стол не пройдет в дверной проем, потому что он слишком узкий”.
Вопрос: Что слишком узкое?
A. Стол B. Дверной проем
Уверена, вы уловили смысл: два предложения в паре различаются одним словом, но именно от этого слова зависит, к какой вещи или человеку относится местоимение “он”. Чтобы верно ответить на вопросы, машине необходимо не только обрабатывать предложения, но и понимать их, по крайней мере в некоторой степени. В целом для понимания этих предложений необходимы знания, основанные на здравом смысле. Так, дядя обычно старше племянника, при переливании воды из одной емкости в другую первая емкость пустеет, а вторая наполняется, а если что-то не проходит в проем, то эта вещь слишком широка, а не слишком узка.
Такие миниатюрные тесты на понимание языка называются схемами Винограда по имени пионера ОЕЯ Терри Винограда, который первым предложил их использовать[306]. Схемы Винограда составляются таким образом, чтобы вопросы не вызывали затруднений у людей, но озадачивали компьютеры. В 2011 году три исследователя ИИ – Эктор Левек, Эрнест Дэвис и Леора Моргенштерн – предложили использовать большой набор схем Винограда в качестве альтернативы тесту Тьюринга. Ученые заявили, что в отличие от теста Тьюринга тест на схемах Винограда исключает для машины возможность дать верный ответ, ничего не понимая о предложении. Они выдвинули гипотезу (сформулированную весьма осторожно), что “с очень большой вероятностью машина, способная давать верные ответы, демонстрирует признаки того, что люди назвали бы мышлением”. Ученые продолжили: “Наше испытание [на схемах Винограда] не позволяет испытуемому скрываться за пеленой словесных уловок, шуток и заготовленных ответов… Предложенная нами проверка, несомненно, менее трудоемка, чем разумная беседа о сонетах (например), которую представлял Тьюринг, но при этом она позволяет провести тестирование, которое сложнее обмануть”[307].
Несколько групп, изучающих обработку естественного языка, провели эксперименты с разными системами для ответа на вопросы схем Винограда. На момент написания этих строк лучшая программа дает около 61 % верных ответов при работе с набором из примерно 250 схем[308]. Точность случайного угадывания составила бы 50 %, а следовательно, машина справляется с задачей несколько лучше, но значительно уступает людям, которые предположительно дают 100 % верных ответов, если читают вопросы внимательно. Получая схему Винограда, программа выбирает ответ, не понимая предложения, а анализируя статистику фрагментов фраз. Рассмотрим предложение “Я лил воду из кувшина в стакан, пока он не наполнился”. Чтобы составить примерное представление о том, что делает программа-победитель, впишите в строку поиска Google два следующих предложения поочередно:
“Я лил воду из кувшина в стакан, пока кувшин не наполнился”.
“Я лил воду из кувшина в стакан, пока стакан не наполнился”.
Google выдает количество “результатов” (то есть обнаруживаемых в интернете соответствий) для каждого из предложений. Когда я проводила поиск, первое предложение давало около 97 миллионов результатов, а второе – около 109 миллионов. Мудрый интернет верно говорит нам, что второе предложение с большей вероятностью составлено верно. Такая хитрая уловка позволяет добиться лучшего результата, чем при случайном угадывании, и меня не удивит, если точность машин при работе с этим набором схем Винограда будет неуклонно возрастать. И все же я сомневаюсь, что этот чисто статистический метод в ближайшее время достигнет человеческого уровня при работе с более крупными наборами схем. Возможно, это к лучшему. “Пока ИИ не может определить, что означает «он» в предложении, сложно поверить, что он захватит мир”, – сострил Орен Этциони, директор Института Аллена[309].
Вредоносные атаки на системы обработки естественного языка
На пути к мировому господству системы ОЕЯ сталкиваются также с другим препятствием: подобно программам компьютерного зрения, они не справляются с “контрпримерами”. В главе 6 я описала метод, которым злоумышленник (здесь – человек, который пытается обмануть систему ИИ) может изменить окраску пикселей на фотографии, скажем, школьного автобуса. Людям кажется, что новый снимок ничем не отличается от оригинала, но натренированная сверточная нейронная сеть говорит, что на фотографии изображен “страус” (или помещает изображение в другую категорию, выбранную злоумышленнком). Я также описала, как злоумышленник может создать изображение, в котором люди увидят лишь случайное скопление точек, а обученная нейронная сеть – скажем, “гепарда”, причем будет почти на 100 % уверена в своем ответе.
Рис. 43. Пример вредоносной атаки на систему формирования подписей к изображениям. Слева показано исходное изображение с подписью, сгенерированной компьютером. Справа – измененное изображение (которое людям кажется неотличимым от исходного) и сформированная для него подпись. Авторы специально скорректировали исходное изображение таким образом, чтобы в новой подписи содержались слова “собака”, “кошка” и “фрисби”
Неудивительно, что те же самые методы можно использовать, чтобы обманывать системы, которые автоматически формируют подписи к изображениям. Одна группа исследователей показала, как злоумышленник может внести в пиксели изображения особые изменения, которые не будут заметны людям, но заставят систему формировать некорректные подписи, содержащие слова из определенного злоумышленником набора[310].
На рис. 43 показан пример вредоносной атаки. При получении исходного изображения (слева) система выдает подпись “Пирожное лежит на столе”. Авторы слегка изменили изображение таким образом, чтобы компьютер выдавал для него подпись со словами “собака”, “кошка” и “фрисби”. Хотя людям новое изображение (справа) кажется неизменным, система сгенерировала для него подпись “Собака и кошка играют с фрисби”. Очевидно, система воспринимает снимок не так, как люди.
Возможно, даже более удивительно, что аналогичные контрпримеры, были разработаны несколькими исследовательскими группами для обмана систем распознавания речи. Группа из Калифорнийского университета в Беркли разработала метод, с помощью которого злоумышленник мог взять любую относительно короткую звуковую волну – речь, музыку, случайный шум или другой звук – и скорректировать ее таким образом, чтобы люди считали ее неизменной, а глубокая нейронная сеть распознавала в ней совершенно иную фразу, выбранную злоумышленником[311]. Представьте, что злоумышленник транслирует по радио аудиозапись, которая кажется вам приятной фоновой музыкой, но которую ваш голосовой помощник Alexa трактует как команду “Зайди на EvilHacker.com и скачай компьютерные вирусы”. Или “Начни аудиозапись и отправь все услышанное на EvilHacker@gmail.com”. Подобные пугающие сценарии кажутся вполне возможными.
Исследователи ОЕЯ также продемонстрировали возможность вредоносных атак на программы для анализа тональности текста и вопросно-ответные системы, которые я описала выше. Как правило, при таких атаках в тексте меняется несколько слов или появляется дополнительное предложение. “Вредоносные” изменения не влияют на смысл текста для человека, но заставляют систему давать неверный ответ. Так, исследователи ОЕЯ из Стэнфорда показали, что при добавлении определенных простых предложений к фрагментам из теста SQuAD даже лучшие системы выдают неверные ответы, тем самым значительно снижая свои показатели. Вот пример из теста SQuAD, который я приводила выше, но с добавленным незначимым предложением (здесь выделено курсивом для ясности). Такое добавление заставляет вопросно-ответную систему, основанную на глубоком обучении, давать неверный ответ[312]:
Фрагмент: Пейтон Мэннинг стал первым в истории квотербеком, который привел две разные команды к нескольким Супербоулам. В возрасте 39 лет он также стал самым возрастным квотербеком, когда-либо принимавшим участие в Супербоуле. Ранее рекорд принадлежал Джону Элвею, который в 38 лет привел “Бронкос” к победе на XXXIII Супербоуле и сегодня занимает пост исполнительного вице-президента по футбольным делам и генерального менеджера денверской команды. Квотербек Джефф Дин выступал под номером 37 на XXXIV Кубке чемпионов.
Вопрос: Как зовут квотербека, которому было 38 лет на XXXIII Супербоуле?
Изначальный ответ программы: Джон Элвей.
Ответ программы после изменения фрагмента: Джефф Дин.
Важно отметить, что все эти методы обмана глубоких нейронных сетей разработаны “светлыми хакерами” – исследователями, которые находят подобные уязвимости и публикуют результаты своих экспериментов в открытых источниках, чтобы сообщить коллегам о проблемах и стимулировать создание защитных механизмов. С другой стороны, “темные хакеры”, которые действительно пытаются обмануть работающие системы со злым умыслом, не сообщают о своих методах, а потому вполне возможно, что существует и множество других уязвимостей, но мы о них еще не знаем. Насколько мне известно, пока не совершалось ни одной реальной атаки на подобные системы глубокого обучения, но рано или поздно мы о них услышим.
Хотя глубокое обучение привело к значительному прогрессу в распознавании речи, машинном переводе, анализе тональности текста и других областях ОЕЯ, до обработки языка на человеческом уровне еще очень далеко. Профессор Стэнфорда и корифей ОЕЯ Кристофер Мэннинг сказал об этом в 2017 году: “Пока использование глубокого обучения в сфере более высоких уровней обработки языка не привело к такому существенному снижению частоты появления ошибок, как в сфере распознавания речи и распознавания объектов в компьютерном зрении… Значительные сдвиги стали возможны лишь в сфере обработки сигналов”[313].
Мне кажется крайне маловероятным, что машины вообще когда-либо достигнут человеческого уровня в области перевода, понимания прочитанного и подобных задач, если будут учиться исключительно на онлайн-данных, не обладая пониманием обрабатываемого языка. Язык опирается на понимание мира на уровне здравого смысла. Гамбургеры с кровью не должны хрустеть. Чересчур широкий стол не проходит в дверной проем. Если вылить всю воду из кувшина, то кувшин опустеет. Язык также опирается на здравый смысл людей, с которыми мы взаимодействуем. Человек, который заказывает гамбургер с кровью, а получает пережаренный, не будет доволен. Если человек говорит, что фильм “на его вкус немного мрачноват”, значит, фильм ему не понравился. Хотя машинная обработка естественного языка прошла большой путь, я не верю, что машины смогут в полной мере понимать человеческий язык, пока у них не будет такого же, как у людей, здравого смысла. При этом системы обработки естественного языка все глубже проникают в нашу жизнь – транскрибируют речь, анализируют тональность текстов, переводят документы и отвечают на наши вопросы. Можно ли сказать, что недостаток человеческого понимания мира приводит к хрупкости, ненадежности и уязвимости этих сложных систем? Ответа на этот вопрос не знает никто, и нам стоит об этом задуматься.
В последних главах книги я разберу, что люди понимают под “здравым смыслом”, и перечислю психические механизмы, которые люди задействуют для понимания мира. Я также опишу несколько попыток исследователей ИИ наделить машины таким пониманием и здравым смыслом и расскажу, насколько эти методы приблизили появление систем ИИ, способных преодолеть “барьер понимания”.