Г. М.: Да, это вариация того, о чем я говорю. Если я попрошу вас посмотреть последние три цифры на банкноте, а затем спрошу, когда была подписана Великая хартия вольностей, с большой вероятностью увиденное повлияет на ваш ответ.
М. Ф.: Изначально вы работали над вопросами понимания человеческого языка, а затем основали стартап и помогали запуску ИИ-лабораторий в компании Uber.
Г. М.: Я ощущаю себя как Джозеф Конрад, который писал по-английски, хотя его родным языком был польский. Он понимал, как этот язык функционирует. Я пришел в ИИ из когнитивистики.
В детстве я занимался программированием, но к моменту поступления в аспирантуру стал больше интересоваться тем, как устроено мышление. Моим научным руководителем стал Стивен Пинкер – популяризатор науки, специалист в области экспериментальной психологии, психолингвистики и когнитивных наук. Мы исследовали, как дети знакомятся с прошедшим временем, а затем учились применять двухслойные и многослойные персептроны.
В 1986 г. Дэвид Румельхарт и Джеймс Макклелланд опубликовали статью Parallel Distributed Processing: explorations in the microstructure of cognition («Параллельно распределенная обработка: исследование микроструктуры познания»), в которой показывалось, что нейронную сеть можно научить, как ребенка, использовать прошедшее время английского языка. Проблема была в том, что дети делают другие ошибки. Мы предположили, что у детей работает гибридная система из формально применяемых правил и принципа, по которому работают нейронные сети.
М. Ф.: Вы говорите о том, что дети образуют прошедшее время неправильных глаголов, пользуясь правилом для обычных глаголов?
Г. М.: Да, дети иногда придают неправильным глаголам свойства правильных. Машинный анализ 11 000 фрагментов детской речи привел нас к гипотезе, что дети склонны использовать для образования прошедшего времени некое правило. С одной стороны, они добавляют стандартное окончание «-ed», но одновременно используют ассоциативную память: если в прошедшем времени человек употребляет глагол sing как sang, ему будет проще вспомнить, что глагол ring в прошедшем времени звучит rang. Но если встречается новое слово, которое не похоже на слова, слышанные ранее, для образования прошедшего времени будет использовано стандартное правило.
Дело в том, что нейронные сети очень хорошо распознают сходство, но испытывают трудности при распознавании вещей, которые ни на что не похожи, но подпадают под некое правило. Так было в 1992 г., и, по сути, ситуация до сих пор не изменилась. Работа большинства нейронных сетей определяется данными, при этом они не обладают высоким уровнем абстракции. Например, система распознавания объектов на изображениях приняла дорожный знак, покрытый наклейками, за холодильник с едой и напитками.
М. Ф.: Вы исследуете механизмы, отвечающие за понимание речи и обучение языку. Расскажите об экспериментах, которые вы проводили.
Г. М.: С 1999 г. изучая взрослых, детей и младенцев, я обнаружил, что люди хорошо подмечают общие тенденции. Например, семимесячные дети после двух минут прослушивания примеров искусственной грамматики обучались распознавать правила построения предложений. Прослушав предложения вида «la ta ta» и «ga na na», построенные по схеме ABB, младенцы замечали, что «wo fe wo» построено уже по другой схеме (ABA), в то время как предложение «wo fe fe» использует ту же конструкцию.
Критерием служила длительность взгляда. Оказалось, что после изменения схемы младенцы смотрели на экспериментатора дольше. Получается, дети с самого раннего возраста умеют распознавать довольно глубокие языковые абстракции. Позднее другой исследователь показал, что этим свойством обладают и новорожденные.
М. Ф.: Насколько я знаю, вы снова заинтересовались ИИ благодаря суперкомпьютеру Watson фирмы IBM.
Г. М.: Я скептически относился к этому проекту и сильно удивился, когда в 2011 г. суперкомпьютер победил в телевикторине «Своя игра». Я снова заинтересовался сферой ИИ и, в конце концов, понял, чем был обеспечен успех Watson. Дело в том, что перед ИИ была поставлена более узкая задача, чем казалось на первый взгляд. Так происходит почти во всех случаях, когда ИИ демонстрирует впечатляющие успехи. В телевикторине примерно 95 % ответов представляли собой заголовки страниц «Википедии».
Примерно в то же время я начал писать для еженедельника The New Yorker статьи о нейробиологии, лингвистике, психологии, а также ИИ. Тогда, пять лет назад, я сомневался, что глубокое обучение сможет освоить повышение уровня абстракции и выстраивание причинно-следственных связей. Сейчас эти вопросы все еще не решены.
М. Ф.: В 2014 г. вы основали стартап Geometric Intelligence, который приобрела компания Uber, а вы после этого стали главой их ИИ-лаборатории. Расскажите, как все происходило.
Г. М.: В январе того года я решил основать собственную компанию. Пригласил замечательных людей, в том числе одного из лучших специалистов по машинному обучению – моего друга Зубина Гахрамани. За следующие несколько лет я многое узнал о машинном обучении. Мы искали более совершенные способы обобщения и обучали алгоритмы извлекать информацию из данных. Мы научили машины решать произвольные задачи, такие как распознавание символов из базы MNIST, используя вдвое меньший объем данных, чем методы глубокого обучения.
О наших успехах начали говорить, и в декабре 2016 г. стартап купила компания Uber. Я некоторое время работал в ней, помогая с запуском Uber AI labs. Сейчас я оттуда ушел, изучаю возможности использования ИИ в медицине и много думаю о робототехнике.
В январе 2018 г. я написал две статьи[18], а также пару вещей для платформы социальной журналистики Medium. В одной я рассказывал, что глубокое обучение не приведет нас к общему ИИ. Вторая статья была посвящена тому, что по крайней мере в биологии все системы начинаются с некой внутренней структуры. И для понимания мира важна врожденная структура, присутствующая в нашем мозге.
Данное от природы и полученное от воспитания часто противопоставляются. Но на самом деле эти вещи работают совместно. Природа дает нам механизмы обучения, которые позволяют использовать приобретаемый опыт интересными способами.
М. Ф.: Наличие структур показали эксперименты с младенцами, которые умеют распознавать лица.
Г. М.: Именно так. Это подтверждают мои эксперименты с восьмимесячными детьми, а недавно в журнале Science была опубликована статья, в которой утверждалось, что способность к логическим выводам появляется только после первого года жизни. Дело в том, что термин «врожденный» не означает появляющийся в момент рождения. Борода начинает расти после полового созревания. Большая часть человеческого мозга развивается уже вне матки, при этом развитие начинается относительно рано.
Жеребята почти сразу начинают ходить и обладают сложным зрением, позволяющим видеть препятствия. У человека подобные механизмы включаются в первый год жизни. Когда ребенок учится ходить, мы наблюдаем процесс созревания. Голова с полностью развитым мозгом оказалась бы слишком большой и не смогла бы пройти через родовые пути.
М. Ф.: Получается, что, если сразу после рождения мы обладали бы способностью ходить, все равно пришлось бы ждать развития мышц.
Г. М.: Да, мы рождаемся не до конца развитыми, и многое из происходящего с нами в первые месяцы заложено генетически. Об обучении в этом случае речи не идет. Козленок уже через пару дней после рождения может спускаться по склону горы. Он не учится этому методом проб и ошибок. Я думаю, что геном человека передает шаблон того, как должен работать мозг, а ребенок потихоньку все это развивает. При этом в шаблон уже заложены механизмы обучения.
Почему-то есть тенденция создавать ИИ с минимумом предварительных знаний. Мне это кажется неразумным. Информацию о мире нужно сразу встраивать в системы ИИ, нежели разрабатывать их с нуля.
М. Ф.: Все врожденные вещи в мозге, вероятно, появились в результате эволюции. В ИИ-системах их можно или закодировать, или использовать эволюционный алгоритм для их автоматической генерации.
Г. М.: К сожалению, эволюция – это довольно медленный и неэффективный процесс. Для получения хороших результатов нужны триллионы организмов и миллиарды лет. Вряд ли в лабораторных условиях таким путем можно далеко продвинуться в разумные сроки.
Кроме того, первые 900 млн лет эволюции ничего особо захватывающего не происходило. Разные версии бактерий сменяли друг друга, что не представляет особого интереса. Затем процесс ускорился, появились позвоночные, млекопитающие, приматы и, наконец, мы. Причиной ускорения стало, если можно так выразиться, множество накопленных подпрограмм и библиотечного кода. А чем больше подпрограмм, тем быстрее можно создавать более сложные вещи. Одно дело внести в мозг приматов ряд генетических изменений, чтобы получить человека, но с уровня бактерии подобный скачок невозможен.
Люди, которые используют для тренировки нейросетей эволюционные алгоритмы, часто начинают практически с нуля. Они пытаются развить отдельные нейроны и связи между ними, но лично я считаю, что в процессе биологической эволюции люди обладали очень сложными наборами генетических процедур. По сути, работать следует с существующими наборами генов, но в контексте эволюционного программирования реализовывать это пока никто не умеет.
Думаю, рано или поздно к этому все придет, но пока ученые играют в бога, создающего мир за семь дней.
М. Ф.: А как может выглядеть процесс встраивания врожденных качеств в ИИ-систему?
Г. М.: Этот вопрос состоит из двух частей: функциональная часть – что нужно сделать и механическая – каким образом.
В начале 2018 г. на базе собственных исследований и работ Элизабет Спелке из Гарварда я написал статью, где перечислил необходимые вещи