Искусственный интеллект – надежды и опасения — страница 9 из 60


7. Разумность многомерна, а потому выражение «умнее людей» лишено смысла[38]. Одна из посылок современной психологии гласит, что показатель IQ не характеризует в полной мере все богатство когнитивных навыков, присущих людям в той или иной степени. Показатель IQ дает весьма приблизительную оценку человеческому интеллекту – и совершенно бесполезен для современных систем искусственного интеллекта, поскольку их возможности в разных областях не коррелируют между собой. Как сравнивать IQ поисковой системы Google, которая не умеет играть в шахматы, и тот же показатель суперкомпьютера DeepBlue, неспособного реагировать на поисковые запросы?


Ничто из сказанного не подтверждает, будто, поскольку интеллект многомерен, мы вправе игнорировать потенциальные риски создания сверхразумных машин. Если выражение «умнее людей» лишено смысла, то таково и выражение «умнее горилл», а потому гориллам нечего опасаться людей; ясно, что этот аргумент не выдерживает критики. Логически возможно, что одно существо может оказаться способнее другого в том или ином соответствующем измерении разума, и также возможно, что один вид живых существ будет представлять экзистенциальную угрозу для другого, даже если первый не обладает пониманием музыки и литературы.

Решения

Должны ли мы воспринимать предупреждения Винера как руководство к действию? Надо ли нам разрабатывать системы ИИ, чьи цели не будут противоречить нашим, чтобы мы были довольны их поведением? На первый взгляд эта затея кажется безнадежной, поскольку, безусловно, окажется невозможным правильно сформулировать наши собственные цели или вообразить все контринтуитивные способы, какими сверхразумная сущность может достигать этих целей.

Если рассматривать сверхразумные системы ИИ как своего рода «черные ящики» из космоса, тогда у нас действительно нет ни малейшей надежды. Но подход, который мы как будто вынуждены применять, если не хотим сомневаться в результатах, состоит в том, чтобы выявить некую формальную задачу F и проектировать системы ИИ для решения этой задачи, причем, независимо от точности решения, мы будем довольны итогом. Если получится составить задачу F с такими свойствами, мы сможем создать доказуемо благотворный ИИ.

Вот пример того, как не нужно это делать. Пусть наградой будет скалярная величина, периодически задаваемая человеком машине в соответствии с тем, насколько хорошо машина вела себя в течение конкретного промежутка времени; и пусть задача F будет задачей максимизации ожидаемой суммы вознаграждений, полученных машиной. Оптимальное решение задачи, вопреки очевидным ожиданиям, заключается не в хорошем поведении, а в том, чтобы контролировать человека-оператора и заставить его обеспечить поток максимальных наград. Перед нами образчик так называемой интерфейсной задачи, которая опирается на наблюдение, что сами люди подвержены тому же поведению, если располагают электронными стимуляторами собственных центров удовольствия.

Полагаю, что может оказаться эффективным следующий подход. Людей можно обоснованно описать как обладающих некими предпочтениями (обычно имплицитными) в отношении будущего – то есть при наличии достаточного времени и неограниченных визуальных средств человек способен выразить свое предпочтение (или безразличие), когда ему предлагается выбор между двумя вариантами будущего, изложенными во всех подробностях. (Эта идеализация игнорирует возможность того, что наш разум объединяет подсистемы с несовместимыми предпочтениями; если так и есть, это ограничивает способность машин оптимально удовлетворять наши предпочтения, но как будто не препятствует нам создавать машины, позволяющие избежать катастрофических результатов.) Формальная задача F решается машиной в данном случае для максимизации человеческих предпочтений применительно к будущему с учетом изначальной неуверенности в их содержании. Кроме того, пусть предпочтения относительно будущего суть скрытые переменные, они опираются на обильные фактические свидетельства, а именно на все человеческие решения, которые когда-либо были приняты. Эта формулировка позволяет обойти проблему, обозначенную Винером: конечно, машина способна узнавать о человеческих предпочтениях все больше и больше, но она никогда не добьется здесь полной определенности.

Более точное определение возможно дать в рамках совместного обучения с обратным подкреплением (CIRL)[39]. Тут задействуются два агента, один из которых – человек, а другой – робот. При двух агентах возникает ситуация, которую экономисты характеризуют как игру. Это игра в частичную информацию, поскольку человеку известна функция вознаграждения, но робот о ней не знает, хотя задача робота состоит в ее максимизации.

Вот простой пример: предположим, что некая женщина по имени Гарриет коллекционирует скрепки и канцелярские булавки, и для нее функция вознаграждения определяется знанием о том, сколько образцов каждого вида имеется в коллекции. Точнее, если у нее есть p скрепок и s булавок, то коэффициент счастья равен θp + (1 – θ) s, где θ есть фактически обменный курс между скрепками и булавками. Если θ равно 1, ей нравятся только скрепки; если θ равно 0, ей нравятся только булавки; если θ равно 0,5, то у нее нет предпочтений, и т. д. Робот Робби занимается производством скрепок и булавок. Смысл игры в том, что Робби хочет сделать Гарриет счастливой, но не знает значения θ, поэтому не уверен, какое количество каждых нужно произвести.

Вот как развивается игра. Пусть истинное значение θ равно 0,49, то есть Гарриет немного предпочитает булавки скрепкам. Давайте предположим, что Робби наделен неким предварительным мнением о θ, то есть он считает, что θ с равной вероятностью может иметь любое значение от 0 до 1. Гарриет проводит небольшую демонстрацию, показывает две скрепки для бумаг или две булавки – либо по одной из каждых. После этого робот может изготовить либо девяносто скрепок, либо девяносто булавок, либо по пятьдесят тех и других. Можно подумать, что Гарриет, которой больше нравятся булавки, следовало бы показать две булавки. Но в этом случае рациональным ответом Робби было бы изготовление девяноста булавок (с общим значением для Гарриет 45,9), что для Гарриет менее желательно, чем по пятьдесят штук тех и других (общее значение 50,0). Оптимальным решением конкретной игры будет демонстрация одной булавки и одной скрепки со стороны Гарриет, вследствие чего Робби затем изготавливает по пятьдесят булавок и скрепок. Способ развития игры тем самым побуждает Гарриет «учить» Робби, пока она считает, что Робби внимательно следит за происходящим.

В рамках CIRL можно формулировать и решать проблему выключателя – то есть разобраться, как помешать роботу деактивировать свой выключатель. (Тьюринг может покоиться с миром.) Робот, который не уверен в предпочтениях человека, действительно выигрывает от выключения, поскольку он понимает, что человек берется за выключатель, чтобы робот не сделал чего-то, противоречащего этим предпочтениям. Потому у робота имеется стимул не мешать выключению, и этот стимул напрямую связан с его неуверенностью относительно предпочтений человека[40].

Пример с выключателем предполагает наличие ряда шаблонов разработки контролируемых агентов и демонстрирует минимум один случай доказуемо благоприятной системы (в том смысле, о котором говорилось выше). В целом этот подход побуждает вспомнить о задачах проектирования механизмов в экономике, когда кто-то стимулирует других вести себя так, как это выгодно ему. Ключевое отличие состоит в том, что мы конструируем одного агента на пользу другому.

Есть основания полагать, что этот подход может доказать свою эффективность на практике. Во-первых, налицо обилие письменных и визуальных (фильмы) свидетельств человеческих действий (на которые реагируют другие люди). Технологии построения моделей человеческих предпочтений из этого массива данных, вероятно, появятся задолго до создания сверхразумных систем ИИ. Во-вторых, роботы наделяются сильными краткосрочными экономическими стимулами к пониманию человеческих предпочтений: если какой-то скверно спроектированный домашний робот примется готовить на обед кошку, не осознавая, что ее «сентиментальная ценность» выше пищевой ценности, индустрия домашних роботов мгновенно прогорит.

Впрочем, существуют очевидные трудности, поскольку этот подход предполагает, что робот будет изучать основные предпочтения в человеческом поведении. Люди иррациональны, непоследовательны, слабовольны и ограничены в своих вычислительных способностях, поэтому их действия далеко не всегда отражают их истинные предпочтения. (Возьмем, к примеру, двух человек, играющих в шахматы. Обычно кто-то проигрывает, но не нарочно!) Поэтому роботы могут обучаться на нерациональном человеческом поведении только при посредстве тщательно проработанных когнитивных моделей человека. Кроме того, практические и социальные ограничения будут препятствовать максимальному удовлетворению всех предпочтений одновременно, а это означает, что роботам придется выступать посредниками между конфликтующими предпочтениями, взваливая на себя бремя, под которым философы и социологи изнемогали на протяжении тысячелетий. Кстати, чему роботы должны научиться у людей, которые наслаждаются страданиями других? Возможно, лучше обнулить такие предпочтения в роботических вычислениях.

Поиск решения задачи управляемости ИИ чрезвычайно важен; быть может, это, цитируя Бострома, «главная задача нашей эпохи». До сих пор исследования в области ИИ фокусировались на системах, которые лучше принимают решения, но это не то же самое, что принимать наилучшие решения. Алгоритмы могут максимизировать превосходно, а модель мироздания может быть сколь угодно точной, однако выбор машины окажется беспросветно глупым в глазах обычного человека, если функция полезности робота плохо согласована с человеческими ценностями.