Глава 8Риски, сопутствующие ИИ
Начало ноября. До выборов президента Соединенных Штатов Америки остается всего два дня. Кандидат от демократов большую часть своего пути в политике посвятила борьбе за расширение гражданских прав и поддержке обособленных социальных групп. Ее достижения на этом поприще не имеют себе равных. Поэтому, когда в соцсетях всплывает и моментально становится вирусной аудиозапись ее разговора, который должен был остаться приватным, это становится потрясением. В разговоре кандидат не только высказывает откровенно расистские мысли, но и открыто — и даже со смехом — признает, что всю жизнь успешно скрывает свою нетерпимость.
Через час после обнародования этой аудиозаписи кандидатка яростно отрицает ее подлинность. Никто, знающий ее лично, не поверит, что она могла такое сказать, и десятки людей выступают в ее поддержку. Однако никто из поверивших ей не может опровергнуть очень неприятный факт: это ее голос. Практически каждый слушатель узнает в записи голос кандидатки. Характерное произношение некоторых слов и фраз, интонация — похоже, все однозначно указывает на женщину, которую большинство американцев предполагали вскоре увидеть в кресле президента.
Аудиозапись стремительно распространяется в интернете и постоянно воспроизводится по кабельному телевидению, мир соцсетей растерянно и негодующе бурлит. Прежде чем добиться выдвижения в качестве кандидата от демократов, эта политическая деятельница выстояла в жесткой борьбе во время предварительных выборов, а теперь некоторые разъяренные противники призывают ее снять свою кандидатуру.
Руководители избирательной кампании немедленно нанимают группу экспертов для независимой оценки аудиофайла. После углубленного изучения в течение целого дня эксперты заявляют, что эта запись, вероятно, является «дипфейком» — аудио, сгенерированным алгоритмами, которые были обучены на огромном множестве примеров речи кандидатки. Предупреждения об опасности дипфейков звучат не первый год, но до сих пор сфабрикованные свидетельства были редкими и легко разоблачались. Сейчас другое дело — ясно, что технология существенно усовершенствовалась. Даже группа экспертов не может с абсолютной уверенностью утверждать, что аудиофайл является фейком, а не подлинной записью.
Опираясь на решение группы экспертов, руководители избирательной кампании добиваются изъятия большинства онлайновых копий аудиофайла, но его уже услышали миллионы. В преддверии выборов встает несколько принципиальных вопросов. Все ли, прослушавшие запись, знают, что это, вероятно, фейк? Могут ли избиратели, которым сказали, что запись сфабрикована, «забыть» произнесенные с ненавистью слова, намертво въевшиеся в память, особенно если они принадлежат к упомянутой в разговоре этнической группе? Не снизит ли этот аудиоклип явку избирателей из сообществ, являющихся главной опорой Демократической партии? Если же она проиграет, не сочтут ли большинство американцев, что выборы были «украдены»? Что тогда произойдет?
Понятно, что вышеописанный сценарий выдуман, но возможность подобного события, причем в ближайшие годы, совершенно реальна. Если вы в этом сомневаетесь, вспомните, как в июле 2019 года фирма из сферы кибербезопасности Symantec рассказала, что преступники, используя аудиофейки, уже выманили у трех неназванных компаний миллионы долларов[294]. Во всех трех случаях злоумышленники использовали сгенерированный ИИ аудиоклип, в котором голос генерального директора в сфабрикованном телефонном разговоре приказывал финансовому отделу перевести деньги на незаконный банковский счет. В случае гендиректоров компаний — как и случае кандидата в президенты из вышеприведенного выдуманного примера — обычно имеется богатый источник онлайновых аудиоданных (речей, выступлений на телевидении и т. д.), на которых можно обучать машинные алгоритмы. Поскольку эта технология пока не позволяет производить высококачественное аудио, преступники специально добавляли фоновый шум (скажем, звуки уличного движения), чтобы скрыть огрехи. Однако качество дипфейков, безусловно, резко повысится в ближайшие годы, и со временем, скорее всего, вымысел станет практически неотличимым от правды.
Использование дипфейков в неблаговидных целях — а сгенерировать можно не только аудиозапись, но и фотографии, видео и даже связный текст — лишь один из серьезных рисков, которые несет нам развитие искусственного интеллекта. Из предыдущей главы мы знаем, что технологии слежения и распознавания лиц на основе ИИ могут уничтожить саму идею неприкосновенности частной жизни и привести нас в оруэлловское будущее. В этой главе мы рассмотрим несколько других проблем, возникновения которых следует ожидать в связи с расширением возможностей ИИ.
Что реальность, а что иллюзия? Дипфейки и угрозы безопасности
Дипфейки часто создаются с помощью инновации в области глубокого обучения, так называемой генеративно-состязательной сети (generative adversarial network, GAN). GAN вовлекает две конкурирующие нейронные сети в своего рода игру, которая непрерывно побуждает систему создавать все более качественное медийную имитацию. Например, GAN, созданная с целью подделки фотографий, должна состоять из двух интегрированных глубоких нейронных сетей. Первая, «генератор», фабрикует изображения. Вторая, обученная на комплексе реальных фотографий, называется «дискриминатор». Изображения, созданные генератором, перемешиваются с настоящими фотографиями и предоставляются дискриминатору. Две сети непрерывно взаимодействуют, участвуя в состязании, где дискриминатор оценивает каждую фотографию, созданную генератором, и решает, реальная она или поддельная. Задача генератора — обмануть дискриминатор, подсунув фальшивые фотоснимки. В процессе соревнования сетей, по очереди совершающих ходы, качество изображений растет, пока наконец система не достигнет равновесия, при котором дискриминатору остается лишь гадать, является ли анализируемое изображение настоящим. Этим методом можно получить невероятно впечатляющие сфабрикованные изображения. Введите в интернете запрос «фейковые лица GAN» и получите бесчисленные примеры изображений никогда не существовавших людей в высоком разрешении. Попробуйте поставить себя на место сети-дискриминатора. Фотографии выглядят совершенно реальными, но это иллюзия — изображение, возникшее из цифрового эфира.
Генеративно-состязательные сети были изобретены аспирантом Монреальского университета Яном Гудфеллоу. Как-то вечером в 2014 году Гудфеллоу с приятелем сидел в баре и рассуждал о том, как создать систему глубокого обучения, способную генерировать высококачественные изображения. Приняв на грудь неизвестное количество кружек пива, Гудфеллоу предложил концепцию генеративно-состязательной сети, встреченную крайне скептически. Вернувшись домой, он сразу же сел писать код. Через несколько часов у него была первая работоспособная GAN. Это достижение впоследствии сделало Гудфеллоу одной из легенд в области сетей глубокого обучения. Ян Лекун, ведущий исследователь в Facebook, называет генеративно-состязательные сети «крутейшей идеей в глубоком обучении за последние 20 лет»[295]. Защитив докторскую диссертацию в Монреальском университете, Гудфеллоу работал в проекте Brain и в DeepMind компании Google и сейчас является директором Apple по машинному обучению. Он также основной автор университетского учебника по глубокому обучению.
У генеративно-состязательных сетей есть множество полезных применений. В частности, синтезированные изображения или другие медиафайлы можно использовать как обучающие данные для других систем. Например, на изображениях, созданных с помощью GAN, можно обучать глубокие нейронные сети беспилотных автомобилей. Предлагалось также использовать сгенерированные лица небелых людей для обучения систем распознавания лиц, решив таким образом проблему расовой предвзятости в случаях, когда невозможно этичным образом получить достаточное количество высококачественных фотографий реальных цветных людей. Что касается синтеза голоса, то GAN могут дать людям, утратившим дар речи, сгенерированную компьютером замену, которая звучит так же, как звучал их реальный голос. Известным примером является ныне покойный Стивен Хокинг, утративший возможность разговаривать из-за бокового амиотрофического синдрома, или болезни Лу Герига, и «говоривший» характерным синтезированным голосом. В последнее время страдающие этим заболеванием, например игрок НФЛ Тим Шоу, получили возможность говорить собственным голосом, восстановленным сетями глубокого обучения, которые были обучены на записях, сделанных до болезни.
Однако потенциал злоупотребления этой технологией существует и очень соблазнителен для многих технически подкованных индивидов. Подтверждения уже имеются, например доступные широкой аудитории фейковые видеоклипы, созданные в шутку или с образовательными целями. Можно найти множество фейковых видео с «участием» знаменитостей вроде Марка Цукерберга, которые говорят такое, что они вряд ли сказали бы, по крайней мере публично. Один из самых известных примеров создал актер и комик Джордан Пил, имитатор голоса Барака Обамы, совместно с BuzzFeed. В социальном ролике Пила, призванном рассказать общественности об опасности дипфейков, Обама говорит, например, что «президент Трамп — это полное и абсолютное дерьмо»[296]. Голос Обамы в данном случае имитирует Пил, а на реальном видео изменили артикуляцию президента Обамы так, чтобы движение его губ совпадало со словами, которые произносит Пил. Настанет момент, когда в подобных видео и голос будет фабриковаться компьютером.
Самый распространенный метод создания дипфейков заключается в цифровом переносе лица одного человека в реальную видеозапись другого. По данным стартапа Sensity (бывший Deeptrace), создающего инструменты распознавания дипфейков, в 2019 году в интернет было выложено не менее 15 000 дипфейков, что на 84 % больше, чем в предыдущем году