енно пытаться отличить зебру от лошади или тигра.
Обратите внимание: все эти примеры иллюстрируют, что CNN может делать, но в реальной работе сеть сама решает, какие признаки (полосы, уши или вообще нечто лежащее за рамками человеческого понимания) будут использованы для максимизации целевой функции.
CNN — это специфическая и улучшенная архитектура глубокого обучения, разработанная для компьютерного зрения, с различными вариантами для изображений и видео. Идея таких сетей возникла в 1980-х годах, у ученых тогда не было ни достаточного объема данных, ни вычислительных мощностей, чтобы продемонстрировать, на что эти сети способны.
Только в 2012 году стало ясно, что данная технология превосходит все предыдущие подходы к компьютерному зрению. По счастливому совпадению, примерно в это же время пользователи сняли на сильно подешевевшие и из-за этого массово распространившиеся смартфоны огромное количество фото и видео и выложили их в социальные сети. Примерно тогда же стали более доступными быстродействующие компьютеры и хранилища данных большого объема. Все эти факторы в совокупности способствовали рывку в развитии и распространении этой замечательной технологии.
«Президент Трамп — полный и абсолютный ушлепок», — заявил однажды на камеру президент Обама… Ну или это был человек, который выглядел и говорил совсем как Барак Обама. В конце 2018 года видео стало вирусным, но это был дипфейк — поддельный ролик, смонтированный с помощью технологии глубокого обучения. Известны даже авторы — режиссер Джордан Пил и новостная интернет-медиакомпания BuzzFeed.
Пил записал фразу, ИИ преобразовал голос режиссера в голос Обамы. Затем ИИ взял реальное видео Обамы и отредактировал так, чтобы оно максимально соответствовало словам, включая артикуляцию, соответствующую мимику и выражение лица.
Джордан Пил сделал это с конкретной целью — так он хотел предупредить людей о скором наступлении дипфейков, что, собственно, и произошло. Уже в том же году в интернет оказались загружены несколько дипфейковых порнороликов со знаменитостями, это привело к скандалу и в конечном счете к новому закону, призванному решить эту проблему. Но появление дипфейков это уже не остановило.
В Китае в 2019 году было создано приложение, способное за считаные минуты превратить ваше селфи в главного героя какого-нибудь известного фильма. Оно сохраняет оригинальный саундтрек, что существенно снижает технологические требования к процессу.
Программа Avatarify возглавила в 2021 году рейтинг Apple App Store. Она «оживляет» любую фотографию, заставляя человека на ней петь или смеяться.
Короче говоря, дипфейки вдруг стали мейнстримом, и уже любой юзер без особого труда может сам изготовить фейковое видео (пусть и дилетантское, и видимое для детекторов, а зачастую и для человеческого глаза).
Сказанное означает, что в будущем возможна подделка любого цифрового материала, будь то онлайн-видео, заранее записанная речь, кадры с камеры видеонаблюдения или видео с уликами из зала суда. В нашей истории Амака использует инструменты, гораздо более продвинутые, чем имелись в распоряжении Пила, создает сложное, высококачественное видео, подделку, которую не распознает ни человеческий глаз, ни обычное программное обеспечение для обнаружения дипфейков.
Сначала он использует инструмент для преобразования любого текста в звукоряд, который станет неотличим от голоса Репо. Затем он синхронизирует эту речь с лицом Репо с соответствующей мимикой и эмоциями. Далее это лицо накладывается на изображение АФАКа из ранее снятого видео с соответствующими руками, шеей, ступнями и даже его уникальными паттернами пульса и дыхания. А продвинутый ИИ образца 2041 года обеспечивает совершенно бесшовное соединение всех частей тела в нужных местах.
Помимо этого подхода к созданию «фейковых людей», основанного на видео, существует еще 3D-подход, включающий в себя построение трехмерной модели человека исключительно с помощью вычислений. Именно так, например, снимаются полнометражные анимационные картины вроде «Истории игрушек»[29].
Данный подход базируется на другой области информатики — на компьютерной графике. В ней все моделируется математически, и для волос, ветра, света, теней и проч. нужно разрабатывать реалистичные математические модели. Этот трехмерный подход обеспечивает «продюсера» гораздо большей свободой действий, позволяя ему манипулировать каждым персонажем, как только заблагорассудится, однако и сложность, и требования к вычислительным мощностям тут намного выше.
Компьютеры в 2021 году еще не умеют снимать полнометражные фильмы с использованием 3D-видео, способного обмануть человеческий глаз (вот почему люди в анимационных фильмах выглядят не вполне реалистично), не говоря уже о программах-детекторах. Но к 2041 году наверняка появятся фотореалистичные 3D-модели, о которых мы подробнее поговорим в других главах этой книги — «Воробьи-близнецы» и «Мой призрачный кумир».
Джордан Пил создал дипфейк ради развлечения и в назидание, а в нашем рассказе агент Чи вербует Амаку для изготовления дипфейка с конкретным злым умыслом. Помимо распространения сплетен дипфейки могут быть использованы для шантажа, преследования, клеветы, манипуляций на выборах.
Как делаются дипфейки? Как научить ИИ выявлять их? Кто победит — софт для создания дипфейков или программы для их обнаружения? Чтобы ответить на эти вопросы, необходимо разобраться в механизме, который генерирует дипфейки, — в генеративно-состязательных сетях (GAN — generative adversarial networks).
Дипфейки базируются на технологии, называемой генеративными состязательными сетями. Как следует из названия, GAN — это пара «состязательных» нейронных сетей глубокого обучения. Первая сеть, генератор, пытается создать что-то, что выглядит реалистично (скажем, синтезированное изображение собаки), основываясь на миллионах изображений собак.
Вторая сеть, дискриминатор (сеть-детектив), сравнивает синтезированное изображение собаки из первой сети с подлинными изображениями собаки и определяет, является ли выход генератора подлинным или фальшивым.
Основываясь на обратной связи от дискриминатора, генератор переобучается так, чтобы в следующий раз обмануть дискриминатор. Он самокорректируется, минимизируя «функцию потерь», то есть различия между сгенерированным и реальным изображением. Затем переобучается и дискриминатор, и ему становится легче распознавать фейки — «функция потерь» максимизируется. Эти два процесса повторяются миллионы раз; обе сети совершенствуют свои навыки до тех пор, пока не возникает устойчивое равновесие.
Первая статья о GAN была опубликована в 2014 году. Ее автор Ян Гудфеллоу показал, как генератор сначала создал симпатичную, но явно фейковую «собаку-мячик», которую дискриминатор мгновенно обнаружил, и как первая сеть постепенно научилась создавать фейковые изображения собак, неотличимые от реальных. С тех пор эту технологию применили к видео, речи и многим другим типам контента, в том числе и для создания печально знаменитого видео Обамы, о котором я упомянул ранее.
Можно ли обнаружить дипфейки, созданные GAN? Из-за их относительно рудиментарной природы и ограничений современных вычислительных мощностей большинство дипфейков сегодня обнаруживаются алгоритмами, а иногда и видны невооруженным человеческим глазом.
Facebook и Google уже вступили в состязание по разработке софта для обнаружения дипфейков. Эффективные детекторы дипфейков можно создать и сегодня, но это требует огромных вычислительных мощностей, что является весьма серьезной проблемой, если на ваш веб-сайт ежедневно загружаются миллионы видео и фото.
Однако в долгосрочной перспективе наибольшая сложность состоит в том, что GAN оснащена встроенным механизмом для апгрейда сети-генератора. Допустим, вы обучили генератор GAN, а кто-то другой придумал новый алгоритм для обнаружения вашего дипфейка. Вы можете просто переобучить генератор GAN, чтобы обмануть этот алгоритм-дискриминатор. Так начинается что-то вроде гонки вооружений — каждая из сторон старается переобучить лучшую модель на еще более мощном компьютере.
В нашем рассказе более ранний ролик (про мальчика-вампира) Амака изготовил с помощью относительно простых инструментов в интернет-кафе, на минимальных вычислительных мощностях. Видео получилось достаточно хорошим, чтобы обмануть людей; в 2041 году фейковые видео были уже вполне убедительными, чтобы люди не отличали их от реальных.
Однако видео не смогло обмануть GAN-детектор сайта, на котором его разместили (его обучали с использованием гораздо больших вычислительных мощностей), поэтому оно впоследствии было удалено с сайта и заблокировано.
А позже Чи предоставил Амаке мощный компьютер для обучения сложной GAN, умеющей генерировать не только лицо, но и кисти рук, пальцы, походку, жесты, голос и мимику. Кроме того, эта GAN обучалась на огромном количестве данных, доступных в сети по такой знаменитости, как Репо — мишень Амаки. В результате Амака сумел обмануть все обычные детекторы дипфейков.
Представьте себе ювелирный магазин с пуленепробиваемыми витринами, способными защитить от любых видов стрелкового оружия. Но если у преступника будет ручной противотанковый гранатомет (РПГ), никакое пуленепробиваемое стекло перед ним не устоит. Так что все дело в мощности компьютера.
К 2041 году антидипфейковые программы станут похожими на сегодняшний антивирусный софт. Правительственные, новостные и другие сайты, для которых достоверность информации критически важна, не потерпят фальшивого контента и потому будут устанавливать высококачественные детекторы дипфейков, предназначенные для выявления подделок с высоким разрешением, которые, в свою очередь, создадут крупные сети GAN, обученные на мощнейших компьютерах.