Задачи, для решения которых была создана инфраструктура feret, включали, опять же, автоматизированный поиск по фотороботам, а также мониторинг аэропортов и пограничных пунктов, поиск по базам данных водительских прав для «выявления мошенничества» (многочисленные заявления на получение социального обеспечения были конкретным примером, упомянутым в исследовательских работах feret)[222]. Существовало два основных сценария тестирования. В первом сценарии алгоритму представлялся электронный журнал известных людей, который должен был найти ближайшие совпадения из большой галереи. Второй сценарий ориентировался на пограничный контроль и контроль в аэропортах: выявление известного человека – «контрабандистов, террористов или других преступников» – из большой популяции неизвестных людей.
Эти фотографии по своему виду являются машиночитаемыми и не предназначены для человеческих глаз, однако они представляют собой замечательное зрелище. Изображения удивительно красивы – фотографии высокого разрешения, сделанные в стиле портрета. На снимках, сделанных 35-мм камерами в Университете Джорджа Мейсона, изображены самые разные люди, некоторые из которых, кажется, одеты по случаю, с тщательно уложенными волосами, украшениями и макияжем. Первая серия фотографий, сделанных в 1993–1994 годах, представляет собой капсулу времени с прическами и модой начала девяностых годов. Испытуемых просили повернуть голову в разные положения; пролистывая изображения, можно увидеть снимки в профиль, фронтальные снимки, разные уровни освещения, а иногда и разные наряды. Некоторые испытуемые фотографировались в течение нескольких лет, чтобы запустить изучение процесса старения. Каждого испытуемого ознакомили с проектом, и он подписал форму разрешения, одобренную университетским советом по этике. Испытуемые знали, в чем они участвуют, и дали полное согласие[223]. В последующие годы такой уровень согласия станет редкостью.
Feret стала высшей точкой формального стиля «сбора данных», до того, как Интернет начал предлагать массовую добычу без каких-либо разрешений или тщательной работы с камерой. Однако даже на этой ранней стадии существовали проблемы, связанные с недостаточным разнообразием собранных лиц. В документе Feret от 1996 года отмечается, что в ходе исследования «поднимались некоторые вопросы о возрастном, расовом и половом распределении базы данных», но «на данном этапе программы ключевым вопросом стала производительность алгоритма на базе данных большого количества людей»[224]. В конечном счете feret оказалась чрезвычайно полезной. Поскольку интерес к обнаружению террористов усилился, а финансирование инфраструктур для распознавания лиц распознавания лиц резко возросло после 11 сентября, feret превратилась в наиболее часто используемый эталон. С этого момента биометрические системы слежения и автоматизированного видения стали быстро расширяться в масштабах и амбициях.
Интернет, во многих отношениях, изменил все; он стал рассматриваться в области исследований ИИ как нечто сродни природному ресурсу. По мере того как все больше людей стали загружать фотографии на веб-сайты, в сервисы обмена фотографиями и, в конечном итоге, на платформы социальных сетей, началось самое настоящее разграбление. Обучающие наборы данных достигли таких размеров, которые ученые 1980-х годов и представить себе не могли. Исчезла необходимость устраивать фотосессии с использованием множества условий освещения, контролируемых параметров и устройств для позиционирования лица. Теперь существовали миллионы селфи во всех возможных условиях освещения, положения и глубины резкости. Люди начали делиться своими детскими фотографиями, семейными снимками и изображениями того, как они выглядели десять лет назад – идеальный ресурс для отслеживания генетического сходства и старения лица. Ежедневно публиковались триллионы строк текста, содержащего как формальные, так и неформальные формы речи. Все это служило зерном для мельниц машинного обучения. Для примера: в среднем в день в 2019 году в Facebook было загружено около 350 миллионов фотографий и отправлено 500 миллионов твитов[225]. И это только две платформы, расположенные в США. Сети по всему миру были готовы стать обучающим набором для ИИ.
Титаны технологической индустрии теперь находились в сильной позиции: у них появился конвейер бесконечно обновляемых изображений и текстов, и чем больше людей делились контентом, тем больше росло могущество технологической индустрии. Люди с радостью и бесплатно отмечали свои фотографии именами и местоположением, и этот неоплачиваемый труд привел к получению более точных, маркированных данных для машинного зрения и языковых моделей.
В отрасли эти коллекции имеют высокую ценность. Они являются частной собственностью, которой редко делятся, учитывая как вопросы конфиденциальности, так и конкурентные преимущества. Но те, кто не работает в отрасли, например, ведущие лаборатории компьютерных наук в академических кругах, хотят получить те же возможности. Как собирать данные людей и вручную маркировать их с помощью добровольных участников? Вот тогда-то и зародились новые идеи: объединить изображения и текст, взятые из Интернета, трудом низкооплачиваемых краудворкеров.
Одним из наиболее значимых обучающих наборов в искусственном интеллекте является ImageNet. Впервые он был разработан в 2006 году, когда профессор Фей-Фей Ли решил создать огромный набор данных для распознавания объектов. «Мы решили сделать нечто исторически беспрецедентное, – сказал Ли. – Мы составим карту объектов всего мира»[226]. Прорывной исследовательский плакат был опубликован командой ImageNet на конференции по компьютерному зрению в 2009 году. Он открывался таким описанием:
«Цифровая эра породила колоссальный взрыв данных. По последним оценкам, число фотографий на Flickr превышает 3 миллиарда, аналогичное число видеоклипов выгружено на YouTube и еще большее число изображений – в базе данных Google Image Search. Используя эту информацию, можно предложить более сложные и надежные модели и алгоритмы, что приведет к созданию более совершенных приложений для пользователей, позволяющих индексировать, извлекать, организовывать и взаимодействовать с этими данными»[227].
С самого начала данные характеризовались как нечто объемное, неорганизованное, обезличенное и готовое к использованию. По словам авторов, «как именно можно использовать и организовать такие данные – проблема, которую еще предстоит решить». Извлекая миллионы изображений из Интернета, в основном из поисковых систем с помощью опции поиска изображений, команда создала «крупномасштабную онтологию», которая должна была служить ресурсом для «обеспечения критически важных данных для обучения и сравнения» алгоритмов распознавания объектов и изображений. Используя этот подход, ImageNet выросла до огромных размеров. Команда собрала более четырнадцати миллионов изображений из Интернета, которые затем были распределены по более чем двадцати тысячам категорий. Этические проблемы, связанные с получением данных людей, не были упомянуты ни в одной из исследовательских работ команды, даже несмотря на то, что тысячи изображений носили личный и компрометирующий характер.
После того как фотографии были взяты из Интернета, возникла серьезная проблема: кто будет их маркировать и объединять в понятные категории? Как рассказывает Ли, первый план команды состоял в том, чтобы нанять студентов старших курсов за десять долларов в час для поиска изображений вручную и добавления их в набор данных[228]. Но она поняла, что с их бюджетом на завершение проекта уйдет более девяноста лет. Ответ нашелся, когда один из студентов рассказал Ли о новом сервисе: Amazon Mechanical Turk. Как мы видели во второй главе, эта платформа подразумевала возможность привлечения распределенной рабочей силы для выполнения онлайн-задач, таких как маркировка и сортировка изображений, в широких масштабах и по низкой цене. «Он показал мне сайт, и буквально в тот же день мне стало ясно, что проект ImageNet будет реализован, – говорит Ли. – Внезапно мы нашли инструмент, о котором и мечтать не могли: мы наняли студентов старших курсов Принстона»[229]. Неудивительно, что выпускники не получили работу.
ImageNet на некоторое время стала крупнейшим в мире академическим пользователем Mechanical Turk, задействовав армию разнорабочих для сортировки в среднем пятидесяти изображений в минуту по тысячам категорий[230]. Существовали категории для яблок и самолетов, аквалангистов и борцов сумо. Но были и жестокие, оскорбительные и расистские ярлыки: фотографии людей классифицировались по таким категориям, как «алкоголик», «человек-обезьяна», «сумасшедший», «проститутка» и «косоглазый». Все эти термины были взяты из лексической базы данных WordNet и предоставлены участникам для сопоставления с изображениями. За десять лет ImageNet превратилась в эталон распознавания объектов для машинного обучения. Подход, при котором массовое извлечение данных без согласия и маркировка осуществлялись низкооплачиваемыми работниками, стал стандартной практикой, и сотни новых обучающих наборов данных последовали примеру ImageNet. Как мы увидим в следующей главе, эти методы и созданные ими маркированные данные в конечном итоге стали преследовать проект.
В первые годы двадцать первого века произошел отказ от сбора данных по согласию. Помимо отказа от постановочных фотосессий, стала распространяться идея, что содержимое Интернета является их собственностью, не требуя соглашений, подписанных релизов и этических экспертиз. С тех пор начали появляться еще более тревожные практики извлечения информации. Например, в кампусе Колорадо-Спрингс Университета Колорадо профессор установил камеру на главной аллее кампуса и тайно сделал фотографии более 1700 студентов и преподавателей – все для того, чтобы обучить собственную систему распознавания лиц