Атлас искусственного интеллекта: руководство для будущего — страница 21 из 57

[231]. В рамках аналогичного проекта в Университете Дьюка без ведома учащихся были собраны кадры более двух тысяч студентов, когда они шли с занятий на занятия, а затем результаты появились в Интернете. База данных, названная DukeMTMC (для многоцелевого, многокамерного распознавания лиц), финансировалась Управлением армейских исследований США и Национальным научным фондом[232].

Проект DukeMTMC подвергся резкой критике после того, как расследовательский проект художников и исследователей Адама Харви и Жюля Лапласа показал, что китайское правительство использует изображения для обучения систем наблюдения за этническими меньшинствами. Это послужило толчком к проведению расследования наблюдательным советом, который решил, что подобный метод – это «значительное отклонение» от приемлемой практики. Набор данных был удален из Интернета[233].

Но то, что произошло в Университете Колорадо и Дьюке, далеко не единичные случаи. В Стэнфордском университете исследователи заполучили веб-камеру популярного кафе в Сан-Франциско, чтобы получить почти двенадцать тысяч изображений «повседневной жизни оживленного кафе в центре города» без чьего-либо согласия[234]. Снова и снова данные, полученные без разрешения или согласия, загружались для исследователей машинного обучения, которые затем использовали их в качестве инфраструктуры для автоматизированных систем визуализации.

Другой пример – знаковая обучающая база данных MS-Celeb компании Microsoft, которая в 2016 году собрала из Интернета около десяти миллионов фотографий ста тысяч знаменитостей. На тот момент это была крупнейшая в мире публичная база данных распознавания лиц, в которую вошли не только известные актеры и политики, но и журналисты, активисты и художники[235]. По иронии судьбы, некоторые из тех, кто попал в базу без согласия, известны своей работой, критикующей слежку и само распознавание лиц, включая режиссера-документалиста Лору Пойтрас, активистку за цифровые права Джиллиан Йорк, критика Евгения Морозова и автора книги «Капитализм слежки» Шошану Зубофф[236].

Даже когда наборы данных очищаются от личной информации и публикуются с большой осторожностью, люди повторно идентифицируются, разоблачая детали. Например, в 2013 году Нью-Йоркская городская комиссия по такси и лимузинам опубликовала данные о 173 миллионах индивидуальных поездок на такси, которые включали время заезда и выезда, местоположение, стоимость проезда и размер чаевых. Номера таксистов были скрыты, однако проблема была быстро устранена, что позволило исследователям вывести такую конфиденциальную информацию, как годовой доход и домашний адрес[237]. После объединения с публичной информацией из таких источников, как блоги знаменитостей, удалось идентифицировать некоторых актеров и политиков, а также вывести адреса людей, посещающих стриптиз-клубы[238]. Помимо индивидуального вреда, такие базы данных генерируют «прогнозируемый вред конфиденциальности» для целых групп или сообществ[239]. Например, один и тот же набор данных о такси в Нью-Йорке использовали для того, чтобы предположить, какие таксисты являются мусульманами, наблюдая за тем, когда они останавливаются во время молитвы[240].

Из любой, казалось бы, безобидной и обезличенной базы может появиться множество неожиданных и очень личных форм информации, однако этот факт не помешал сбору изображений и текста. Поскольку успех машинного обучения зависит от более обширных наборов данных, все больше людей стремятся их получить. Но почему широкое поле ИИ принимает эту практику, несмотря на этические, политические и эпистемологические проблемы и потенциальный вред? Какие убеждения, оправдания и экономические стимулы нормализовали это массовое получение и общую эквивалентность данных?

Мифы и метафоры о данных

В часто цитируемой истории искусственного интеллекта, написанной профессором ИИ Нильсом Нильсоном, изложено несколько основополагающих мифов о данных в машинном обучении. Он хорошо иллюстрирует, как данные обычно описываются в технических дисциплинах: «Огромный объем необработанных данных требует эффективных методов „добычи“ для классификации, количественной оценки и извлечения полезной информации. Методы машинного обучения играют все более важную роль в анализе данных, поскольку они могут работать с огромными объемами. Фактически, чем больше данных, тем лучше».[241]

Вторя Роберту Мерсеру десятилетиями ранее, Нильсон считал, что данные находятся везде, где только можно, и тем лучше для массовой классификации алгоритмами машинного обучения[242]. Это было настолько распространенное убеждение, что оно стало аксиомой: данные существуют для того, чтобы их приобретали, уточняли и делали ценными.

Вместе с тем, корыстные интересы старательно создавали и поддерживали эту веру на протяжении долгого времени. Как отмечают социологи Марион Фуркад и Киран Хили, предписание собирать данные исходило не только от специалистов по сбору данных, но и от их институтов и технологий:


Институциональная команда, исходящая от технологии, является самой мощной из всех: мы занимаемся этими задачами, потому что мы можем… Профессионалы рекомендуют, институциональная среда требует, а технология позволяет организациям собирать как можно больше индивидуальных данных. Неважно, что собранные объемы могут значительно превышать возможности воображения или аналитической хватки компании. Предполагается, что в конечном итоге они окажутся полезными, т. е. ценными… Современные организации как в культурном плане руководствуются императивом данных, так и располагают новыми инструментами для его реализации[243].


Это породило своего рода моральный императив сбора данных, независимо от возможных негативных последствий. За сомнительной верой в то, что «больше – значит лучше», стоит глубокая идея: человека можно понять, когда будет собрано достаточно разрозненных данных.[244] Но что считается данными?

Историк Лиза Гительман отмечает, что каждая дисциплина и институт «имеют свои собственные нормы и стандарты для воображения данных»[245]. В двадцать первом веке данные стали всем, что можно собрать.

Такие термины как «извлечение данных» и фразы типа «данные – это новая нефть» являются частью риторического хода, который сместил понятие данных с чего-то личного, интимного или подлежащего индивидуальному владению и контролю на что-то более инертное и нечеловеческое. Данные стали описывать как ресурс, который нужно потреблять, поток, который нужно контролировать, или инвестиции, которые нужно использовать[246]. Выражение «данные как нефть» стало общепринятым, и хотя оно наводит на мысль о сыром материале, его редко используют, чтобы подчеркнуть издержки нефтяной и горнодобывающей промышленности: подневольный труд, геополитические конфликты, истощение ресурсов и последствия, выходящие за рамки человеческих временных масштабов.

В конечном итоге «данные» стали бескровным словом; оно маскирует как их материальное происхождение, так и цели. А если данные рассматриваются как абстрактные и нематериальные, то они легче выходят за рамки традиционного понимания и ответственности за заботу, согласие или риск.

Как утверждают исследователи Люк Старк и Анна Лорен Хоффман, метафора данных как «природного ресурса», который только и ждет, чтобы его добыли, является устоявшимся риторическим приемом, веками используемым колониальными державами[247]. Добыча оправдана, если она происходит из примитивного и «нерафинированного» источника[248]. Если данные представляют как нефть, которая только и ждет, чтобы ее добыли, то машинное обучение стало рассматриваться как процесс ее необходимой очистки. Данные стали также рассматриваться как капитал, что соответствует более широкому неолиберальному видению рынков как первичных форм организации стоимости. Когда человеческая деятельность выражается в цифровых следах, а затем подсчитывается и ранжируется, она функционирует как способ извлечения стоимости. Как отмечают Фуркад и Хили, те, кто имеет правильные сигналы данных, получают такие преимущества, как страхование и более высокое положение на рынке[249]. Те, кто добился высоких результатов в основной экономике, как правило, преуспевают и в экономике, основанной на подсчете данных, в то время как самые бедные становятся объектами самых вредных форм наблюдения и извлечения. Социолог Джэтан Садовски также утверждает, что данные теперь функционируют как форма капитала. Он считает, что такой подход оправдывает цикл постоянно растущего сбора информации: «Таким образом, сбор данных обусловлен вечным циклом накопления капитала, который, в свою очередь, заставляет капитал строить мир, где все состоит из данных, и полагаться на него». Предполагаемая универсальность данных преобразует любые процессы в область действия капитализма. Если вселенная воспринимается как потенциально бесконечный запас информации, то это означает, что накопление и циркуляция данных может поддерживаться вечно