Это стремление к накоплению и циркуляции является мощной идеологией, лежащей в основе данных. Массовое извлечение – это «новая граница накопления и следующий шаг капитализма», – предполагает Садовски, и это тот основополагающий слой, который обеспечивает функционирование ИИ[251]. Таким образом, существуют целые отрасли, институты и отдельные люди, которые не хотят, чтобы эта граница – где данные находятся в свободном доступе – была поставлена под сомнение или дестабилизирована.
Модели машинного обучения требуют постоянного притока данных для повышения точности. Однако машины никогда не достигают этой точности, что заставляет обосновывать необходимость получения большего количества информации от как можно большего числа людей для подпитки нефтеперерабатывающих заводов ИИ. Это привело к отходу от таких идей, как «субъекты-люди» – концепции, возникшей в ходе дебатов по этике в XX веке, – и к созданию «субъектов данных», скоплений точек информации без субъективности, контекста или четко определенных прав.
Подавляющее большинство университетских исследований в области ИИ проводится без какой-либо этической экспертизы. Но если методы машинного обучения используются для принятия решений в таких важных областях, как образование и здравоохранение, то почему они не подвергаются более тщательному рассмотрению? Чтобы понять, нам нужно обратиться к дисциплинам-предшественникам искусственного интеллекта. До появления машинного обучения, науки о данных в области прикладной математики, статистики и информатики не считались формами исследований, проводимыми на людях.
В первые десятилетия развития ИИ исследования с использованием человеческих данных считались минимально опасными[252]. Несмотря на то, что данные в машинном обучении зачастую поступают от людей и предоставляют сведения о их жизни, исследования, использующие полученную информацию, рассматривались скорее как форма прикладной математики с незначительными последствиями для людей. Инфраструктуры этической защиты, такие как университетские институциональные наблюдательные советы (IRBs), на протяжении многих лет принимали эту позицию[253]. Изначально в этом был смысл; IRBs в подавляющем большинстве случаев фокусировались на методах, характерных для биомедицинских и психологических экспериментов, в которых вмешательство несет явные риски для отдельных субъектов. Компьютерная наука считалась гораздо более абстрактной.
Как только ИИ вышел из лабораторных условий 1980-х и 1990-х годов и перешел в реальные ситуации – например, в попытки предсказать, кто из преступников совершит повторное преступление или кто должен получать социальные пособия, – потенциальный вред расширился. Кроме того, этот вред затрагивает как целые сообщества, так и отдельных людей. Однако до сих пор существует убеждение, будто общедоступные наборы данных представляют минимальный риск и поэтому должны быть освобождены от этической экспертизы[254]. Эта идея является продуктом более ранней эпохи, когда было сложнее перемещать данные из одного места в другое и очень дорого их хранить. Эти ранние предположения не соответствуют тому, что происходит в машинном обучении сейчас. Теперь наборы данных легче соединяются между собой, их можно бесконечно перепрофилировать, постоянно обновлять и часто удалять из контекста сбора.
Профиль риска ИИ быстро меняется по мере того, как его инструменты становятся все более инвазивными, а исследователи все чаще получают доступ к данным без взаимодействия с испытуемыми. Например, группа исследователей машинного обучения опубликовала работу, в которой утверждалось, что они разработали «автоматическую систему для классификации преступлений»[255]. В частности, их внимание сосредоточилось на том, связано ли насильственное преступление с бандой, что, как они утверждали, их нейронная сеть могла предсказать всего по четырем деталям преступления: оружие, количество подозреваемых, район и местоположение. Для этого они использовали набор данных о преступлениях из Департамента полиции Лос-Анджелеса, который включал тысячи преступлений, помеченных полицией как связанные с бандами.
Данные о бандах, как известно, искажены и изобилуют ошибками, однако исследователи используют ее и другие подобные базы в качестве окончательного источника для обучения прогностических систем ИИ. База данных CalGang, например, широко используется полицией в Калифорнии, и, как показал опыт, имеет значительные неточности. Аудитор штата обнаружил, что 23 процента из сотен проверенных им записей не имели достаточных оснований для включения их в базу. Также там содержалось сорок два ребенка, двадцать восемь из которых попали туда за то, что «признали себя членами банды»[256]. Большинство взрослых, включенных в список, никогда ни в чем не обвинялись, но если они попадали туда, исключить их имя было невозможно. Причины внесения могут быть самыми простыми: например, красная рубашка. Из-за таких пустяковых критериев в список часто попадали чернокожие и латиноамериканцы[257].
Когда исследователи представили свой проект по прогнозированию преступности среди банд на конференции, некоторые слушатели встревожились. Как сообщает Science, вопросы из зала звучали так: «Откуда команда знает, что учебные данные изначально объективные?», «Что происходит, когда кого-то ошибочно называют членом банды?» Хау Чан, ученый-компьютерщик, работающий сейчас в Гарвардском университете, ответил, что он не мог знать, как будет использоваться новый инструмент. «На подобного рода этические вопросы я не знаю, как правильно ответить», – сказал он, будучи всего лишь «исследователем». Один из участников конференции ответил цитатой из сатирической песни Тома Лерера о ракетчике военного времени Вернере фон Брауне: «Когда ракеты взлетают, кого волнует, куда они опускаются?»[258].
Такое отделение этических вопросов от технических отражает более широкую проблему в данной области, когда ответственность за причинение вреда либо не признается, либо рассматривается как выходящая за рамки исследования. Как пишет Анна Лорен Хоффман: «Проблема заключается не только в необъективных наборах данных или несправедливых алгоритмах и непреднамеренных последствиях. Она также свидетельствует о более постоянной проблеме, когда исследователи активно воспроизводят идеи, наносящие ущерб уязвимым сообществам и усиливающие и без того существующую несправедливость». Даже если предложенная гарвардской командой система идентификации бандитизма никогда не будет реализована, разве не был уже нанесен определенный вред? Разве их проект сам по себе не является актом культурного насилия?[259] Отстранение от вопросов этики вредно само по себе, оно закрепляет ложную идею о том, что научные исследования происходят в вакууме, без ответственности за идеи, которые они распространяют.
Распространение вредных идей особенно опасно в наше время, когда ИИ превратился из экспериментальной дисциплины, используемой только в лабораториях, в масштабное тестирование на миллионах людей. Технические подходы могут быстро перейти от докладов на конференциях к внедрению в производственные системы, где вредные предположения могут укорениться, и их трудно отменить.
Методы машинного обучения и науки о данных могут создать абстрактные отношения между исследователями и испытуемыми, когда работа ведется на расстоянии, вдали от сообществ и людей, подверженных риску причинения вреда. Такие отношения исследователей ИИ с людьми, чья жизнь отражается в базах данных, являются давно сложившейся практикой. Еще в 1976 году, когда ученый в области ИИ Джозеф Вейзенбаум написал свою язвительную критику этой области, он заметил, что компьютерная наука уже стремится обойти все человеческие контексты[260]. Он утверждал, что системы данных позволяют ученым в военное время работать на психологическом расстоянии от людей, «которые будут искалечены и убиты системами вооружений, созданными на основе их идей»[261]. Ответ, по мнению Вейценбаума, заключается в прямом противостоянии тому, что на самом деле представляют собой данные: «Следовательно, урок заключается в том, что ученый и технолог должен посредством волевых актов и воображения активно стремиться сократить психологические расстояния, противостоять силам, стремящимся отстранить его от последствий действий. Он должен – если так можно сказать – думать о том, что он на самом деле делает»[262].
Вейзенбаум надеялся, что ученые и технологи станут задумываться о последствиях работы и о том, кто может подвергнуться риску. Однако, в области ИИ такой подход не стал стандартом. Вместо этого данные чаще всего рассматриваются как нечто, что можно брать по своему усмотрению, использовать без ограничений и интерпретировать без контекста. В мире практикуется хищническая культура сбора данных, которая носит эксплуатационный и инвазивный характер, и может нанести долгосрочный вред[263]. Кроме того, многие отрасли, учреждения и отдельные лица заинтересованы в поддержании такого колониального отношения – когда данные находятся в свободном доступе, – и они не хотят, чтобы этот процесс подвергался сомнению или как-то регулировался.