.
В конечном итоге Amazon свернула свой эксперимент по найму сотрудников. Но масштаб проблемы предвзятости простирается гораздо глубже, чем одна система или неудачный подход. Индустрия ИИ традиционно понимала проблему предвзятости так, как будто это ошибка, которую нужно устранить, а не особенность самой классификации. В результате основное внимание уделялось корректировке технических систем для достижения большего количественного паритета между разрозненными группами, что, как мы увидим, создало свои собственные проблемы. Понимание связи между предвзятостью и классификацией требует не только анализа производства знания – например, определения того, является ли набор данных объективным или нет, – но и изучения самой механики построения знания, того, что социолог Карин Кнорр Цетина называет «эпистемическим механизмом»[290]. Чтобы понять это, необходимо проследить, как модели неравенства в истории формируют доступ к ресурсам и возможностям, которые, в свою очередь, формируют данные. Затем эти данные извлекаются для использования в технических системах классификации и распознавания образов, что приводит к результатам, которые воспринимаются как некие объективные. В итоге получается статистический уроборос: машина дискриминации, усиливающая социальное неравенство под прикрытием технической нейтральности.
Чтобы лучше понять ограничения в анализе предвзятости ИИ, мы можем обратиться к попыткам ее исправить. В 2019 году компания IBM попыталась ответить на опасения по поводу необъективности в своих системах ИИ, создав, по словам компании, более «инклюзивный» набор данных под названием Diversity in Faces (DiF)[291]. DiF – это часть ответной реакции отрасли на революционную работу, опубликованную годом ранее исследователями Джоем Буоламвини и Тимнит Гебру, которая показала, что несколько систем распознавания лиц, включая системы IBM, Microsoft и Amazon, имеют гораздо более высокий процент ошибок в отношении людей с темной кожей, особенно женщин[292]. В результате, все три компании прилагали усилия, чтобы показать прогресс в исправлении проблемы.
«Мы ожидаем, что распознавание лиц станет работать без погрешностей», – пишут исследователи IBM. Однако единственным способом решения «проблемы разнообразия» оказалось создание «набора данных, состоящего из лиц каждого человека в мире»[293]. Исследователи IBM решили воспользоваться уже существующей базой данных из ста миллионов изображений, взятых из Flickr, крупнейшей на тот момент общедоступной коллекции в Интернете[294]. Затем они взяли один миллион фотографий в качестве небольшой выборки и измерили черепно-лицевые расстояния между ориентирами на каждом лице: глаза, ширина носа, высота губ, высота бровей и так далее. Подобно Мортону, измерявшему черепа, исследователи IBM стремились распределить показатели и создать категории различий.
Команда IBM утверждала, что их целью являлось увеличение разнообразия данных распознавания лиц. Несмотря на благие намерения, используемые ими классификации раскрывают политику того, что означает разнообразие в данном контексте. Например, чтобы обозначить пол и возраст лица, команда поручила пользователям создать субъективные аннотации, используя ограничительную модель бинарного пола. Любой человек, который, как казалось, выходил за рамки этой бинарной модели, удалялся из базы. Видение IBM о многообразии подчеркивало обширные варианты высоты черепной орбиты и переносицы, но не учитывало существование транс- и небинарных людей. «Справедливость» свелась к более высокой точности машинного распознавания лиц, а «разнообразие» означало широкий спектр лиц для обучения модели. Краниометрический анализ функционирует как приманка и подмена, в конечном итоге деполитизируя идею разнообразия и заменяя ее акцентом на вариативности. Создатели получают возможность решать, что такое переменные и как люди распределяются по категориям. Опять же, практика классификации – это централизация власти: власти решать, какие различия имеют значение.
Далее исследователи IBM делают еще более проблематичный вывод: «Аспекты нашего наследия – включая расу, этническую принадлежность, культуру, географию – и наша индивидуальная идентичность – возраст, пол и видимые формы самовыражения – отражаются на наших лицах»[295]. Это утверждение противоречит десятилетиям исследований, которые опровергли идею о том, что раса, пол и идентичность являются скорее биологическими категориями, чем политическими, культурными и социальными[296]. Встраивание убеждений об идентичности в технические системы, как будто они являются фактами, наблюдаемыми со стороны, является примером того, что Симона Браун называет «цифровой эпидермализацией», навязыванием расы телу. Браун определяет этот феномен как осуществление власти, когда бесплотный взгляд технологий наблюдения «делает работу по отчуждению субъекта, производя „правду“ о теле и своей идентичности (или идентичностях) вопреки утверждениям субъекта»[297].
Основополагающие проблемы подхода IBM к классификации разнообразия проистекают из такого рода централизованного производства идентичности под руководством методов машинного обучения, которые были доступны команде. Определение цвета кожи делается потому, что это возможно сделать, а не по той причине, что это говорит о расе или о глубоком понимании культуры. Аналогично, использование измерения черепа происходит потому, что это метод, который может быть выполнен с помощью машинного обучения. Возможности инструментов становятся горизонтом истины. Возможность применения черепных измерений и цифровой эпидермализации в масштабе стимулирует желание найти смысл в этих подходах, даже если этот метод не имеет ничего общего с культурой, наследием или разнообразием. Они используются для повышения проблематичного понимания точности. Технические утверждения о достоверности и производительности обычно пронизаны политическим выбором категорий и норм, но редко признаются таковыми[298]. Эти подходы основаны на идеологической предпосылке биологии как предназначения, где наши лица становятся нашей судьбой.
С древности акт классификации ассоциировался с властью. В теологии способность называть и разделять вещи считалась божественным актом. Слово «категория» происходит от древнегреческого katēgoríā, образованного из двух корней: kata (против) и agoreuo (говорить публично). В греческом языке это слово означает либо логическое утверждение, либо обвинение в судебном процессе, что указывает как на научные, так и на юридические методы категоризации.
Историческая родословная «предубеждения (bias)» как термина намного более поздняя. Впервые он появляется в геометрии XIV века, где обозначает косую или диагональную линию. К шестнадцатому веку он приобрел нечто похожее на свое нынешнее значение – «неоправданное предубеждение». К 1900-м годам «bias» приобрел более техническое значение в статистике, где обозначает систематические различия между выборкой и популяцией, когда выборка не является истинным отражением целого[299]. Именно из этой статистической традиции область машинного обучения черпает свое понимание предвзятости, где она связана с рядом других понятий: обобщение, классификация и дисперсия.
Системы машинного обучения разработаны таким образом, чтобы иметь возможность обобщать данные из большого обучающего набора примеров и правильно классифицировать новые наблюдения, не включенные в обучающую базу данных[300]. Другими словами, системы машинного обучения способны выполнять своеобразную инспекцию, изучая конкретные примеры (например, резюме соискателей), и решать, какие элементы следует искать в новых примерах (например, группы слов в резюме новых соискателей). В таких случаях термин «предвзятость» относится к типу ошибки, которая может произойти во время процесса обобщения – а именно, систематическая или последовательно воспроизводимая ошибка классификации, которую система демонстрирует при предъявлении новых примеров.
Этот тип часто противопоставляется другому виду ошибки обобщения – дисперсии, которая относится к чувствительности алгоритма к различиям в обучающих данных. Модель с высокой погрешностью и низкой дисперсией может недостаточно соответствовать данным – не улавливать все их значимые особенности или сигналы. В качестве альтернативы, модель с высокой дисперсией и низкой погрешностью может оказаться слишком приближенной к данным, в результате чего она потенциально будет улавливать «шум» в дополнение к значимым характеристикам данных[301].
За пределами машинного обучения «предвзятость» имеет множество других значений. Например, в юриспруденции она означает субъективное представление или мнение, суждение, основанное на предубеждениях, в отличие от решения, принятого на основе беспристрастной оценки фактов[302]. В психологии Амос Тверски и Дэниел Канеман изучают «когнитивные предубеждения», или способы, с помощью которых человеческие суждения систематически отклоняются от вероятностных ожиданий[303]. Более современные исследования подчеркивают, как неосознанные установки и стереотипы «приводят к поведению, расходящемуся с заявленными или одобренными убеждениями или принципами человека»