Атлас искусственного интеллекта: руководство для будущего — страница 27 из 57

[316]. Существительные занимают различные места на оси от конкретного к абстрактному, от описательного к оценочному. В логике ImageNet эти градиенты стерты. Все сплющено и прикреплено к ярлыку, как бабочки за витриной. Хотя такой подход имеет эстетику объективности, он, тем не менее, является глубоко идеологическим упражнением.

В течение десятилетия ImageNet содержал 2832 подкатегории под категорией верхнего уровня «Человек». Подкатегорией с наибольшим количеством ассоциированных изображений была «девушка» (с 1664 изображениями), за которой следовали «дедушка» (1662), «папа» (1643) и генеральный директор (1614 – большинство из них мужчины). В этих категориях мы уже замечаем очертания мировоззрения. ImageNet содержит огромное количество классификационных категорий, включая категории расы, возраста, национальности, профессий, экономического статуса, поведения, характера и даже морали. Существует множество проблем, связанных с попытками ImageNet классифицировать фотографии людей с помощью логики распознавания объектов. Несмотря на то, что в 2009 году создатели сети удалили некоторые явно оскорбительные синсеты, остались категории расовой и национальной принадлежности, включая коренных жителей Аляски, англо-американцев, черных, черных африканцев, черных женщин (но не белых), латиноамериканцев, мексиканских американцев, никарагуанцев, пакистанцев, индейцев Южной Америки, испанских американцев, техасцев, узбеков, белых и зулусов. Представление их в качестве логических категорий организации людей вызывает беспокойство еще до того, как они используются для распределения на основе внешности. Другие люди обозначаются по профессиям или увлечениям: есть бойскауты, чирлидеры, когнитивные нейробиологи, парикмахеры, аналитики разведки, мифологи, розничные торговцы, пенсионеры и так далее. Существование этих категорий предполагает, что люди могут быть визуально упорядочены в соответствии с их профессией, что напоминает такие детские книги, как «Город добрых дел» Ричарда Скарри. ImageNet также содержит категории, которые не имеют никакого смысла для классификации изображений, такие как должник, босс, знакомый, брат и дальтоник. Это все невизуальные понятия, которые описывают отношения, будь то отношения с другими людьми, финансовой системой или самим визуальным полем. Набор данных содержит эти категории и связывает их с изображениями, чтобы похожие фотографии могли быть «распознаны» будущими системами.

Многие действительно оскорбительные и вредные категории скрывались в глубинах категорий «Человек» ImageNet. Некоторые из них являлись женоненавистническими, расистскими, возрастными и инвалидными. Вот несколько примеров: Плохой Человек, Девушка по вызову, Королева Туалета, Чудак, Заключенный, Сумасшедший, Тупоглазый, Наркоман, Неудачник, Лузер, Ублюдок, Лицемер, Клептоман, Меланхолик, Нелюдь, Извращенец, Примадонна, Шизофреник, Второсортный, Шлюха, Старая Дева, Уличная Проститутка, Жеребец, Придурок, Неквалифицированный Человек, Распутник, Слабак. Оскорбления, расистские оскорбления и моральные осуждения просто изобилуют.

Эти оскорбительные термины оставались в ImageNet в течение десяти лет. Поскольку ImageNet обычно используется для распознавания объектов, конкретная категория «Человек» редко обсуждалась на технических конференциях и не привлекала особого внимания общественности, пока в 2019 году не стал вирусным проект ImageNet Roulette: возглавляемый художником Тревором Пагленом, проект включал приложение, позволяющее людям загружать изображения, чтобы увидеть, как они будут классифицированы на основе категорий Person в ImageNet[317]. Приложение привлекло значительное внимание СМИ к тому факту, что во влиятельной коллекции долгое время присутствовали расистские и сексистские термины. Вскоре после этого создатели ImageNet опубликовали документ под названием «Toward Fairer Datasets», в котором попытались «удалить небезопасные синсеты». Они попросили двенадцать аспирантов отметить все категории, которые казались им небезопасными, поскольку были либо «оскорбительными по своей сути» (например, содержащими ненормативную лексику или «расовые или гендерные оскорбления»), либо «чувствительными» (не оскорбительными по своей сути, но терминами, которые «могут вызвать оскорбление при неуместном применении, например, классификация людей на основе сексуальной ориентации и религии»)[318]. Хотя этот проект был направлен на оценку оскорбительности категорий ImageNet путем опроса аспирантов, авторы, тем не менее, продолжают поддерживать автоматизированную классификацию людей на основе фотографий, несмотря на заметные проблемы.

Команда ImageNet в конечном итоге удалила 1593 из 2832 категорий «Люди» – примерно 56 процентов, – посчитав их и 60040 изображений «небезопасными». Оставшиеся полмиллиона были «временно признаны безопасными»[319]. Но что считать безопасным, когда речь идет о классификации людей? Вся таксономия ImageNet показывает сложность и опасность человеческой категоризации. Такие термины, как «микроэкономист» или «баскетболист» поначалу могут показаться менее значимыми, чем, скажем, «неквалифицированный человек», «мулат» или «деревенщина», однако когда мы смотрим на людей, обозначенных в этих категориях, мы видим множество предположений и стереотипов, включая расу, пол, возраст и способности. В метафизике ImageNet существуют отдельные категории изображений для «профессоров» – как будто, когда кто-то получает повышение, ее или его биометрический профиль должен отражать изменение звания.

На самом деле в ImageNet не существует нейтральных категорий, потому что выбор изображений всегда взаимодействует со значением слов. Политика заложена в логику классификации, даже если слова не являются оскорбительными. В этом смысле ImageNet – это наглядный пример того, что происходит, когда людей классифицируют как объекты. Однако эта практика стала более распространенной только в последние годы, часто внутри технологических компаний. Схемы классификации, используемые в таких компаниях, как Facebook, гораздо сложнее исследовать и критиковать: собственные системы предлагают мало способов для сторонних исследователей или аудита того, как изображения упорядочиваются или интерпретируются.

Кроме того, возникает вопрос о том, откуда берутся изображения в категориях «Человек» ImageNet. Как мы видели в предыдущей главе, создатели ImageNet массово собирали изображения из поисковых систем Google, извлекали селфи и отпускные фотографии людей без их ведома, а затем платили работникам Mechanical Turk за их маркировку. Все перекосы и предубеждения относительно результатов, выдаваемых поисковыми системами, затем ложатся в основу последующих технических систем, которые отбирают их и маркируют. На низкооплачиваемых краудворкеров возлагается непосильная задача – осмыслить изображения со скоростью пятьдесят в минуту и распределить их по категориям, основанным на системах WordNet и определениях Википедии[320]. Возможно, нет ничего удивительного в том, что когда мы исследуем подстилающий слой этих маркированных изображений, мы обнаружим, что они изобилуют стереотипами, ошибками и абсурдом. Женщина, лежащая на пляжном полотенце, – «клептоманка», подросток в спортивной майке – «неудачник», а изображение актрисы Сигурни Уивер классифицируется как «гермафродит».

Изображения, как и все формы данных, отягощены всевозможными потенциальными значениями, неразрешимыми вопросами и противоречиями. Пытаясь разрешить эти двусмысленности, метки ImageNet сжимают и упрощают сложность. Акцент на том, чтобы сделать обучающие наборы «более справедливыми» путем удаления оскорбительных терминов, не позволяет бороться с властной динамикой классификации и исключает более тщательную оценку лежащей в ее основе логики. Даже если худшие примеры будут исправлены, подход все равно в основе своей построен на экстрактивных отношениях с данными, оторванными от людей и мест, откуда они поступили. Данные опираются на техническое мировоззрение, которое стремится объединить сложные и разнообразные культурные материалы. И мировоззрение ImageNet в этом смысле не является чем-то необычным. На самом деле это типичный случай многих наборов данных для обучения ИИ, раскрывающий проблемы нисходящих схем, которые упрощают сложные социальные, культурные, политические и исторические отношения до количественно измеримых сущностей. Это явление, пожалуй, наиболее очевидно и коварно, когда речь заходит о широко распространенных попытках классифицировать людей по расе и полу в технических системах.

Моделирование расы и гендера

Сосредоточившись на классификации в ИИ, мы можем проследить, как гендер, раса и сексуальность ошибочно принимаются за естественные, фиксированные и поддающиеся обнаружению биологические категории. Исследователь Симона Браун отмечает: «Существует определенное предположение, что с помощью технологий можно четко определить категории гендерной идентичности и расы. Машина может быть запрограммирована на присвоение гендерных категорий или определение того, что должны обозначать тела и части тела»[321]. Фактически, идея о том, что раса и пол могут быть автоматически определены в машинном обучении, рассматривается как предполагаемый факт и редко ставится под сомнение техническими дисциплинами, несмотря на глубокие политические проблемы, которые создает этот процесс.[322]

Например, набор данных UTKFace (созданный группой из Университета Теннесси в Ноксвилле) состоит из более чем двадцати тысяч изображений лиц с аннотациями возраста, пола и расы[323]. Авторы утверждают, что база может быть использована для решения различных задач, включая автоматическое определение лиц, оценку возраста и процесс старения. Аннотации к каждому изображению включают предполагаемый возраст каждого человека, выраженный в годах от нуля до Пол – это обязательный показатель: либо ноль для мужского пола, либо единица для женского. Во-вторых, раса подразделяется на пять классов: Белый, Черный, Азиат, Индеец и Другие. Политика гендера и расы здесь столь же очевидна, сколь и вредна. Тем не менее, подобные опасные редуктивные категоризации широко используются во многих обучающих наборах для классификации людей и являются частью производственных конвейеров ИИ на протяжении многих лет.