Нексус. Краткая история информационных сетей от каменного века до искусственного интеллекта — страница 65 из 87

Более тонкий, но широко распространенный расизм был обнаружен в 2017 году профессором Массачусетского технологического института Джой Буоламвини в коммерческих алгоритмах классификации лиц. Она показала, что эти алгоритмы очень точно определяют белых мужчин, но крайне неточно идентифицируют чернокожих женщин. Например, алгоритм IBM ошибался всего на 0,3 % при определении пола светлокожих мужчин, но на 34,7 % при попытке определить пол темнокожих женщин. В качестве качественного теста Буоламвини попросил алгоритмы классифицировать фотографии афроамериканской активистки Соджорнер Трут, известной своей речью 1851 года "Разве я не женщина?". Алгоритмы определили Истину как мужчину.

Когда Буоламвини, которая является американкой ганского происхождения, проверила другой алгоритм анализа лица, чтобы идентифицировать себя, алгоритм вообще не смог "увидеть" ее темнокожее лицо. В данном контексте "видеть" означает способность распознавать присутствие человеческого лица, что используется, например, камерами телефонов для определения места фокусировки. Алгоритм легко видел светлокожие лица, но не лицо Буоламвини. Только когда Буоламвини надел белую маску, алгоритм распознал, что видит человеческое лицо.

Что здесь происходит? Один из ответов может заключаться в том, что инженеры-расисты и женоненавистники закодировали эти алгоритмы таким образом, чтобы дискриминировать чернокожих женщин. Хотя мы не можем исключить возможность того, что такое случается, в случае с алгоритмами классификации лиц или Tay от Microsoft это не было ответом. На самом деле эти алгоритмы сами уловили расистские и женоненавистнические предубеждения из данных, на которых они обучались.

Чтобы понять, как это могло произойти, нужно кое-что рассказать об истории алгоритмов. Изначально алгоритмы не могли многому научиться самостоятельно. Например, в 1980-х и 1990-х годах алгоритмы для игры в шахматы почти всему, что они знали, обучали их программисты-люди. Люди закладывали в алгоритм не только основные правила игры в шахматы, но и то, как оценивать различные позиции и ходы на доске. Например, люди ввели правило, согласно которому жертвовать ферзя в обмен на пешку - обычно плохая идея. Эти ранние алгоритмы смогли победить человеческих мастеров шахмат только потому, что алгоритмы могли просчитать гораздо больше ходов и оценить гораздо больше позиций, чем человек. Но возможности алгоритмов оставались ограниченными. Поскольку они полагались на человека, который должен был рассказать им все секреты игры, если люди-кодеры чего-то не знали, то и созданные ими алгоритмы вряд ли могли это знать.

По мере развития машинного обучения алгоритмы обретали все большую самостоятельность. Фундаментальный принцип машинного обучения заключается в том, что алгоритмы могут сами обучать себя новым вещам, взаимодействуя с миром, как это делают люди, и таким образом создавать полноценный искусственный интеллект. Терминология не всегда последовательна, но в целом, чтобы что-то было признано ИИ, оно должно быть способно самостоятельно учиться новому, а не просто следовать инструкциям своих первоначальных создателей-людей. Современный ИИ, играющий в шахматы, не обучается ничему, кроме основных правил игры. Всему остальному он учится сам, либо анализируя базы данных предыдущих партий, либо играя в новые партии и извлекая уроки из опыта. ИИ - это не тупой автомат, который повторяет одни и те же движения снова и снова, независимо от результатов. Напротив, он оснащен мощными механизмами самокоррекции, которые позволяют ему учиться на собственных ошибках.

Это означает, что ИИ начинает свою жизнь как "детский алгоритм", который обладает большим потенциалом и вычислительной мощностью, но на самом деле мало что знает. Человеческие родители ИИ дают ему только способность к обучению и доступ к миру данных. Затем они позволяют детскому алгоритму исследовать мир. Как и органические новорожденные, детские алгоритмы учатся, замечая закономерности в данных, к которым они имеют доступ. Если я прикоснусь к огню, мне будет больно. Если я заплачу, придет мама. Если я пожертвую ферзем ради пешки, то, скорее всего, проиграю партию. Находя закономерности в данных, детский алгоритм узнает больше, в том числе многое из того, чего не знают его родители-люди.

Однако базы данных не лишены погрешностей. Алгоритмы классификации лиц, изученные Джой Буоламвини, были обучены на наборах данных, состоящих из помеченных онлайн-фотографий, таких как база данных Labeled Faces in the Wild. Фотографии в этой базе данных были взяты в основном из новостных статей в Интернете. Поскольку в новостях преобладают белые мужчины, 78 % фотографий в базе данных были мужскими, а 84 % - белыми. Джордж Буш-младший фигурировал 530 раз - более чем в два раза чаще, чем все чернокожие женщины вместе взятые. Другая база данных, подготовленная правительственным агентством США, более чем на 75 % состояла из мужчин, почти на 80 % из светлокожих и всего на 4,4 % из темнокожих женщин. Неудивительно, что алгоритмы, обученные на таких наборах данных, отлично идентифицировали белых мужчин, но плохо идентифицировали чернокожих женщин. Нечто подобное произошло и с чатботом Tay. Инженеры Microsoft не закладывали в него никаких предрассудков. Но несколько часов воздействия токсичной информации, циркулирующей в Twitter, превратили ИИ в ярого расиста63.

Дальше - хуже. Для того чтобы обучаться, детским алгоритмам, помимо доступа к данным, нужна еще одна вещь. Им также нужна цель. Человеческий ребенок учится ходить, потому что хочет куда-то попасть. Львенок учится охотиться, потому что хочет есть. Алгоритмы тоже должны иметь цель, чтобы учиться. В шахматах легко определить цель: взять короля противника. ИИ узнает, что жертвовать ферзем ради пешки - это "ошибка", потому что она обычно мешает алгоритму достичь цели. При распознавании лиц цель также проста: определить пол, возраст и имя человека, указанные в исходной базе данных. Если алгоритм догадался, что Джордж Буш-старший - женщина, а в базе данных указано, что мужчина, цель не достигнута, и алгоритм учится на своей ошибке.

Но если вы хотите обучить, например, алгоритм найма персонала, как вы определите цель? Как алгоритм узнает, что он совершил ошибку и нанял "не того" человека? Мы можем сказать алгоритму, что его цель - нанимать людей, которые остаются в компании не менее года. Работодатели, очевидно, не хотят тратить много времени и денег на обучение работника, который через несколько месяцев увольняется или уходит. Определив таким образом цель, пора обратиться к данным. В шахматах алгоритм может получить любое количество новых данных, просто играя против самого себя. Но на рынке труда это невозможно. Никто не может создать целый воображаемый мир, в котором детский алгоритм может нанимать и увольнять воображаемых людей и учиться на этом опыте. Детский алгоритм может обучаться только на существующей базе данных о реальных людях. Как львята узнают, что такое зебра, наблюдая за узорами в реальной саванне, так и детские алгоритмы узнают, что такое хороший сотрудник, наблюдая за узорами в реальных компаниях.

К сожалению, если реальные компании уже страдают от каких-то укоренившихся предрассудков, детский алгоритм, скорее всего, усвоит эти предрассудки и даже усилит их. Например, алгоритм, ищущий в реальных данных паттерны "хороших сотрудников", может прийти к выводу, что нанимать племянников босса - всегда хорошая идея, независимо от того, какой еще квалификацией они обладают. Ведь данные явно указывают на то, что "племянников босса" обычно берут на работу, когда они претендуют на нее, и редко увольняют. Детский алгоритм заметит эту закономерность и станет кумовьями. Если его поставить во главе отдела кадров, он начнет отдавать предпочтение племянникам босса.

Аналогично, если компании в женоненавистническом обществе предпочитают нанимать мужчин, а не женщин, алгоритм, обученный на реальных данных, скорее всего, уловит и это предубеждение. Так и произошло, когда в 2014-18 годах компания Amazon попыталась разработать алгоритм для отбора заявок на работу. Изучая предыдущие успешные и неуспешные заявки, алгоритм начал систематически понижать рейтинг заявок только за то, что они содержали слово "женщина" или поступали от выпускниц женских колледжей. Поскольку имеющиеся данные показывали, что в прошлом у таких заявок было меньше шансов на успех, алгоритм выработал предубеждение против них. Алгоритм думал, что он просто открыл объективную истину о мире: кандидаты, окончившие женские колледжи, менее квалифицированы. На самом деле он просто усвоил и навязал женоненавистническое предубеждение. Amazon пыталась решить эту проблему, но не смогла, и в итоге отказалась от проекта.

База данных, на которой обучается ИИ, чем-то похожа на детство человека. Детские впечатления, травмы и сказки остаются с нами на всю жизнь. У ИИ тоже есть детский опыт. Алгоритмы могут даже заражать друг друга своими предубеждениями, как это делают люди. Рассмотрим будущее общество, в котором алгоритмы повсеместно распространены и используются не только для отбора кандидатов на работу, но и для того, чтобы рекомендовать людям, что изучать в колледже. Предположим, что в силу существовавших ранее женоненавистнических предубеждений 80 % рабочих мест в инженерной сфере отдается мужчинам. В таком обществе алгоритм, нанимающий новых инженеров, скорее всего, не только скопирует это предубеждение, но и заразит им алгоритмы, рекомендующие колледжи. Молодую женщину, поступающую в колледж, могут отговорить от изучения инженерного дела, поскольку существующие данные указывают на то, что у нее меньше шансов получить работу. То, что начиналось как человеческий межсубъективный миф о том, что "женщины плохо разбираются в инженерии", может превратиться в межкомпьютерный миф. Если мы не избавимся от предубеждения в самом начале, компьютеры могут увековечить и усилить его.

Но избавиться от предвзятости алгоритмов может быть так же сложно, как и от предвзятости людей. После обучения алгоритма требуется много времени и усилий, чтобы "отучить" его. Мы можем решить просто выбросить предвзятый алгоритм и обучить совершенно новый алгоритм на новом наборе менее предвзятых данных. Но где мы найдем набор абсолютно беспристрастных данных?