Атлас искусственного интеллекта: руководство для будущего — страница 29 из 57


Глава 5Эмоции

В отдаленную заставу в горных районах Папуа-Новой Гвинеи прибыл молодой американский психолог Пол Экман с коллекцией флэш-карточек и новой теорией[338]. Шел 1967 год, и Экман слышал, что коренные жители Окапы (Форе) настолько изолированы от внешнего мира, что станут для него идеальными испытуемыми. Как и многие западные исследователи до него, Экман приехал в Папуа-Новую Гвинею, чтобы получить от коренного населения данные. Он собирал доказательства в поддержку спорной гипотезы: все люди проявляют небольшое количество универсальных эмоций или аффектов, которые являются естественными, врожденными, межкультурными и одинаковыми во всем мире. Хотя это утверждение остается сомнительным, оно имело далеко идущие последствия: предпосылки Экмана об эмоциях превратились в развивающуюся индустрию стоимостью более семнадцати миллиардов долларов[339]. Это история о том, как распознавание аффектов стало частью искусственного интеллекта, и о проблемах, которые при этом возникают.

В тропиках Окапы под руководством медицинского исследователя Д. Карлетона Гайдусека и антрополога Э. Ричарда Соренсона Экман надеялся провести эксперименты, которые позволили бы оценить, как Форе распознают эмоции, передаваемые мимикой. Поскольку у Форе был минимальный контакт с западными людьми или средствами массовой информации, Экман предполагал, что их распознавание и демонстрация основных выражений докажет, что они являются универсальными. Его методы были просты. Он показывал им карточки с изображениями выражений лица и проверял, описывают ли они эмоции так же, как он. По словам самого Экмана, «все, что я делал, это показывал забавные картинки»[340].

Однако у Экмана напрочь отсутствовала подготовка в области истории, языка, культуры или политики Форе. Его попытки провести эксперименты с флэш-карточками с помощью переводчиков провалились; он и его испытуемые устали от этого процесса, который он описывал как вырывание зубов[341]. Экман покинул Папуа-Новую Гвинею, разочарованный своей первой попыткой кросс-культурного исследования эмоционального выражения. Но это было только начало.

В наши дни инструменты распознавания эмоций можно найти в системах национальной безопасности и в аэропортах, в сфере образования и в стартапах, от систем, которые якобы выявляют психические заболевания, до полицейских программ, претендующих на прогнозирование насилия. Рассмотрев историю появления компьютерного распознавания эмоций, мы можем понять, как его методы вызывали этические проблемы и научные сомнения. Как мы увидим, утверждение о том, что внутреннее состояние человека можно точно оценить, проанализировав его лицо, основано на шатких доказательствах[342]. На самом деле, всеобъемлющий обзор доступной научной литературы по определению эмоций, опубликованный в 2019 году, дал окончательное заключение: нет достоверных доказательств того, что можно точно предсказать эмоциональное состояние человека по его лицу[343].

Как это собрание спорных утверждений и экспериментальных методик превратилось в подход, определяющий многие аспекты индустрии искусственного интеллекта? Почему идея о том, что существует небольшой набор универсальных эмоций, легко интерпретируемых по лицу, стала настолько общепринятой в области ИИ, несмотря на значительные доказательства обратного? Чтобы понять это, необходимо проследить, как развивались эти идеи, задолго до того, как инструменты для определения эмоций с помощью ИИ были встроены в инфраструктуру повседневной жизни.

Экман – лишь один из многих людей, кто внес свой вклад в теорию распознавания эмоций. Но богатая и удивительная история исследований Экмана освещает некоторые из сложных сил, движущих этой областью. Его работа связана с финансированием американской разведкой гуманитарных наук во время холодной войны, с основополагающей работой в области компьютерного зрения, с программами безопасности после 11 сентября, используемыми для выявления террористов, и вплоть до нынешней моды на распознавание эмоций на основе ИИ. Это хроника, в которой сочетаются идеология, экономическая политика, политика, основанная на страхе, и желании получить больше информации о людях, чем они готовы дать.

Когда за чувства платят

Для мировых военных, корпораций, разведывательных служб и полиции идея автоматического распознавания эмоций столь же привлекательна, сколь и прибыльна. Она обещает надежно отделить друга от врага, отличить ложь от правды и использовать инструменты науки для проникновения во внутренние миры.

Технологические компании собрали огромные объемы изображений лиц, включая миллиарды селфи в Instagram, портретов в Pinterest, видео в TikTok и фотографий на Flickr. Одна из многих вещей, ставших возможными благодаря такому обилию изображений, – это попытка извлечь так называемую скрытую правду о внутренних эмоциональных состояниях с помощью машинного обучения. Распознавание эмоций встраивается в несколько платформ распознавания лиц, от крупнейших технологических компаний до небольших стартапов. В то время как распознавание лиц пытается идентифицировать конкретного человека, распознавание аффектов направлено на обнаружение и классификацию эмоций путем анализа любого лица. Возможно, эти системы не делают того, на что они претендуют, но, тем не менее, они могут стать мощными инструментами влияния на поведение и обучение людей узнаваемым действиям. Эти системы уже играют определенную роль в формировании поведения людей и функционирования социальных институтов, несмотря на отсутствие серьезных научных доказательств того, что они работают.

В настоящее время автоматизированные системы распознавания эмоций широко применяются, особенно при приеме на работу. Лондонский стартап под названием Human использует систему распознавания эмоций для анализа видеоинтервью с кандидатами на работу. Согласно сообщению в Financial Times, «компания утверждает, что она может распознавать эмоциональные проявления потенциальных кандидатов и сопоставлять их с чертами характера»; затем компания оценивает кандидатов по таким чертам характера, как честность или любовь к работе[344]. Компания HireVue, занимающаяся набором персонала с помощью искусственного интеллекта, среди клиентов которой числятся Goldman Sachs, Intel и Unilever, использует машинное обучение для оценки признаков лица, чтобы сделать вывод о пригодности человека к работе. В 2014 году компания запустила свою систему ИИ для извлечения микровыражений, тона голоса и других параметров из видеозаписей собеседований, используемых для сравнения соискателей с лучшими сотрудниками компании[345].

В январе 2016 года компания Apple приобрела стартап Emotient, который утверждал, что создал программное обеспечение, способное распознавать эмоции по изображениям лиц[346]. Emotient вырос из академических исследований, проведенных в Калифорнийском университете Сан-Диего, и является одним из нескольких стартапов, работающих в этой области[347]. Возможно, самым крупным из них является Affectiva, компания, базирующаяся в Бостоне, которая возникла в результате академической работы, проведенной в Массачусетском технологическом институте. В Массачусетском технологическом институте Розалинд Пикард и ее коллеги стали частью более широкой формирующейся области, известной как аффективные вычисления, которая описывает вычисления, «связанные с эмоциями или другими аффективными явлениями, возникающими из них или сознательно на них влияющими»[348].

Affectiva кодирует различные приложения, связанные с эмоциями, в основном используя методы глубокого обучения. Они варьируются от обнаружения отвлекающихся водителей на дорогах до измерения эмоциональной реакции потребителей на рекламу. Компания создала, по их словам, крупнейшую в мире базу данных эмоций, включающую более десяти миллионов выражений лиц людей из восьмидесяти семи стран[349] Их монументальная коллекция видеороликов с эмоциями создана вручную краудворкерами, базирующимися в основном в Каире[350]. Многие другие компании уже лицензировали продукты Affectiva для разработки различных приложений – от оценки кандидатов на работу до анализа того, вовлечены ли студенты в занятия, и все это с помощью захвата и анализа их мимики и языка тела[351].

За пределами сектора стартапов такие гиганты ИИ, как Amazon, Microsoft и IBM, разработали системы для определения эмоций. Microsoft предлагает распознавание аффектов в своем Face API, который утверждает, что может определить, что чувствует человек, по таким эмоциям, как «гнев, презрение, отвращение, страх, счастье, нейтральность, грусть и удивление», и утверждает, что «эти эмоции понимаются как межкультурные и универсальные, передаваемые с помощью определенных выражений»[352]. Инструмент Rekognition от Amazon также утверждает, что способен определить «все семь эмоций» и «измерить, как они меняются со временем, например, построив временную шкалу эмоций актера»[353].

Но как эти технологии работают? Системы распознавания эмоций выросли на стыке технологий ИИ, военных приоритетов и поведенческих наук – в частности, психологии. Они имеют схожий набор схем и исходных предпосылок: существует небольшое количество отдельных и универсальных эмоциональных категорий, мы непроизвольно показываем эти эмоции на лице, и они могут быть обнаружены машинами. Эти постулаты настолько приняты в некоторых областях, что может показаться странным даже замечать их, не говоря уже о том, чтобы подвергать их сомнению. Они настолько укоренились, что стали «общепринятой точкой зрения»