Атлас искусственного интеллекта: руководство для будущего — страница 33 из 57

[422]. Мид заняла среднюю позицию, подчеркивая, что нет никакого внутреннего противоречия между «возможностью того, что человеческие существа могут иметь общее ядро врожденных форм поведения … и идеей о том, что эмоциональные проявления могут в то же время быть сильно обусловлены культурными факторами»[423].

В течение десятилетий к этому хору присоединялось все больше ученых из разных областей. В последние годы психологи Джеймс Рассел и Хосе-Мигель Фернандес-Долс показали, что самые основные аспекты этой науки остаются нерешенными: «Самые фундаментальные вопросы, такие как, например, выражает ли „мимика“ эмоции, остаются предметом больших споров»[424]. Социологи Мария Гендрон и Лиза Фельдман Барретт указали на конкретную опасность использования теорий Экмана в индустрии искусственного интеллекта, поскольку автоматическое определение мимики лица не является надежным индикатором внутреннего психического состояния[425]. Как отмечает Барретт, «компании могут говорить все, что угодно, но данные очевидны. Они могут распознать хмурое выражение лица, но это не то же самое, что распознать гнев»[426].

Еще более тревожным является тот факт, что в области изучения эмоций среди исследователей нет единого мнения о том, что такое эмоция. Что такое эмоции, как они формулируются в нас и выражаются, каковы могут быть их физиологические или нейробиологические функции, их связь со стимулами, даже как их определить – все это в целом остается неразрешенным[427].

Возможно, самым главным критиком теории эмоций Экмана считается историк науки Рут Лейс. В книге «Восхождение эмоций» она тщательно разбирает «последствия фундаментального физиогномического предположения, лежащего в основе работы Экмана… а именно, идею о том, что можно строго проводить различие между подлинными и искусственными выражениями эмоций на основе различий между нашими лицами, когда мы наедине с собой, и лицами, когда мы с другими»[428]. Рут Лейс видит фундаментальную цикличность в методе Экмана. Предполагалось, что позированные или смоделированные фотографии, которые он использовал, выражают набор основных эмоциональных состояний, которые «уже свободны от культурного влияния»[429]. Затем эти фотографии использовались для маркировки различных групп населения, чтобы продемонстрировать универсальность выражений лиц. Лейс указывает на серьезную проблему: Экман предположил, что «выражения лиц на фотографиях, которые он использовал в своих экспериментах, не имели культурного оттенка, потому что являлись общепризнанными. В то же время, он предположил, что эти выражения лиц были общепризнанными, потому что они были свободны от культурных оттенков»[430]. Подход в основе своей носит рекурсивный характер[431].

Другие проблемы проявились по мере реализации идей Экмана в технических системах. Как мы видели, многие базы данных, лежащие в основе этой области, основаны на актерах, имитирующих эмоциональные состояния перед камерой. Это означает, что системы ИИ обучены распознавать поддельные выражения чувств. Хотя системы ИИ утверждают, что имеют доступ к базовой истине о естественных внутренних состояниях, они обучаются на материале, который неизбежно сконструирован. Даже в случае с изображениями людей, реагирующих на рекламу или фильмы, эти люди знают, что за ними наблюдают, что может изменить их реакцию.

Сложность автоматизации связи между движениями лица и основными эмоциональными категориями приводит к более глубокому вопросу о том, можно ли вообще адекватно сгруппировать эмоции в небольшое количество независимых категорий[432]. Эта точка зрения восходит к Томкинсу, который утверждал, что «каждый вид эмоций может быть идентифицирован по уникальной реакции тела»[433]. Однако существует очень мало последовательных доказательств. Психологи провели многочисленные обзоры опубликованных данных, которые не выявили ассоциаций между измеряемыми реакциями и эмоциональными состояниями, которые, как они предполагают, существуют[434]. Наконец, нельзя исключать убеждение, что выражение мало что рассказывает об искреннем внутреннем состоянии, что может подтвердить каждый, кто улыбался, не чувствуя себя по-настоящему счастливым[435].

Ни один из этих серьезных вопросов об основаниях для утверждений Экмана не помешал его работе занять привилегированное положение в современных приложениях ИИ. Сотни статей цитируют мнение Экмана об интерпретируемых выражениях лица, как будто это неоспоримый факт, несмотря на десятилетия научных споров. Мало кто из ученых-компьютерщиков даже признает эту литературу неопределенности.

Исследователь аффективных вычислений Арвид Каппас, например, прямо называет отсутствие базового научного консенсуса: «Мы слишком мало знаем о сложных социальных модуляторах лицевой и, возможно, другой экспрессивной активности в таких ситуациях, чтобы надежно измерять эмоциональное состояние по поведению. Это не инженерная проблема, которую можно решить с помощью лучшего алгоритма»[436]. В отличие от многих специалистов в этой области, которые уверенно поддерживают распознавание аффектов, Каппас ставит под сомнение веру в то, что компьютерам вообще стоит пытаться распознавать эмоции.[437]

Чем больше времени исследователи других специальностей тратят на изучение работы Экмана, тем сильнее становятся доказательства против нее. В 2019 году Лиза Фельдман Барретт возглавила исследовательскую группу, которая провела широкомасштабный обзор литературы на тему определения эмоций по выражению лица. Они пришли к твердому выводу, что выражения далеко не бесспорны и «не являются отпечатками пальцев или диагностическими дисплеями», надежно сигнализирующими об эмоциональных состояниях, тем более в разных культурах и контекстах. Основываясь на всех имеющихся данных, группа отметила: «Невозможно уверенно определить счастье по улыбке, гнев и печаль по хмурому лицу, как это пытается сделать большая часть современных технологий, применяя то, что ошибочно считается научными фактами»[438].

Команда Барретта критически отнеслась к компаниям ИИ, утверждающим, что они способны автоматизировать определение эмоций: «Технологические компании тратят миллионы долларов на исследования, чтобы создать устройства для считывания эмоций с лиц, ошибочно принимая общепринятое мнение за факт, имеющий сильную научную поддержку. На самом деле, наш обзор научных данных показывает, что очень мало известно о том, как и почему определенные движения лица выражают эмоции, особенно на уровне детализации, достаточном для использования таких выводов в важных, реальных приложениях»[439].

Почему, несмотря на такое количество критики, подход к «чтению эмоций» по лицу сохранился? Анализируя историю этих идей, мы можем понять, каким образом финансирование военных исследований, приоритеты полиции и мотивы прибыли формировали данную область. С 1960-х годов, благодаря значительному финансированию Министерства обороны, были разработаны многочисленные системы, которые все более точно измеряли движения лиц. Как только появилась теория о том, что можно оценивать внутренние состояния путем анализа мимики, и была разработана соответствующая технология, люди охотно приняли основную предпосылку. Теория соответствовала тому, что могли сделать инструменты. Теории Экмана казались идеальными для зарождающейся области компьютерного зрения, поскольку их можно было автоматизировать в масштабе.

В достоверность теорий и методологий Экмана вложены мощные институциональные и корпоративные инвестиции. Признание того, что эмоции нелегко классифицировать или что их нельзя точно определить по выражению лица, может подорвать развивающуюся отрасль. В области ИИ Экмана обычно цитируют, как будто вопрос решен. Более сложные вопросы контекста, обусловленности, реляционности и культурных факторов трудно совместить с текущими дисциплинарными подходами информатики или амбициями коммерческого технологического сектора. Поэтому базовые эмоциональные категории Экмана стали стандартными. Более тонкие подходы, такие как «срединный путь» Мида, были в основном проигнорированы. Основное внимание уделялось повышению точности систем искусственного интеллекта, а не решению более важных вопросов о многочисленных способах, которыми мы испытываем, показываем и скрываем эмоции, а также о том, как мы интерпретируем выражения лиц других людей.

Как пишет Барретт, «многие из наиболее влиятельных моделей в нашей науке предполагают, что эмоции – это биологические категории, навязанные природой; они распознаются, а не конструируются человеческим разумом»[440]. Системы ИИ для распознавания эмоций основаны на этой идее. Распознавание может пройти неправильно, поскольку оно предполагает, что эмоциональные категории – это данность, а не результат и взаимосвязь.


Columbia Gaze Dataset. Из статьи Брайана А. Смита и др. «Фиксация взгляда: Пассивное обнаружение зрительного контакта для взаимодействия человека и объекта», ACM Symposium on User Interface Software and Technology (UIST), октябрь 2013, 271–80. Предоставлено Брайаном А. Смитом