[402]. FACS оказалась очень трудоемкой системой. По словам Экмана, на обучение пользователей методологии FACS ушло от семидесяти пяти до ста часов, а на оценку одной минуты видеозаписи лица – один час[403].
На одной из конференций в начале 1980-х годов Экман услышал доклад, в ходе которого предлагалось решение проблемы трудоемкости FACS: использование компьютеров для автоматизации измерений. Хотя в своих воспоминаниях Экман не упоминает исследователя, представившего доклад, он сообщает, что система называлась Wizard и была разработана в Университете Брунеля в Лондоне[404]. Вероятно, речь идет о ранней системе машинного обучения Игоря Александера для распознавания объектов, wISArd, которая использовала нейронные сети в то время, когда этот подход не пользовался популярностью[405]. Некоторые источники сообщают, что wISArd была обучена на «базе данных известных футбольных хулиганов», предвосхищая широко распространенное в настоящее время использование фотороботов преступников для обучения технологий распознавания лиц[406].
Элементы системы кодирования действий лица. Источник: Пол Экман и Уоллес В. Фризен
Поскольку распознавание лиц стало основополагающим приложением для искусственного интеллекта в 1960-х годах, неудивительно, что первые исследователи, работавшие в этой области, нашли общий язык с подходом Экмана[407]. Сам Экман утверждает, что сыграл активную роль в развитии автоматизированных форм распознавания аффектов благодаря своим старым связям в оборонных и разведывательных ведомствах еще со времен финансирования ARPA. Он помог организовать неформальное соревнование между двумя командами, работающими с данными FACS, и это, по-видимому, оказало долгосрочное влияние. Обе команды впоследствии заняли видное место в области аффективных вычислений. Одна из них состояла из Терри Сейновски и его ученицы Мариан Бартлетт, которая сама стала важной фигурой в компьютерной науке распознавания эмоций и ведущим ученым в компании Emotient, приобретенной Apple в 2016 году[408]. Вторая, базирующаяся в Питтсбурге, возглавлялась психологом Джеффри Коном из Питтсбургского университета и выдающимся исследователем компьютерного зрения Такео Канаде из Карнеги-Меллон[409]. Эти два человека занимались распознаванием аффектов в течение длительного времени и разработали хорошо известный набор данных эмоциональных выражений Кона и Канаде (CK) и его потомков.
Система FACS Экмана обеспечила два элемента, необходимых для последующих приложений машинного обучения: стабильный, дискретный, конечный набор меток, которые люди могут использовать для категоризации фотографий лиц, и систему для производства измерений. Она обещала вывести сложную работу по изображению внутреннего мира из компетенции художников и романистов и сделать ее рациональной, познаваемой и измеряемой системой, подходящей для лабораторий, корпораций и правительств.
Когда работа по использованию компьютеров для распознавания эмоций начала приобретать какую-то форму, исследователи осознали необходимость в коллекции стандартизированных изображений для экспериментов. В отчете NSF 1992 года, соавтором которого выступил Экман, рекомендовалось: «Легкодоступная мультимедийная база данных, разделяемая разнообразным сообществом исследователей, станет важным ресурсом для решения и расширения проблем, связанных с пониманием лиц»[410]. Уже через год Министерство обороны начало финансировать программу feret для сбора фотографий, как мы видели в главе 3. К концу десятилетия исследователи машинного обучения начали собирать, маркировать и обнародовать наборы данных, на которых основывается большая часть современных исследований в области машинного обучения.
Руководящие принципы FACS Экмана непосредственно повлияли на набор данных CK[411]. Следуя традиции Экмана о позировании мимики, «испытуемые получали инструкции от экспериментатора выполнить серию из 23 мимических движений», которые затем эксперты FACS кодировали, предоставляя метки для данных. Набор данных CK позволил лабораториям сравнить свои результаты и сопоставить прогресс при создании новых систем распознавания выражений.
Другие лаборатории и компании работали над параллельными проектами, создавая десятки баз данных фотографий. Например, исследователи из лаборатории в Швеции создали Karolinska Directed Emotional Faces. Эта база данных состоит из фотографий людей, изображающих эмоциональные выражения, соответствующие категориям Экмана[412]. Они придают своим лицам форму, соответствующую шести основным эмоциональным состояниям. Глядя на эти наборы, трудно не поразиться: Невероятное удивление! Обильная радость! Парализующий страх! Эти испытуемые буквально создают эмоции, читаемые машиной.
По мере роста масштабов и сложности этой сферы росли и типы фотографий, используемых для распознавания аффектов. Исследователи начали использовать систему FACS для маркировки данных, полученных не из постановочных выражений, а скорее из спонтанных, иногда собранных вне лабораторных условий. Например, через десять лет после чрезвычайно успешного выпуска набора данных CK группа исследователей выпустила второе поколение – расширенный набор данных Кон-Канаде (CK+)[413]. CK+ включал обычный набор постановочных кадров, но также начал включать так называемые спонтанные выражения, полученные из видео.
Выражения лица из набора данных Кон-Канаде: радость, гнев, отвращение, печаль, удивление, страх. Позиционные изображения из T. Kanade et al., Yearbook of Physical Anthropology (2000). © Кон и Канаде
В 2009 году компания Affectiva вышла из медиалаборатории Массачусетского технологического института с целью фиксирования «естественных и спонтанных выражений лица» в реальных условиях[414]. Компания собирала данные, позволяя пользователям подключиться к системе, которая записывала их лица с помощью веб-камеры во время просмотра серии рекламных роликов. Затем эти изображения вручную маркировались с помощью специального программного обеспечения кодерами, обученными FACS Экмана[415]. Но здесь мы сталкиваемся с еще одной проблемой. FACS была разработана на основе значительного архива постановочных фотографий Экмана[416]. Даже когда кадры собираются в естественных условиях, они обычно классифицируются в соответствии со схемой, полученной из постановочных изображений.
Работа Экмана оказала глубокое и широкое влияние на все – от программного обеспечения для детекции лжи до компьютерного зрения. New York Times назвала Экмана «самым известным в мире специалистом по чтению лиц», а Time включил его в список ста самых влиятельных людей в мире. В конечном итоге он консультировал таких разных клиентов, как Далай-лама, ФБР, ЦРУ, Секретная служба и даже анимационная студия Pixar, которая хотела создать более реалистичные изображения мультяшных лиц[417]. Его идеи стали частью популярной культуры, вошли в такие бестселлеры, как «Мигание» Малкольма Гладуэлла, и телевизионную драму «Обмани меня», где Экман выступал консультантом по роли главного героя, очевидно, в значительной степени основанной на нем[418].
Его бизнес процветал: Экман продавал методы обнаружения обмана органам безопасности, таким как Управление транспортной безопасности, которое использовало их при разработке программы «Скрининг пассажиров с помощью методов наблюдения» (SPOT). SPOT использовалась для наблюдения за выражением лица авиапассажиров в годы после терактов 11 сентября, пытаясь «автоматически» обнаружить террористов. Система использует набор из девяноста четырех критериев, все из которых предположительно являются признаками стресса, страха или обмана. Но поиск этих реакций означает, что некоторые группы сразу же оказываются в невыгодном положении. Любой, кто испытывал стресс, чувствовал себя некомфортно на допросе или имел негативный опыт общения с полицией и пограничниками, мог получить более высокий балл. Это создавало свои собственные формы расового профилирования. Программа SPOT подверглась критике со стороны Управления правительственной отчетности и групп защиты гражданских свобод за отсутствие научной методологии и, несмотря на цену в девятьсот миллионов долларов, не принесла явных успехов[419].
По мере роста славы Экмана росло и скептическое отношение к его работе, причем критика появлялась из разных областей. Одним из первых критиков была культурный антрополог Маргарет Мид, которая спорила с Экманом по вопросу универсальности эмоций в конце 1960-х годов, что привело к ожесточенной перепалке не только между Мид и Экманом, но и между другими антропологами, критиковавшими идею Экмана об абсолютной универсальности[420]. Мид не убедила вера Экмана в универсальные, биологические детерминанты поведения, не учитывающие культурные факторы[421]. В частности, Экман был склонен сводить эмоции к чрезмерно упрощенной, взаимоисключающей бинарности: либо эмоции универсальны, либо нет. Критики, такие как Мид, указывали на возможность более тонких позиций