{355}. После окончания интервью у опрошенных были взяты образцы мочи для анализа, и таким образом была установлена истина. «Ложные утвердительные ответы», вычисленные программой, на самом деле очень важны. Представьте, что, поддавшись на уговоры компании, вы согласились тестировать всех пассажиров в Хитроу на голосовой стресс. Вы будете каждый день отсеивать 8000 невинных людей, которых программа ложно идентифицировала как представляющих опасность.
В другом исследовании, тоже проведенном в тюрьме, количество арестантов-обманщиков сократилось на две трети после того, как им сообщили, что их речь анализировалась {356}. Таким образом, по-видимому, тест на наличие стресса в голосе работает благодаря блефу: люди, скорее всего, не станут лгать, если будут знать, что их могут разоблачить. Психологи называют это явление «эффектом фиктивного полиграфа». Оно было обнаружено Эдвардом Джоунзом и Гарольдом Сигалом, которые использовали поддельный детектор лжи, чтобы заставить испытуемых «открыть канал связи с собственной душой» и обнаружить их настоящие помыслы {357}. Полиция, страховые фирмы и правительственные учреждения могли бы сэкономить кучу денег, просто притворившись, что они купили детекторы лжи! Однако все это заставляет меня задуматься о том, сколько времени может продолжаться такой блеф.
Достаточно немного покопаться в интернете, чтобы без труда обнаружить свидетельства бесполезности подобных систем. Но тест на наличие стресса в голосе — это технология-зомби. Сколько бы ни разоблачали ее с помощью научных доказательств, она так или иначе возрождается снова. Не обращая внимания на результаты научных исследований, Министерство труда и пенсионного обеспечения Великобритании потратило 2,4 миллиона фунтов стерлингов с мая 2007 по июль 2008 года, проверяя возможность использования этой технологии для сокращения случаев мошенничества с пособиями. Идея была такая: когда заявитель звонит в правительственное учреждение, анализ стресса в голосе поможет сотрудникам определить, на кого следует обратить особое внимание. В четырех из семи случаев, что составило 80 % всех телефонных звонков, система сработала так же, как если бы сотрудник просто подбросил монетку {358}. «Жаль, что они потратили такую огромную сумму денег, чтобы получить такой результат, можно было бы для начала просто задать нужные вопросы», — сказал мне Франсиско Ласерда.
Сложности с обнаружением обмана в голосе заключаются в том, что и лжец, и говорящий правду могут находиться в стрессе. Исследователи лжи называют это «ошибкой Отелло» {359}. В пьесе Шекспира Отелло обвиняет жену, Дездемону, в любовной связи с Кассио, своим лейтенантом. У Кассио видели платок, который Отелло подарил Дездемоне. Отелло думает, что Кассио убили, исполнив его приказ, и сообщает Дездемоне, что Кассио мертв. Она решает, что у нее не осталось возможности доказать свою невиновность. Отелло принимает ее страдания за доказательство вины и убивает ее.
Если бы Отелло жил в наши дни, мог бы компьютер помочь ему определить, виновна Дездемона или нет? Как человек, много лет занимающийся машинным обучением, могу поспорить, что исследование только интонации и ритма речи Дездемоны вряд ли указало бы ему на правду. Если ни одному научному исследованию не удалось найти каких-либо определенных моделей, которые люди используют, когда лгут, и если стресс может изменять голос даже у тех, кто не лжет, тогда даже самый лучший алгоритм машинного самообучения ждет неудача.
А как насчет более простой на первый взгляд задачи: может ли компьютер, «слушая», определить, насколько человек пьян? Когда мы «под градусом», речь может резко изменяться. Говорение требует исключительно сложной координации мелких моторных движений. После принятия определенного количества алкоголя мышечный контроль теряется, речь становится неуклюжей и неразборчивой, потому что нам трудно справиться со своей голосовой анатомией. Из-за проблем с артикуляцией и притупленного восприятия мы, возможно, будем говорить медленнее.
Анализ голоса оказался в центре внимания в судебном процессе против Джозефа Хейзелвуда, капитана нефтяного танкера «Эксон Вальдес». Его обвинили в том, что он был пьян, когда командовал судном. В 1989 году танкер налетел на риф у побережья Аляски, в результате в океан вылилось 41,8 миллиона литров нефти и погибло 250 000 птиц, 3000 морских выдр, 300 тюленей, 250 белоголовых орланов и 22 косатки {360}. Записи разговоров Хейзелвуда во время катастрофы показали, что его голос был изменен. Он говорил медленнее, чем обычно, несколько изменилась и грубость голоса.
Мог бы компьютер обнаружить такие изменения в голосе капитана и автоматически передать командование кораблем первому помощнику? В 2011 году ученые приняли участие в соревновании, чтобы понять, насколько хорошо компьютер может определять опьянение по записи голоса {361}. Первым этапом стала подготовка образцов, с которыми далее должны были работать исследователи. Образцы были получены следующим образом: исследователи напоили добровольцев (154 человека) и попросили их проговорить некоторые фразы. Затем перед исследователями встала задача разработать компьютерные алгоритмы, которые могли бы определить, есть ли в аудиозаписях признаки, указывающие на трезвость или опьянение говорящего. Лучшая программа добилась точности 71 % {362}. Это соответствует результату, который может показать человек: в среднем люди могут опознать речь пьяного в трех четвертях случаев {363}. К сожалению, показатель успешности для компьютера слишком низкий, чтобы машину можно было считать надежным инструментом для проверки капитанов.
В деле «Эксона Вальдеса», хотя Хейзелвуд и признал, что пил водку перед тем, как подняться на борт, его оправдали. Одна из причин — анализ голоса не мог однозначно доказать его опьянение. Изменения в речи могли быть вызваны тем, что ему приходилось повышать голос, чтобы его могли услышать члены команды, ведь на корабле шумно {364}. Хотя, как и человек, «слушающий» компьютер может считывать голосовую информацию, выводы могут оказаться ошибочными, поскольку алгоритм несовершенен или голосовые подсказки недостаточно однозначны.
До настоящего времени алгоритмы поиска лжи не учитывали слова. Возможно, компьютер с большей вероятностью смог бы обнаружить опьянение, если бы искал особые фразы, например: «А знаешь, ты ведь мой лучший друг», или обращал внимание на то, как пьяные «слов неправильный порядок часто делают»? Джонатан Айткен был высокопоставленным британским политиком, которому прочили пост будущего консервативного премьер-министра. В 1985 году, будучи главным секретарем Министерства финансов, Айткен ушел в отставку с поста члена кабинета министров, чтобы противостоять обвинениям, выдвинутым против него газетой Guardian и Granada TV. Они заявили, что он получал взятки от бизнесменов из Саудовской Аравии в связи с продажей оружия. Он, не колеблясь, выступил с речью, в которой заявил, что подаст в суд по обвинению в клевете: «Если мне придется начать борьбу, чтобы удалить раковую опухоль нашей бесчестной и извращенной журналистики с помощью меча чистой правды и надежного щита честной игры, пусть будет так. Я готов к бою». Четыре года спустя Айткен был приговорен к тюремному заключению сроком 14 месяцев за лжесвидетельство и препятствие отправлению правосудия. В ходе дела по обвинению в клевете он заявил, что часть счета из отеля Ritz в Париже оплатила его жена деньгами, которые он ей ранее выдал. Но Guardian удалось получить копию этого счета, и обман был разоблачен. Карьера Айткена закончилась. Если прослушать архивную запись его речи, в которой он говорил о «мече правды», можно услышать, что манера его речи удивительно невыразительна и резко контрастирует с саркастическими словами.
Но чтобы у компьютера появилась возможность обнаружить ложь, ему придется научиться понимать слова. Это позволит системе ориентироваться на другие признаки обмана, обнаруженные в научных исследованиях, например, на тот факт, что когда человек врет, он приводит меньше деталей и устанавливает меньше связей с внешними событиями {365}. Но чтобы использовать эти данные, компьютеру нужно уметь распознавать речь и понимать ее семантику.
Одна из первых электронных систем распознавания речи, которая называлась «Одри», была создана в 1952 году К. Дэйвисом и его коллегами из Лабораторий Белла в США. Она могла распознавать отдельные цифры, а при тщательной настройке на конкретного говорящего правильно идентифицировала практически каждое слово. Как и другие первые системы, «Одри», по существу, работала по принципу подбора моделей. На рисунке выше показана запись голоса человека, который считает от одного до пяти. В верхней части — обычный способ представления звука, «виляющий» след, показывающий, как изменяется давление, создаваемое голосом, по мере произнесения пяти цифр. Второе слово, two, показывает два отдельных отрывка, [t] и [oo]. Оно начинается с взрывного [t], при котором воздух сначала блокируется языком, прижатым кверху, к нёбу, а когда язык отрывается, резкий выдох создает звук. За этим быстро следует гласный [oo], который почти пропевается. В нижней части — спектрограмма, показывающая изменение частотной характеристики речи. Для слова two темная линия опускается вниз слева направо, а для слова