Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта — страница 2 из 53

{4}.

Второй фонограф, созданный Эдисоном, прибыл в Англию через две недели. Обычно его не показывают публике, но мне выпала честь рассмотреть его поближе, когда я принимал участие в радиопередаче BBC. С правой стороны у аппарата имеется заводная рукоятка, которая вращает центральный цилиндр, покрытый оловянной фольгой. С левой стороны находится большое маховое колесо, обеспечивающее плавность движения. Говорить нужно в простую воронку, направляющую звук в небольшую мембрану, которая начинает вибрировать. К задней стороне мембраны прикреплена игла, которая по мере вращения фольги вычерчивает спиральную дорожку. Все удивительно просто: колебания воздуха, которые создают звук голоса, преобразуются в колебания иглы, а следы от движения иглы запечатлеваются на фольге в виде волнистой бороздки. Чтобы воспроизвести звук, необходимо проследовать в обратном направлении: сначала воспроизводящая игла движется по бороздке, повторяя ее углубления и выпуклости, это создает вибрации сначала мембраны, а затем и молекул воздуха, которые достигают ушей слушателя.

Фонограф Эдисона — музейный экспонат и больше не используется, но во время посещения Королевского института Великобритании я на другом аппарате записал «Рассвет» Альфреда Теннисона. Я выбрал именно это стихотворение, потому что сам Теннисон наблюдал, как его записывали на фонограф, когда новое изобретение в первый раз представляли в Королевском институте. Чтобы запись получилась, приходилось наклоняться очень близко к рупору и кричать, чтобы оставляемые иглой бороздки были достаточно глубокими, в противном случае при воспроизведении слова́ заглушались поверхностными шумами. Мой голос звучал очень слабо, но слова были отчетливо слышны даже на фоне неизбежного царапающего звука.


Томас Эдисон и его фонограф{5}


Первые демонстрации фонографа сопровождались веселыми экспериментами. Коронным номером в то время было изменение скорости вращения ручки во время воспроизведения звука. Один из очевидцев рассказывал, что слышал голос «рассерженной старой женщины», когда цилиндр вращался слишком быстро, и «немощного старика, набравшего в рот воды», когда воспроизведение замедлялось{6}. The Beatles прославились своими новаторскими экспериментами со звуком — наложением голосов, проигрыванием записей наоборот и на разной скорости. В 1970-е годы отдельные религиозные группы были возмущены тем, что при проигрывании некоторых песен в обратном порядке, например «Лестницы в небо» группы Led Zeppelin, якобы передавались сатанинские стихи. Но ведь первым был Эдисон: именно он так проиграл Mad dog! Mad dog! Mad dog![2].


Индеец пиеган и этнолог Фрэнсис Денсмор, 1916


Влияние технологии на голос оказалось очень значительным, она не просто позволила нам дурачиться с записями речи, но изменила то, как мы говорим и поем. Я сравнил историческую запись на фонографе, на которой актер сэр Генри Ирвинг читает «Зима тревоги нашей позади»[3], с современной интерпретацией Дэвида Моррисси. На записи XIX века Ирвинг усиливает свой аристократический голос, используя специальную вокальную технику, разработанную для большой сцены театра. Микрофон же, напротив, освобождает Моррисси от необходимости говорить очень громко, и он произносит строки так, будто выступает перед небольшой аудиторией, при этом четко различимы особенности его хрипловатого голоса. Существенно изменилось и пение. Можно сравнить ранние записи на фонографе оперной суперзвезды Аделины Патти с записями великолепных современных певиц, например Эми Уайнхаус. Оперный голос Патти исключительно чистый и приятный, а исполнение Эми Уайнхаус в большей степени выражает ее индивидуальность и обнажает душу. Патти приходилось анатомически точно выстраивать звуки, чтобы звучать громко. У Уайнхаус было больше свободы для самовыражения, потому что электроника взяла на себя нагрузку на голос. Технология позволила огромному разнообразию голосов появиться в современной музыке.

По своей природе звук быстротечен, но все изменилось с появлением звукозаписи. Теперь ученые могут анализировать богатую историю устной речи. Они обнаружили культурные изменения, такие как понижение тона женского голоса за последние десятилетия, или замену гнусавости кокни в лондонском Ист-Энде смешанными акцентами из разных культур. Голос трансформировался на протяжении всей истории человечества, но лишь сейчас мы можем непосредственно фиксировать эти изменения. Ученые могут сравнивать старые и новые записи, чтобы понять, как на протяжении жизни, в течение которой человек говорит и слушает, изменяется его голос. К счастью, наша голосовая анатомия хорошо справляется с возрастными изменениями: морщины и седые волосы появляются значительно раньше, чем деградирует голос.

Для своего изобретения Эдисон предусмотрел множество сфер применения, но сильнее всего ему хотелось записывать голоса людей незадолго до их смерти. Голос выражает личность в значительно большей степени, чем изображение, потому что голос — живой. Как предсказывал Эдисон, «фонограф, несомненно, превзойдет фотографию в смысле сохранения высказываний, голосов и последних слов умирающих членов семьи — и великих людей»{7}. Хотя это пророчество не сбылось, в наши дни люди все чаще сохраняют голоса любимых, записывая их на видео. Мобильные телефоны и другие гаджеты привели к тому, что анимированные изображения и звукозаписи стали серьезно конкурировать с неподвижными фотографиями.

Сегодня искусственный интеллект позволяет создавать голосовые воспоминания, имитирующие беседу с умершими людьми. Ведется множество разговоров о том, что искусственный интеллект лишит людей рабочих мест, но кто бы мог подумать, что прорицатели, проводящие спиритические сеансы, столкнутся с сокращением штата? (Хотя, по-видимому, они уже об этом знают и начали переквалифицироваться.)

В 2015 году в Москве трагически погиб под колесами автомобиля редактор интернет-журнала Роман Мазуренко. Его близкий друг, предприниматель Евгения Куйда, создала чат-бот, чтобы в последний раз поговорить с Романом. У Евгении были тысячи текстовых сообщений от друга, и все они были загружены в компьютерную программу, с помощью которой искусственный интеллект создал робота, использующего стиль речи Романа. Слова Теннисона навеки запечатлены в воске, но робот Романа может отвечать фразами, которые никогда не существовали в текстовых сообщениях{8}. Вот типичный пример:

Евгения. Как дела?

Бот Роман. Я в порядке. Настроение не очень. Надеюсь, ты там без меня ничем интересным не занимаешься?

Евгения. Тут много всего происходит. Жизнь продолжается, но нам тебя не хватает.

Бот Роман. И мне вас не хватает. Похоже, это и называется любовью{9}.

Как к этому относиться? Нет ничего необычного в том, чтобы разговаривать с ушедшим любимым, вслух или про себя, но при мысли, что машина отвечает, бросает в дрожь. Технология разделила друзей и семью Романа: кому-то это понравилось, кто-то счел это неприемлемым. А теперь представьте, что мы сделали еще шаг вперед и используем технологии для реконструкции голоса Романа. Это вполне реально: персонализированные искусственные голоса все чаще используются людьми, потерявшими голос из-за болезни, например, двигательного нерва. Если вам неприятна мысль об обмене сообщениями с умершим человеком, представьте страшную машину, способную «оживить» голос любимого. Это поднимает множество этических вопросов — например, можно ли вторгаться в чей-то цифровой след, чтобы создать иллюзию бессмертия?

Искусственный интеллект уже готов в корне изменить наши разговоры. Для людей говорение и слушание — это не просто способы передачи фактической информации. Фраза «я тебя люблю» полна коннотаций. Вряд ли такое скажешь компьютеру, но каждый день тысячи людей признаются в любви Алексе, понимающему голос персональному ассистенту компании Amazon{10}. По мере того как будут появляться машины, способные понимать и изображать эмоции или даже просто убедительно их копировать, наши взаимоотношения с этими устройствами изменятся навсегда. Мы уже не так далеки от реализации сценария фильма 2013 года «Она», где одинокий мужчина влюбляется в интеллектуальную операционную систему по имени Саманта.

Кто потеряет работу, когда технологии позволят улучшить качество разговора? В начале XIX века луддиты громили новые машины — детища промышленной революции, которые угрожали их благосостоянию. Когда в начале XX века музыкальные записи стали привычным делом, композитор Джон Филип Суза опасался, что скоро «никто не отважится подвергнуть себя благородному занятию обучения музыке»{11}. В 2014 году постановка «Кольца нибелунга» Рихарда Вагнера в Хартфорде, штат Коннектикут, была отложена из-за скандала, связанного с использованием компьютера вместо живого оркестра{12}. Если машины освоят эмоции, увидим ли мы, как последователи луддитов штурмуют театр «Глобус», чтобы уничтожить андроидов, декламирующих Шекспира? Сможет ли искусственный интеллект пойти еще дальше и заменить Барда, написав пьесу, в которой будут играть андроиды?

В театре существует давняя традиция использования животных, призраков или марионеток для демонстрации человеческих качеств. Когда компьютеры начнут общаться с нами, технологии тоже позволят нам больше узнать о себе. Сравните сложности, с которыми сталкиваются ученые, пытаясь научить компьютер слушать и говорить, с тем, как дети развивают эти способности естественным путем. Мы думаем, что решать арифметические задачи трудно, а разговаривать — легко. Но когда мы пытаемся научить этому машины, оказывается, что как раз арифметические задачи не представляют трудностей. Способ