Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта — Тревор Кокс

о визитной карточкой. Новейшие синтезаторы речи, конечно, звучат более естественно, и такие голоса, как Siri, персональный помощник iPhone, для многих людей стали частью повседневной жизни. Когда я приступил к написанию этой главы, в среде специалистов, занимающихся синтезом речи, царило возбуждение по поводу новейшей технологии, разработанной DeepMind. Заголовки пестрели сообщениями о том, как в 2016 году разработанная компанией программа на основе искусственного интеллекта AlphaGo обошла профессионального игрока в го. Ученые старались добиться впечатляющего качества синтезированной речи, как это получилось у DeepMind.

Если мы все ближе подходим к моменту, когда механическая речь станет неотличимой от человеческой, следует ли беспокоиться тем, кто профессионально использует свой голос? Не наступит ли час, когда я в последний раз буду выступать со своей научно-популярной программой на радио BBC? Ведь BBC уже начала переводить и читать сводки новостей на русском и японском языках, используя механические голоса ^{285}. Это делается для того, чтобы предоставлять услуги на большем количестве языков, так что дикторы-люди не останутся без работы — во всяком случае пока…

А как насчет актеров, которые профессионально используют голос? Некоторые театральные компании уже экспериментируют с роботами-актерами. Конечно, луддиты здесь не нужны, потому что машины не заменяют актеров, а играют самих себя. Например, My Square Lady — опера, в которой робот по имени Мион занят в роли, похожей на историю Элизы Дулитл из мюзикла «Моя прекрасная леди». Элиза занималась риторикой, чтобы изменить свой социальный статус, а Мион учится чувствовать и выражать эмоции, чтобы стать более человечным. По мере того как искусственный интеллект совершенствуется, а компьютерная речь улучшается, будет ли в постановке шекспировской «Как вам это понравится?» звучать модифицированная строка: «Весь мир — театр, а роботы в нем — актеры»?

Говорящие машины появились в театре. Первый настоящий синтезатор речи — механическое устройство, созданное венгром Вольфгангом фон Кемпеленом в конце XVIII века. Кемпелен был настоящим энциклопедистом: политиком, художником, изобретателем и, что самое главное, еще и шоуменом ^{286}. Его самым известным сценическим действом был умеющий играть в шахматы автомат. Эта машина представляла собой большой ящик, на верхней плоскости которого располагалась шахматная доска, а внутри находились замысловатые заводные механизмы, которые тикали и жужжали при движении. Над доской склонился бородатый манекен в турецком халате и чалме, его рука двигалась: он брал фигуры и передвигал их. Это действо вызывало восторг у зрителей по всему миру, включая Париж, где в 1783 году машина сыграла партию с послом США Бенджамином Франклином ^{287}. Это был Кемпелен-шоумен: он продемонстрировал сложнейший фокус, обманув зрителей, ведь на самом деле все движения контролировались миниатюрным игроком, спрятанным в секретном отделении внутри ящика.

Старинный рисунок машины Кемпелена и модель Брекхейна и Трувейна; воздуходувы не видны, они находятся справа

А вот говорящая машина Кемпелена стала уже серьезным научным предприятием, рожденным желанием опытным путем изучить, как работает голос. Построив машину, которая симулировала отдельные части голосовой анатомии, он надеялся лучше понять человеческую речь. В своей научно-популярной программе я использовал модель машины Кемпелена, которой управлял профессор Дэвид Хауэрд из колледжа Ройял-Холлоуэй при Лондонском университете. Подобно Кемпелену, Дэвид — энциклопедист, инженер по электронике, дирижер и органист. И он тоже немножко шоумен. У говорящей машины Дэвида есть большой набор воздуходувов, которые работают подобно легким. Из них воздух проходит через полую трубку, которая симулирует работу голосовых связок: открывается и закрывается, перекрывая поток воздуха и создавая гудящий звук. Для имитации эффекта голосового тракта из передней части машины высовывается кожаная трубка, которой Дэвид манипулирует для создания разных звуков. Когда воздуходувы, находящиеся под его правой рукой, проталкивают воздух, Дэвид два раза быстро нажимает на кожаную трубку левой рукой, и получается слово «мама» (хотя мне показалось, что эти звуки больше похожи на грустное мычание коровы, чем на голос ребенка). Но когда Фабиан Брекхейн и Юрген Трувейн из Университета Саара в Германии проводили исследования со своей моделью машины Кемпелена, они обнаружили, что четыре из десяти испытуемых, слушавших воспроизводимое машиной слово «мама», думали, что говорит ребенок, а не машина[31]^{288}.

У машины имеется пара медных носовых отверстий, которые торчат, как бакенбарды, рядом с кожаной трубкой. Если их закрыть, «мама» превратится в «папу». Еще несколько рычагов и кнопок могут создавать другие звуки. Один из клапанов обходит полую трубку, посылая воздух через крошечный свисток, который создает шипящий [с]. У человека этот звук производится, когда воздух со свистом проносится через маленький просвет между языком и нёбом. Чтобы получить разнообразные звуки, необходима практика — как и в случае игры на музыкальном инструменте.

Проделки с шахматной машиной показали, что Кемпелен знал, как работать с аудиторией. Он даже оставил описания некоторых своих трюков — например, как использовать дающую высокий звук полую трубку для создания детского голоса, потому что знал, что это поможет успокоить критиков. Во время демонстрации говорящей машины зрители могли задавать слова, которые машина должна была синтезировать. Вот как описывает это один из зрителей:

Машина произносила все слова с большой точностью… По тону голос напоминал трехлетнего ребенка. Иногда требуемое слово произносилось сначала неправильно, и артисту приходилось делать несколько попыток. Он оправдывался, говоря, что человек, который делает скрипки, не обязательно виртуозный скрипач ^{289}.

Кемпелен решил, что будет сам вслух произносить фразу, перед тем как ее повторит машина. Таким образом он заранее подготавливал слушателей, чтобы они не заметили ошибок в произношении, поскольку мозг уже подсознательно их исправит. И все же интерес к этой впечатляющей машине довольно быстро угас, потому что она не могла воспроизводить многие согласные.

В XIX веке были созданы еще более сложные говорящие машины. Самой известной была «Эуфония» Джозефа Фабера, которая в 1846 году участвовала в представлениях передвижного цирка Ф. Т. Барнума. На фотографиях это устройство напоминает ткацкий станок, снабженный воздуходувными мехами и головой манекена без туловища. Вибрация полой трубки регулировалась винтом, и это позволяло придавать голосу различную высоту тона. Машина Кемпелена всегда говорила монотонно, но «Эуфония» могла менять интонацию и даже петь «Боже, храни королеву».

Как и три десятилетия спустя, когда Эдисон изобрел фонограф, газеты предрекали «Эуфонии» различные сатирические роли. Кто-то предлагал заменить ею занудных ораторов, будь то скучный проповедник, адвокат или даже член королевской семьи. Журнал Punch предположил, что «Эуфония» может даже занять место спикера в палате общин: «Положите перед ней церемониальный жезл. Сбоку поместите большую табакерку… для удобства членов парламента и простой аппарат, чтобы он выкрикивал призывы к порядку каждые 10 минут» ^{290}.

Многие отнеслись к этому изобретению с энтузиазмом, но будущий театральный импресарио Джон Холлингсхед написал откровенно пессимистичный отзыв, назвав профессора Фабера «человеком с грустным лицом», а говорящую машину «его научным чудовищем Франкенштейна». В конце концов Фабер уничтожил свою машину и покончил с собой ^{291}.

К счастью, реакции на первую электронную говорящую машину были более оптимистичными. Синтезатор речи (The Voder) стал самым известным аттракционом на Всемирной выставке 1939 года в Нью-Йорке. По примерным оценкам, электронный голос вызвал восхищение у пяти миллионов посетителей, включая пожилого человека, так отозвавшегося о нем: «Чудеса, как их описывает Библия, на самом деле существуют, ведь здесь, в этой комнате, мы своими глазами увидели это современное чудо! Воистину здесь нам показывают чудеса божьи, переданные посредством человеческого разума» ^{292}.

Создателем синтезатора речи был Гомер Дадли из Лабораторий Белла. В некрологе коллега описывал Дадли как одного из «величайших “старомодных” изобретателей», которого было трудновато понимать, потому что он слишком быстро говорил: «Язык у него работал как телеграфный аппарат» ^{293}. К слову, именно медленная работа телеграфного кабеля заставила Дадли искать лучшие способы передачи речи, потому что высокие звуковые частоты находились за пределами возможностей кабеля. Эта работа и привела к созданию синтезатора речи.

Синтезатор речи Дадли (Voder) ^{294}

Дадли понял, что гудение голосовых связок, которое создает проблематичные для передачи высокие частоты, можно отделить от более медленных движений рта, языка и горла, поэтому сигнал, описывающий эту медленную артикуляцию, можно легко передавать по кабелю ^{295}. Хотя кабель не мог передавать звук голосовых связок, приемнику достаточно было передать частоту гудения, а затем можно было ее воссоздать на другом конце, используя генератор сигналов. Эта идея отделения источника звука от эффектов голосового тракта легла в основу создания синтезатора речи.

Предыдущая Стр. 35 из 53 Следующая

Оглавление