Беседы о бионике — страница 84 из 107

Интересно отметить и такую деталь: изображение звука так же постоянно для каждого человека, как и отпечатки его пальцев. Криминалисты на Западе уже пытаются использовать это обстоятельство для опознания преступников. А ученые Грузии намерены на этой основе создать машины, выполняющие команды только определенных лиц. В общем, как в сказке: "Сезам, откройся!"

Из литературы известно о создании устройства, производящего по устной команде перестройку радиоприемников на фиксированные волны. Создано также несколько моделей машин для автоматического набора номера телефона голосом. Правда, большинство из них хорошо работает только при настройке на данный голос, причем точность набора составляет в этом случае 97-99%, но без настройки она падает до 50 — 70%.

Изготовлены выключатели, реагирующие на резкие звуковые команды. Оказывается, человеческий голос обладает интересным свойством, называемым "асимметрией огибающей". Особенно большой асимметрией обладают гласные звуки. Прибор, основанный на этом свойстве, "слышит" резко сказанные слова или крик и отключает (в случае опасности) двигатели или другие агрегаты. И вот еще что важно: это устройство способно реагировать на речевые сигналы, которые в 20 раз слабее, чем окружающий шум, — шумы не обладают асимметрией огибающей.

Один из зарубежных институтов разработал станок с программным управлением. От других подобных конструкций этот станок отличается тем, что программу для него составляет электронная счетная машина. Точнее, она не составляет программу, а преобразует в понятную для станка цифровую форму команды, отдаваемые оператором в микрофон (на это уходит всего несколько секунд). Станок, программируемый голосом, позволяет сэкономить время, нужное для перевода величин подачи, глубины резания и т. д. в машинный код, — устройство само выполняет эту работу. Разумеется, программу можно наговорить и заранее, тогда станок будет обрабатывать деталь сам, без оператора. Конструкторы сделали так, что электронной вычислительной машине "безразлично", каким голосом отдается приказ: громким или тихим, басом или дискантом. Ее не смутит и различная интонация, особенное произношение и даже акцент. На входе устройства, управляющего работой станка, стоит "швейцар". Он пропускает только самую суть слова (т. е. то, что отличает данную команду от другой, например "два" от "три" и т. д.). А всяческие "украшения" — то, что ученые называют избыточной информацией, — попросту не воспринимаются машиной.

Не так давно на Брюссельской автомобильной выставке демонстрировался автомобиль фирмы "Крейслер", управляемый посредством устных распоряжений. Стартер запускал мотор, повинуясь словесному приказу водителя. Устное распоряжение заставляло машину включать и выключать сцепление, переключать скорости. Даже повороты водитель совершал, не прикасаясь к рулю (его вовсе не было на машине!), а лишь произнося условные сигналы. Объемистый багажник автомобиля был весь заполнен электронной аппаратурой, среди которой первое место занимало счетно-решающее устройство и "рецепторы", воспринимающие акустические сигналы.

При разработке различных устройств, управляемых голосом, не остались забытыми и устройства для космонавтов. Так как у космонавта, вышедшего в космос из кабины своего корабля, "не хватает рук" для управления индивидуальным ракетным двигателем — он будет занят выполнением различных операций (работа с инструментами, кино- и фотокамерами и т. п.), — американские инженеры разрабатывают электронное устройство, с помощью которого это управление будет осуществляться командами, подаваемыми голосом космонавта. Для этого, как полагают конструкторы, будет достаточно 10 команд.

В Институте кибернетики Академии наук УССР, в лаборатории, руководимой В. А. Ковалевским, создана машина, "запомнившая" два десятка слов. Она узнает их почти безошибочно, независимо от того, кто их произносит. Если учесть, что из двух десятков слов можно составить не одну сотню разнообразных сочетаний, то выходит, что уже сегодня машина в состоянии воспринимать несколько сот различных голосовых команд. Спору нет, этого слишком мало, чтобы вести с машиной свободную беседу, но достаточно для того, например, чтобы она могла мгновенно "понять" команду о выходе из какой-либо аварийной ситуации.

Из всего приведенного выше следует, что разработка устройств, управляемых голосом человека, идет в определенном направлении. Однако до сих пор еще не созданы устройства для ввода любого речевого сообщения в вычислительные машины. Пока ведутся только научные поиски, эксперименты, ведь совершенно ясно, что поставленная задача много сложнее проблемы опознавания зрительных образов. Преодолеть языковую пропасть между человеком и машиной одним прыжком очень трудно.

Речь состоит из слогов, слов, фраз и т. д. Наименьшим элементом речи является звук (фонема). С физической точки зрения звуки речи различаются и частотным составом, и интенсивностью, и продолжительностью. В речи нет четких границ между звуками. Так же как рукописные буквы соединяются друг с другом промежуточными элементами, звуки речи в словах стыкуются с помощью "переходов" — звуков, которые возникают при перестройке нашего голосового аппарата для произнесения очередного звука. У разных людей форманты даже одних и тех же гласных звуков несколько разнятся по своей частоте и интенсивности (в детском и женском голосе все форманты несколько выше, чем в мужском). Кроме того, даже у одного и того же человека форманты одного и того же звука заметно различаются в зависимости от того, в каком слове произносится звук, ударный он или безударный, высок он или низок. Важной характеристикой звуков являются также число и частота обертонов. Индивидуальные особенности характеристик формант, а также присутствие в голосе еще и других специфических для каждого человека обертонов придают голосу человека неповторимый, присущий только ему одному тембр. Все это многообразие особенностей речевого сигнала заставляет ученых идти различными путями в поисках оптимального решения задачи распознавания речи.

Долгое время считалось, что в машинную память следует закладывать все признаки, которые в интересующем нас образе встречаются чаще всего. Однако при таком статистическом подходе вычислительная машина должна перерабатывать огромное количество сведений о множестве признаков. Но человек никогда не решает так задачу распознавания. Он сразу же выхватывает главное. При этом он выбирает всякий раз особую, часто очень сложьгую, но всегда наиболее эффективную тактику отбора. То же происходит и при распознавании речи (устной или письменной). Мы не отыскиваем каждый раз в памяти фонемы, не сличаем их с услышанными. Нам достаточно небольшого числа опорных ориентиров (первые звуки, ударение), чтобы понять слово. Мы часто понимаем и с "полуслова". Забывая об этом, машину учили постепенно составлять слова, последовательно складывать их из запасенных в памяти фонем. Вот почему, по мнению ряда ученых, практически никто не добился до сих пор большого успеха. Пока есть только машины, слушающиеся небольшого количества совершенно определенных устных команд, но не машины, в совершенстве "понимающие" речь.

Однако такого мнения придерживаются далеко не все специалисты, занимающиеся проблемой распознавания речи. Наоборот, опираясь на свои исследования, они считают, что восприятие слов в нашем мозге происходит по фонемам, а наличие автоматизма в приеме объясняется тем, что в памяти человека имеется набор слов и после прихода цепочки фонем (звуков) в мозгу автоматически создается соответствующий образ. "Это явление, — пишет М. А. Сапожков, — аналогично, например, печатанию на пишущей машинке: машинистка не может точно сказать, какие буквы были ею напечатаны, а при прочтении слова в мозге оно автоматически разлагается на буквы, и соответствующие сигналы поступают из мозга в пальцы. Следовательно, наиболее вероятно, что в мозге происходит опознавание фонем, а уже по ним — узнавание слов по образцам, хранящимся в памяти человека".

А вот Л. А. Чистович, А. В. Кожевников и другие сотрудники Института физиологии имени И. П. Павлова считают, "...что фонемы не представлены в акустическом потоке непосредственным образом и в процессе восприятия речи переход от акустического сигнала к символам фонем осуществляется иным, более сложным способом, чем это предполагает гипотеза пофонемного распознавания". Исследования Л. А. Чистович и В. А. Кожевникова показывают, что наша речь разбивается совсем не на фонемы, как это представляется многим. Письмо дробится на буквы, поэтому и в устной речи понятия, слова мы привыкли связывать с серией отдельных звуков. Но внутренняя организация устной речи другая: она разбивается не на фонемы, а на слоги. Человек принимает решение о предыдущей фонеме только после анализа последующего звука, т. е. он должен проанализировать весь слог.

Так как "...слог является той минимальной единицей, на уровне которой возможен переход от акустического сигнала к смыслоразличительным элементам языка", Л. А. Чистович и В. А. Кожевников пытаются организовать понимание машинами слов, или, как говорят, "распознавание образов речи", исходя из нового принципа. Они считают, что для машины различительными единицами должны были бы служить слоги. Тогда весь непрерывный поток устной речи можно разбить на слоговые группы и обрабатывать их, основываясь на звуках, которыми заканчиваются слоги. Как только начат переход к другому слогу, машина приступает к обработке данных о предыдущем, а затем передает полученные результаты в устройство памяти или на выход.

Быть может, следует идти по пути создания устройств, автоматически распознающих целые слова и фразы? О распознавании фраз речь может идти только в очень узком понимании: распознавание некоторых команд. Такой путь опознавания образа целого сообщения, по мнению ряда ученых, вполне себя оправдывает в том случае, когда дело идет об автоматизированном распознавании ограниченного набора (до нескольких десятков) команд, состоящих из одного-двух слов. Однако при переходе от ограниченного набора сообщений к общему случаю, когда число возможных речевых сообщений можно принять равным, например, числу осмысленных предложений на данном языке, рассматриваемый путь опознавания образа каждого отдельного сообщения, по мнению В. А. Кожевникова и Л. А. Чистович, явно не рационален. И действительно, для того чтобы хранить в памяти образы всех возможных предложений, распознающему устройству понадобился бы совершенно невероятный объем памяти. Как показывают произведенные Миллером, Галантером и Прибрамом расчеты, для того чтобы хотя бы один раз прослушать все грамматически возможные английские фразы длиной до 20 слов, человеку пришлось бы слушать примерно по 3 o 1020 фраз в секунду в течение 100 лет без перерывов!