Что касается обучения машин распознаванию целых слов, то сторонники фонемного метода рассуждают так. Каждый человек, говорящий по-русски, использует для передачи сообщений около 40 основных звуков-фонем и примерно 10 000 слов. Так что же легче — научить машину различать 40 фонем или десятки тысяч слов? "Как показывает опыт, — говорят специалисты, — идентифицировать фонемы трудно, но все же это единственно разумное решение".
Как мы видим, среди ученых нет единого мнения относительно выбора оптимального метода автоматического распознавания речи. И в этом нет ничего удивительного. Ведь до сих пор нам неизвестны инвариантные признаки фонем, по которым происходит их опознавание. Более того, неизвестно точно, опознаются ли элементы речи по фонемам, образы которых накоплены в памяти человека, или в памяти заложены образцы слов с их окончаниями и приставками и по этим образцам опознаются слова.
"Наивысшим и совершеннейшим человеческим приспособлением" назвал звуковую речь человека выдающийся русский физиолог И. П. Павлов. Физическая природа звуковой речи хранит в себе множество тайн. Как образуются звуки в голосовом аппарате человека, как они воспринимаются слухом и от чего зависит характер звука — вот проблема, в центре которой еще по сей день скрещиваются интересы ученых, работающих в самых разнообразных областях науки. Для того чтобы машины могли безошибочно выделять какой-то один образ из множества других сходных, нужно точное знание характерных его признаков. Но как выбрать такие признаки? Над решением этой задачи во всем мире ныне работают физиологи и лингвисты, акустики и невропатологи, специалисты по бионике и логопеды, психологи и инженеры, математики и конструкторы. Объединенные усилия всех этих специалистов, надо полагать, в конце концов раскроют тайны устной речи, дадут нам достоверные сведения о механизмах речи, о том, как мы говорим и слышим, почему понимаем слова.
А пока? А пока каждый ученый, работающий над созданием устройств по автоматическому распознаванию речи, идет избранным им путем.
Для проверки того или другого принципа автоматического распознавания речи ученые обычно строят фонетограф. Его блок-схема выглядит так: микрофон — усилитель — распознающееустройство — электрическая пишущая машинка. Появление фонетографов навело ученых на такую мысль: а что, если использовать это устройство в качестве самой обыкновенной пишущей машинки? Диктовать в микрофон текст доклада или научной статьи и получать на выходе тот же текст отпечатанным? Так сказать, автоматизировать труд машинисток или стенографисток, а может быть, и работу типографских наборщиков. Такой аппарат мог бы оказать неоценимую услугу также сотрудникам вычислительных центров. Они смогли бы вводить данные в вычислительную машину, просто диктуя их в микрофон.
Небезынтересно отметить, что возможность создания автоматического стенографа — пищущей машинки была доказана еще в начале сороковых годов советским ученым профессором Л. Л. Мясниковым, построившим динамический анализатор — прибор для объективного распознавания звуков речи. Однако реализация этой идеи была отложена из-за начавшейся Великой Отечественной войны.
Над созданием пишущих машинок-автоматов, печатающих под диктовку, ныне работают ученые ряда стран. Можно проектировать машинки, печатающие с голоса, для печатания слов, слогов, букв или звуков (фонем). По сложности конструкции и трудоемкости изготовления эти устройства очень разнятся. Так, для словесных машинок требуется очень большая память и само печатное устройство получается сложным и громоздким. Зато чисто фонетическая машинка должна содержать в памяти около 40 знаков и иметь столько же печатных знаков. Но такие устройства обладают чрезвычайно существенным недостатком: для чтения напечатанного материала требуется определенный навык, так как фонетографы дают на выходе фонетическую запись, т. е. значки, соответствующие звукам речи, а не буквам продиктованного текста, — своего рода транскрипцию. Почему же они непохожи друг на друга?
Дело в том, что произносимые звуки не соответствуют буквам русского алфавита. Сорока фонемам русской речи соответствуют 33 буквы алфавита. Помимо того, что в нашем алфавите есть непроизносимые буквы (ь, ъ), но и пишем-то мы часто совсем не то, что слышим. Произнесите, например, слово "лоб". На конце отчетливо слышится "п". Но если вы напишите так, как слышите, вас сочтут неграмотным.
Займись наши ученые проблемой распознавания речи не 15 — 20 лет назад, а во времена Кирилла и Мефодия — положение было бы совсем другим. И вот почему. 13 веков назад Кирилл и Мефодий создали русскую письменность, в которой каждому звуку соответствовала буква. Но за прошедшие 1300 лет в нашем произношении произошли большие изменения, а эволюция фонетической системы языка не получила достаточного отражения в письменной речи. Вот и получается описанная выше ситуация.
Как же заставить фонетическую машинку выполнять работу по перекодированию звуков в буквы подобно тому, как это делает пишущая под диктовку машинистка? Да и возможно ли это вообще? Возможно. Перевод звуков речи в буквы должен происходить в соответствии с грамматическими, орфографическими и лексическим:и правилами. Для ЭТОГО машинка должна быть наделена "памятью" на определенное количество звуков, сочетаний или слогов. Отсюда, конечно, не следует, что в памяти машинки должны быть заложены все звукосочетания, вполне достаточно иметь наиболее ходовые и типичные звукосочетания, при произнесении которых возможен неточный перевод звуков в буквы. Очень редких сочетаний или сочетаний, легко распознаваемых машинкой, может в памяти и не быть, так как это не вызовет трудностей в чтении материала и легко может быть исправлено в процессе чтения.
Примером удачного решения задачи является фонетическая пишущая машинка, созданная американскими учеными Г. Олсоном и Г. Беларом. Общий вид ее конструктивного оформления показан на рис. 6.
Блок-схему всего устройства можно рассматривать как сложный аналог слухового аппарата, части мозга, нервной системы и нервно-мышечного аппарата человека, печатающего под диктовку. Бионическая схема человека, печатающего под диктовку, и блок-схема фонетической пишущей машинки показаны на рис. 7. Чтобы понять принцип работы устройства, проследим, каким образом перерабатывается звуковая информация по пути ее следования.
Звуковая энергия улавливается наружным ухом человека, передается по слуховому проходу и воздействует на барабанную перепонку среднего уха. Механическое движение последней передается жидкости, заполняющей улитку (внутреннее ухо), при помощи слуховых косточек, которые, подобно рычажкам, перемещаются нелинейно. При этом происходит "компрессия" ("сжатие") сигнала, т. е. большие амплитуды уменьшаются сильнее, чем малые, причем уменьшение амплитуды пропорционально ее величине.
Рис. 6. Общий вид фонетической пишущей машинки (модель III), разработанной Г. Олсоном и Г. Беларом
На рис. 7 показано схематическое изображение "развернутой" улитки и показаны частоты, воспринимаемые различными ее участками. Здесь осуществляется первичный анализ информации. Дальнейший ее анализ происходит в мозге, куда сигналы поступают по слуховому нерву. На основе этого анализа мозг вырабатывает команды, посылаемые мышцам руки, нажимающей на соответствующие клавиши пишущей машинки.
В машине, распознающей речь, голос оператора воспринимается микрофоном и преобразуется в электрические колебания соответствующих частот. Желательно, чтобы результаты распознавания не зависели от громкости произносимых слов и расстояния от микрофона. Для этой цели в машине применен звуковой компрессор, представляющий собой специальный нелинейный усилитель, который хорошо имитирует работу среднего уха.
После усиления и компрессии речевой сигнал поступает на анализатор частот — систему из восьми полосовых фильтров, охватывающих диапазон 250-10 000 гц, и систему детекторов сравнения амплитуд. Последняя собрана так, что реле, соответствующее данному каналу, включается лишь тогда, когда уровень в нем больше среднего уровня в двух соседних каналах. Выходной сигнал частотного анализатора поступает в виде двоичного восьмиразрядного кода в корректированную по времени "спектральную память". В ней запоминаются состояния восьмиканальных реле в течение пяти последовательных интервалов времени. Образующаяся матрица 5X8, соответствующая произнесенному слогу или слову, считывается устройством распознавания комбинации сигналов лишь тогда, когда вся матрица будет полностью образована.
Рис. 7. Бионическая схема человека и машинки, печатающей под диктовку
Речь опознается по группе фонем, составляющих слог, а не по отдельным фонемам (причина этого заключается в том, что распознавание многих фонем вне контекста очень трудно). В слоговой памяти хранятся комбинации сигналов, соответствующие различным произношениям одного и того же слога или слова. Осуществляемое устройством распознавание 40-битной матрицы, соответствующей произнесенному слогу, представляет собой определенный вид процесса сравнения с имеющимися в слоговой памяти "эталонными" матрицами звукосочетаний.
Распознавание слога, если оно произведено, вызывает срабатывание того реле из памяти написания, которое связано с написанием данного слога. В памяти написания (орфографической памяти) имеются типовые комбинации сочетаний букв, представляющих 40 фонем, для заданных 100 слогов. Реле соединено с шинами очередности следования букв и с шинами кода букв в блоке управления печатанием, который в свою очередь управляет работой буквенных приводов. Наконец происходит печатание выбранных букв.
Таким образом, слово печатается в соответствии с заранее определенным написанием, которое по необходимости должно быть одинаковым для одинаково звучащих слов. Именно поэтому устройство и было названо "фонетической пишущей машинкой".
По данным Г. Олсона и Г. Белара, для того чтобы в английской речи понять 98% произносимых слов и фраз, достаточно иметь "память" приблизительно на 2000 слогов. При этом орфография оказывается правильной примерно в 85% случаев. По расчетам М. А. Сапожкова, для русской речи нет необходимости в таком объеме памяти, так как фонетическая и печатная формы русских слов различаются в значительно меньшей степени, чем английс