Книга 3.0 Слушайте! — страница 91 из 108

Синтез речи при дублировании фильмов.

Уже упоминал такую возможность в разделе «Программа для чтения субтитров.». И такие программы уже есть. Так же у меня есть надежды, что на YouTube появится возможность дублирования видео, используя субтитры и синтезаторы речи, но вот YouTube пока до этого не дорос. Хотя повторюсь технических проблем, которые бы этому препятствовали, нет.

Развивая эту тему, еще хотелось бы отметить, что было бы прекрасно, что бы на YouTube появилась не только возможность прослушивать дублированные видео на родном языке, но и более широкий функционал: выбор голоса, тембра, выразительности, скорости проговаривания и т.д...

Особенно важна настройка и гибкая регулировка скорости воспроизведения. Например, хотелось бы что бы была возможность автоматического замедления или паузы того или иного участка видео, если текст не успевает проговориться. Скажу из личного опыта, такое, к сожалению, на данный момент часто встречается и приходится искать золотую середину, между скоростью воспроизведения субтитров, а иногда видео и пониманием произнесенного. Т.е. если сделать что бы произносило медленно и разборчиво, звук не будет успевать за видеорядом, а если сделать что бы произносило очень быстро, то попросту не будет понятно, что произносится. Думаю, для хороших программистов не составило бы труда создать функцию автоматической подгонки скорости произносимого текста к видеоряду.

Синтез речи и понимания речи машиной.

Помимо проговаривания текста есть еще одна весьма важная задача, которая ставится перед ИТ. Она является как бы противоположностью синтеза речи и её решить труднее. Синтез речи, грубо говоря, и очень упрощенно, это произнесение последовательности конкретных символов – букв. И с эти машины уже худо-бедно справляются, т.к. буквы одинаковы и их не много. То, что человеку не привычно слушать монотонно произнесенные буквы с неправильным ударением, это уже другой вопрос. Но в принципе, с проблемой синтеза речи, справились. С пониманием речи все обстоит намного сложнее, т.к. звуки человеческой речи, которые машине предстоит преобразовать обратно в буквы, весьма разнообразны. Разнообразность их вызвана массой факторов: личной индивидуальной особенностью произносящего, окружающей обстановкой, микрофоном, и многим другим. Поэтому так трудно из голоса, особенно не знакомого вычленить и идентифицировать те или иные звуки фразы, слова, буквы. Тем не менее, и в данном направлении уже есть кое какие успехи. Думаю, уже сейчас можно было бы использовать эти две технологии вместе, с предварительной тренировкой второй и подстройке к конкретному голосу собеседника, конкретному микрофону и т.д. Эту идею уже взяли на вооружение и используют некоторые кол-центры и др. организации, умеющие экономить свои деньги и делать перспективные инвестиции. Надеюсь, что в будущем именно связка этих двух технологий будет объединена в одной программе, которую любой обычный пользователь сможет бесплатно установить и использовать на ПК. Возможно, синтез и понимание речи станет визитной карточкой многих устройств и частью интерфейса ОС способной общаться с людьми привычным для них способом. А уже в дальнейшем, при создании хорошего аналитического ядра, подключенного к мощной базе, границы будут стерты еще больше. Но это уже относится больше к оптимистичным планам и далекому будущему. Тем не мене, раз данные технологии есть уже сейчас, именно проблем в том, чтобы использовать их в одном пакете, нет ни каких препятствий.

Дабы (исправил было даны) мои слова не казались пустым звуком, дам ссылку на один очень интересный сайт https://speechpad.ru/ с помощью него, я надиктовал данные строки (два абзаца) голосом. Правда для меня это было непривычно, потому что печатаю быстрее, чем говорю, особенно если касается продуманных речей. Тем не менее, даже меня возможности этого ресурса и программы приятно удивила, поскольку надиктовывал некоторые предложения довольно быстро. Естественно программа до этого мой голос не слышала. Никакой предворительной подстройки, калибровки не было. На диктовка производилась в микрофон далеко не лучшего качества, который я купил лет 5 назад за пол доллара. К сожалению программа, на данный момент не ставит знаки пунктуации. Да и в словах быльи не значительные ошибки. Которые, я оставил в данном тексте, выделив красным. Возможно, надо говорить разборчиво и внятно прямо в микрофон, тогда ошибок вовсе не будет.

Можно с таким же успехом (практический без ошибок) надиктовывать и украинский текст. Надеюсь, это, уже сейчас мне очень пригодится в работе. Потому что ко мне часто приходят сотрудники, которые не умеют пользоваться клавиатурой и просят меня сделать то, что в принципе может сделать эта программа.

При регистрации доступны более расширенные возможности. К сожалению, насколько я понял, часть функции платные. Но с учетом того, что данную программу я нашёл практически случайно, за 5 минут, уже это весьма обнадеживает. Если немного подождать и поискать более целенаправленно, вероятно отыщутся программы лишённые и этих незначительных недостатков. Способные вводить текст с знаками пунктуации прямо в ворд или другой текстовый редактор. Кстати, версия программы доступны и для андроид. Приложение скачать, можно с гугл маркета. Но установка её в BlueStacks и попытка что-то надиктовать пока не увенчалась успехом. Несмотря на то, что голосовой поиск там работает нормально.

В настоящее время в голосовом блокноте имеется кнопка Транскрибация. Это дает возможность работать не только с надиктовываемым текстом, но и с видео и аудиоматериалом, записанным ранее. О приимуществах и необходимости создания текста с видео и аудио уже писал. Доступен перевод аудиотекстов из форматов html5 видео и аудио, а также из видеозаписей youtube. Как это сделать подробно показано в видео «транскрибирование аудио». А с помощью функции синхронного перевода, надеюсь, в будущем отпадет необходимость в живых переводчиках. Языковая проблема, возникшая по легенде, со времен Вавилона, рухнет. И появится уже рабочая цифровая Вавилонская рыбка.

Вот еще не плохая статья по данной теме «Голосовой набор текста – онлайн сервисы распознавания речи в текст».

Проговаривание сообщений от ОС.

На данный момент такая функция не распространена и очень недоработанная. Но уже сейчас есть утилиты для произношения сообщений, которые выводит на экран система.

Особенно это актуально, к примеру, в линукспупирус. Там очень хорошая обширная и понятная справка. Но иногда читать пару абзацев сообщения системы, выведенное на экран, некогда или банально лень. И тут бы на помощь пришли синтезаторы речи, которые бы и проговаривали подобные послания. Естественно для удобства хорошо было бы, если бы при таком проговаривании его можно было бы остановить в любой момент, изменить скорость проговаривания, проговорить тот или иной участок сообщения повторно и т.д. Опять же, думаю, это все не составит труда реализовать. Но пока доработанного такого проекта я не нашел. Даже в экранном дикторе (Windows), да и в других ОС базовые возможности уже реализованы. Увы, в них на протяжении уже, как минимум, нескольких лет, все не как не удосужатся добавить возможность поставить на паузу, или выбрать проговаривание именно определенного текста. Диктор Windows до сих пор тараторит все подряд, что надо и что не надо.

Восприятие книги телом.

Писал, про это шутя, в начале раздела, посвященного Книге 2.0. Шутки шутками, но все токи данная технология весьма необходима и востребована. Например, для таких несчастных, которые, по тем или иным причинам, стали слепоглухонемыми. Конечно, таких людей немного, но представьте себя хоть на минутку на их месте. Впрочем, представить может помочь книга Скороходовой. Скачать наверно можно тут http://readli.net/ или на сайтах, которые давал выше. Жаль, что в то время не было таких технологий как сейчас. А вообще, не удивлюсь, если окажется что и сейчас не смотря на технологии, их не кто не применяет, и до сих пор используют исключительно дактилологию или (более справедливо для слепоглухонемых) так называемую дактильно-контактную речь (ДКР) и дермографией23 (письмо на руке). Хотя, надо будет погуглить, есть ли, что не будь помимо шрифта Брайля. Существует ли программа передачи звуков или др. сигналов с помощью вибратора. Тогда бы можно было, просто на просто, положить телефон в карман и слушать книги ногой, не занимая не только глаза, но и уши. Это было бы весьма востребовано для школьников и студентов на экзаменах и не только. Никто бы не догадался, что вы воспринимаете книгу телом, ощущая вибрации определенной частоты, в которых закодированы слова. В эру информационных технологий грех не использовать каждую возможность, для получения информации, которая возрастает, по меньшей мере, в геометрической прогрессии.

К сожалению, по запросу «вибратор» и «программы», озабоченный Googl, выдает совершенно не то, что я ищу. Хотя, мне удалось нарыть по другим запросам интересную перчатку, а точнее статью: «Перчатка для слепых и глухонемых пользователей мобильных телефонов», работающие по принципу азбуки Лорма. Но использовать такую перчатку на экзамене довольно подозрительно, поэтому я делаю упор на др. части тела.

Пока только Звуки и вибрация при нажатии на экран. Или вот другая технология: «Смартфон без динамика», правда, телефон все токи подносят к уху, а я предлагаю разработать софт, который бы позволял его даже не вытягивать с кармана.

Странно, что полезных программ для вибратора телефона очень мало. Его можно было бы использовать в связке с акселерометром, чтобы не только получать, но и определенными движениями передавать информацию, в частности какие-то заданные команды телефону.

Автоматизация.

Выше я очень красочно описал, что и как можно сделать, но практический не останавливался на том, кто это будет делать. Как у нас часто привыкли, монотонный рутинный труд из-под палки одни люди, заставят делать других людей. Но я против таких решений. Думаю, уже сейчас понятно, что надо делать упор на автоматизации и роботизации. Т.е. надеюсь, что в будущем большую часть функций адаптации к просмотру, прослушиванию, разные варианты и представления информации будут возложены на программы. Именно они должны будут все это делать. Но и люди не будут седеть, сложа руки. Некоторые креативные решения будут все токи генерировать все еще люди. К тому же многие футурологи часто забывают о том, что сами программы автоматизации надо еще создать. Да, уже появляются и есть, много примитивных наработок, но они, пока что не значительны. Поэтому, по крайней мере, первые вразумительные программы для автоматического анализа и редактирования текстов придётся создать людям. И это не простая задача.