Рис. 19 Деревья в бумагу.
7 - анализа и лингвистической обработки текстов.
Наткнулся на целую группу возможностей уже после дописанные данного раздела, поэтому пришлось его немного подредактировать. Хотя, данные возможности вряд ли пригодятся обычным пользователям, тем не менее они открывают на столько широкие перспективы в работе с текстами что про них просто нельзя тут не упомянуть. К сожалению, только упомянуть, т.к. если начать расписывать подробно, то книга станет наверно еще в два раза больше. Кратко с ними можно ознакомиться пройдя по ссылке и прочтя статью с одноименным названием «Программы анализа и лингвистической обработки текстов» в которой перечислены некоторые программы и возможности.
8 – можно слушать
Самое главное – цифровые книги, как уже стало ясно, можно не читать, а слушать. Тут уже преимуществ выше крыши - идешь себе по улице и слушаешь, как тебе программа читает любую книгу. При необходимости можно поставить на паузу, ускорить или замедлить чтение, добавить закладку и ознакомится с конкретным участком текста более детально: либо прочтя его самостоятельно с экрана телефона, либо позже уже на компьютере. Про это все я напишу ниже детальнее.
Вот в принципе самые значительные и основные преимущества. Но с развитием технологий их становится все больше.
Проблемы и перспективы.
Конечно, для использования в полной мере всех возможностей электронных книг, необходимы дополнительные навыки и умения, помимо обычного умения читать и перелистывать странички. Данным полезным навыкам, насколько я знаю, не учат ни в школах, ни в вузах. Там у нас в основном лишь фикции образования. Возможно, это и отталкивает многих. Из-за нежелания учится чему-то дополнительно, и не видя всех перспектив, люди и выдумывают разные отговорки, в которые позже начинают верить сами. Не буду, вдаваться в работу подсознания, и механизмы самообмана, который сейчас процветает; пока остановлюсь на том, что освоив умения работы с электронными книгами, читатели перейдут на принципиально новый уровень получения знаний и обработки информации.
Напоследок хотелось бы отметить, что не любая библиотека могла бы похвастаться таким количеством книг, которые хранятся у некоторых на жестком диске компьютера. А главное, книги, естественно, не занимают столько места как бумажные, и их можно давать, не опасаясь потерять. Интересно то, что я пару раз предлагал скопировать книги в библиотеки, но по ряду причин так и не смог этого сделать. Да и библиотекари часто к этому относились скептично и с опаской, они привыкли выдавать бумажные книги, а не цифровые. Возможно, из-за защиты авторских прав, теперь многие студенты до сих пор по старинке пользуются бумажными вариантами, которых в библиотеке как всегда катастрофический не хватает. Вся эта «бумажная волокита» и отсутствие материала не способствует развитию образования и продолжает ажиотаж с бумагой. Меня же бумажные книги совершенно не интересуют. Если в руки попадает нужная книга, могу её оцифровать в течении 3-4 часов, после чего отдать обратно. Пару книг мне пришлось даже цифровать с помощью фотоаппарата. Увы, многие с них не так просто найти, поэтому я ими стараюсь делиться со всеми желающими в интернете. Но опять же не хочется проблем с некоторыми агрессивно настроенными авторами; которые в принципе могли бы распространять сами именно электронные варианты книг. Такие книги становились бы более популярными. Авторы, используя все возможности современных технологий, могли бы заработать даже больше (например – на контекстной рекламе), чем, если бы они отдали книгу в типографию. На учебниках для вузов хотелось бы остановиться отдельно. В вузах ситуация еще более плачевная. Студентам часто пытаются, мягко говоря, навязать покупку именно бумажных книг. Эти «бумажки» зачастую являются, извиняюсь за выражение, халтурой. Тем самым на бедных студентах кормятся и типографии, и преподаватели, и не чистые на руку авторы книг. В то время как именно электронный вариант книг мог бы стать одной из спасительных соломинок, не только для тонущей в коррупции и невежестве системы образования, но и науки. А книги необходимые студентам для обучения можно было бы выложить официально в свободном доступе, сэкономив на типографии и отдав эти деньги авторам книг. Но это уже другая тема, которая будет затронута в разделе «Палки в колеса».
Зачем и как распознавать книги?
Анекдот: Программист звонит в библиотеку. — Здравствуйте, Катю можно? — Она в архиве. — Разархивируйте ее пожалуйста. Она мне срочно нужна!
© http://anekdoty.ru/pro-biblioteki/
Остановлюсь на данном вопросе подробнее, т.к. постоянно с ним сталкиваюсь. Проработавши не одну сотню книг, мне есть что написать, по данному поводу. Тем более что, к сожалению, как я понял, многие до сих пор еще не знают - зачем книги распознавать (оцифровывать). Хотя, надеюсь вопросов - «зачем их сканировать?» - уже нет. Т.к. преимущество электронных книг над бумажными описывал в других статьях (главах). Данная тематика очень обширна и выходит далеко за рамки пары статей, поэтому попробую её ограничить. Пока не буду затрагивать проблематику авторских прав, очередной раз высмеивать староверов (любителей понюхать) типографские краски, а также оставлю в стороне много других нюансов касающихся книг. Уделю внимание именно на разнице распознанного и не распознанного текста, лишь упомянув программы для такого «метаморфоза».
Традиционно считается лучшим способом распознавания текста с помощью программы -- ABBYY FineReader. Хотя, такая возможность имеется и в Acrobat Pro. Увы, обе программы платные, а бесплатные аналоги типа CuneiForm, Scankromsator и др. пока оставляют желать лучшего. Но хотелось бы верить, что уже есть или появится достойный бесплатный аналог FineReader.
Чем же все токи является распознанный и не распознанный текст? Извиняюсь, что приходиться останавливаться на данных очевидностях, однако, именно о них пойдет речь. Мне часто приходилось сталкиваться с людьми, которые далеки от понимания разницы. То ли в компьютере они используют только кнопку «ВКЛ\ВЫКЛ», то ли книги читают исключительно глазами, не чего с ними больше не делая. А что с ними еще можно делать? – возникнет резонный вопрос. Вот его и разберу ниже.
Одна из загвоздок в том, что распознанный и не распознанный текст, порой глядя на экран внешне практический не чем не отличается. И в том, и в том видны буквы, и тот и другой иногда даже можно разными способами скопировать. Да и некоторые форматы (файлы) могут содержать одновременно как текст, так и картинку текста. Но все же разница между ними существенна. Не распознанный текст — это просто картинка. Буквы, так сказать, в ней зафиксированы как на обычной фотографии. Что-либо дописать, а тем более изменить, в таком тексте (без доп. обработки) крайне сложно. Единственным его преимуществом есть то, что он безошибочно отражает все, что было сфотографировано или сканировано. Если это хорошее качество, то видны все галочки, точечки, отступы, рисунки, формулы и многое другое. Поэтому сканированный текст так важен, если в сканированной книге много разных сложных элементов. В принципе на этом преимущества сканированных картинок перед тем же, но распознанным текстом заканчиваются. Дальше идут одни недостатки. Это и больший размер документа (чем распознанный) и не удобство работы с ним и многое другое. Но опишу те же недостатки, в виде преимуществ распознанного текста перед не распознанным.
5 преимущества распознанного (так называемого
OCR
текста):
От части те же преимущества были указаны и в подразделе «8 преимуществ которые дают цифровые книги.» поэтому просто напомню.
1 – малый размер,
2 – более простая возможность редактирования,
3 – удобное иногда автоматическое добавления закладок,
4 – поиск по тексту (который не возможен, если текст является картинкой),
5 – одно из самых главных преимуществ, которым многие пока не пользуются, является возможность прослушать текст с помощью синтезаторов речи. Я так переслушал массу книг. Конечно, на этом преимущества распознанных текстов не кончаются, но это для меня 5 основных.
Таким образом, чтобы проработать книгу мне не раз приходилось её либо сканировать или фотографировать, либо уже сканированные скачанные с интернета книги переводить в понятные компьютеру буквы, а не фотографии букв, видных лишь на экране. Хотя благо в интернете все больше появляется хорошо проработанных книг, в которых есть сам текст, а не только его фотография или изначально цифровых. Тем не менее, как уже писал, достаточно много людей не умеют, или не хотят пользоваться данными возможностями, не смотря на все их преимущества. Но это уже другая социальная проблема, которую уже рассматривал ранее, но постараюсь на ней еще остановиться. Так же в другой статье более подробно рассмотрю разницу между распознанным и не распознанным текстом, но уже так сказать глазами ЭВМ.
Код буквы и картинки – книга глазами ЭВМ.
В прошлой статье мною затронута тема удобства использования электронных книг. В этой для большего понимания возникновения таких преимуществ постараюсь, очень приблизительно, описать саму суть различий рисованного текста и распознанного. Как я это понимаю, но так сказать глазами ЭВМ.
Распознанный или набранный на компьютере текст, представляет совой векторные символы.
Грубо говоря, это линии как на графике, описанном какой-либо формулой. Но именно в данном случае наверно целесообразнее назвать его кодом, т.к. сами картинки линий в виде крохотных рисунков записаны отдельно и их роль не существенна, т.к. при каждой новой букве, исходя из её кода, отображается один и тот же рисунок. Т.е. для того что бы отобразить все буквы «а» в тексте компьютер использует один маленький рисунок самой буквы «а». Один для всех букв (если её формат одинаков).
А сама буква записана в виде очень короткого кода в виде нуля и единиц. К примеру: буква «а» в таком коде будет представлять собой вот такую последовательность сигналов «1101