0000» в кодировке ISO 8859-5. Единица, как известно это присутствие сигнала, а «0» его отсутствие. И того получается, что бы компьютер понял одну букву ему достаточно 8 сигналов.
Теперь разберем растровые (точки) картинки.
-- тут уже для того что бы отобразить именно картинку той же буквы «а», понадобиться целый массив точечек. Если изображение черно-белое, то расположенных в определенной очередности черных и белых точек, которые и будут «рисунком» буквы. Причем на каждую нарисованную точку потребуется те же 8 сигналов. Но уже не на всю букву, а только на одну точку. Естественно одной черной точкой нарисовать букву «а» не получится. А какое минимальное количество точек нужно для прорисовки буквы вообразите сами (100 битов вместо 8). Но то, что не одна и не две или три это очевидно. Посему и картинки так много весят. К тому же, в отличие от кода, в котором компьютер как бы знает, что это та или иная буква, в случае с картинкой, ему абсолютно все равно, что нарисовано. Т.е. оперировать буквой как буквой он уже не может, а просто слепо копирует изображение, перенося каждую точку. Если в первом случае все буквы в тексте как бы одинаковы, то во-втором, приходится постоянно рисовать и каждую новую букву, (даже если она идентична предыдущей – «аа»), и рисовать всё вокруг букв. Получается если в обычном тексте (набранном в ворде) встречается, к примеру: 2000 букв – «а», то рисунок самой буквы используется только один (постоянно повторяется и не занимает место). Кстати количество букв в таком тексте можно увидеть в статистике. А вот если аналогичный текст, рисованный (не распознанный) то все 2000 букв «а» будут прорисовываться снова и снова и для каждой с них как бы будет 2000 картинок вместо 1. Они сами по себе занимают на много больше места, и кроме как отобразить их на экране с ходу с ними не чего не сделаешь (ни поиска по тексту, ни статистики, ни прослушки). Для ЭВМ это просто набор черных и белых точек, а не определенный код символов. Он может отобразить на экране любую картинку. Но картинка может быть слепо отраженными точками разного цвета либо конкретным знаком на экране, который отличается и понимается компьютером.
Вот поэтому с картинками текста и работать полноценно невозможно и места занимают они в десятки раз больше. Из-за чего, по возможности, (если книга сохранена как картинка), перевожу её в текст. После чего текст можно и послушать и закладки удобно сделать, и что-то выделить, и т.д. Но не все книги удается корректно перевести в текст. Поскольку даже самые лучшие программы для распознания текста, к сожалению, наверно еще долго будут требовать корректировки. Многие тексты содержат картинки, формулы, которые трудно распознать. Поэтому приходится сохранять текст вместе с изображением. Конечно, можно было просто распознать изображение текста и сохранить его оставив и картинку, но работать с такими двумя документами не удобно. Удобно, когда в одном документе можно и прочесть что-то - сделав закладку или прослушав и в нем же на той же странице посмотреть картинку. Вот, к примеру: результат такого сложного текста с картинкой иллюстрированный мною атлас. В тексте конечно ошибок много, тем не менее, мне удалось сделать закладки и сохранить расположение текста и добавленных мною цветных иллюстраций.
Еще кратенько по форматам и программам.
Формат это, образно говоря, способ сохранения текста или картинки в виде какого-либо файла. Способов сохранить есть масса, посему форматов и программ, которые работают с данными файлами так же много.
Для сохранения, в одном файле, текста и картинки используют в основном два формата djvu и pdf. Они самые распространенные.
Многим полюбился формат djvu. Но я его крайне не рекомендую использовать для сохранения книг. Да, конечно заманчивым преимуществом есть то, что фото (каковым зачастую, является djvu) имеет маленький размер. Многие попавшиеся мне в руки книги, в данном формате, просто испорченное время и бессмысленно потраченный труд. Т.к. в основном, изображения в этом формате навсегда утрачивает свое качество и буквы иногда не видно и иногда их невозможно распознать. Конечно, данный формат бурно развивается и уже допускает возможность добавления и ссылок и распознанного текста. А многие пользователи уже научились делать отличные книги в таком формате. Книги, в которых в хорошем качестве сохранено изображение, так же сохранен распознанный текст и даже могут иметься гиперссылки. Все-таки пока не встречал программы для данного формата, которая могла бы с легкостью добавлять примечания, пометки и многое другое. Как, например, PDF-XChangeViewer или FoxitReader для аналогичного формата - pdf. Поэтому, сохранять книги в формат djvu, все же, не рекомендую т.к. возможности таких файлов на данный момент все еще на очень низком уровне и работать с ним сложнее. Хотя места книги в формате djvu занимают немножко меньше чем pdf.
Помимо djvu и pdf книги, не имеющие больше количества картинок и с хорошо распознанным текстом лучше просто сохранять в формате вордовских документов (как обычный текст в ворде). Это наиболее удобный формат для редактирования и прослушивания текста. При экспорте с файнридера часто удается автоматический установить гиперссылки, из содержания в текст. Т.е. программа сама расставляет ссылки, и нажав на оглавление можно перейти на соответствующий раздел в тексте.
Зачастую распознанные книги мне приходиться сохранять даже в трех различных документах. 1 - pdf – Акробат ридер. 2 - docx – водр 3 - txt – обычный текстовый документ открывается блокнотом. Третий формат занимает пустяковый размер и очень удобен для прослушивания книг на смартфоне. Хотя его недостатком является полное отсутствие картинок и какого-либо форматирования.
П. с.
Помимо этих появляются много других перспективных форматов и программ. Например, .fb2, .mobi, .epub и др. Но мне не приходилось ими пользоваться. Максимум перекодировал с них книги в привычный мне docx или txt. Хотя, по-хорошему, это уже будет считаться не формат книги, а формат документа. Но это уже тонкости и формальности…
Выводы и советы.
Надеюсь, данная информация пойдет на пользу обществу. И книг в плохом пережатом качестве с перекошенными не распознанными страницами, засунутыми вместе с разворотом в djvu будет встречаться все меньше. В интернете есть масса статей, как правильно распознать и сохранить книгу файнридером или ClearScan в формат pdf – (текст под изображением с добавлением гиперссылок в содержании) или в ворд. Поэтому на данных моментах останавливаться пока не буду. Хотя стоит отметить, что даже самая лучшая на сегодняшний день программа распознавания текстов не всегда справляется к примеру, с сложными химическими формулами и громоздкими таблицами. Из-за чего и приходиться сохранять поверх текстов изначально сканированные картинки. Однако, данная программа отлично распознает простые тексты, которые можно сохранить в ворд. Сэкономив в дальнейшем и время, и место на диске. В общем, работать еще есть над чем. Книги, в любом случае, для полноценной работы нужно распознавать, даже если они плохо распознаются, и распознанный текст имеет много ошибок. Так что очень надеюсь на дальнейшие разработки в данном направлении.
ссылки11 опубликовал12
П.с.
Вот еще не плохая статейка по теме: «Зачем нужны программы распознавания текста?»
Некоторые
комментарии к вышеприведённой статье.
Олег Антонов
Аксакал 28 марта 2014 в 18:31
#
Ответить
0
+1
- «Рома Болгарчук, если судить по электронным библиотекам, то стандартом де-факто стал fb2»
Мой ответ:
«Да. Спасибо за дополнение, про него в статье не упоминал, как и к примеру odt (OpenDocumentText) xhtml, html chm и др... Это все довольно перспективные форматы. Но честно говоря тема подобных форматов и опенсорс в целом, выходит далеко за рамки данной статьи. Просто мне надо было, наверно, в статье оговориться, что речь пойдет о форматах более популярных в среде Windows. Хотя, опять же, конечно, все больше появляется программ, работающих с разными форматами вне зависимости от системы. Тем не менее, мне почему-то с ним приходилось сталкиваться реже. Но они так же довольно популярны особенно при работе с художественной и некоторой научно-популярной литературой. Так что конечно мое мнение возможно и субъективно. Может ситуация характерна только для меня и связана с рядом факторов. 1 - использование системы Windows. 2 – получение файлов не через электронные библиотеки, а через соц. сети, торренты, файлообменники. 3- специфика самой литературы (научная и малоизвестная). Может из-за данных факторов так сложилось что около 90 % книг, которые мне встречались (а проработал я не мало) были именно в формате djvu, pdf или в лучшем случае doc, а иногда, к сожалению, и тхт. Тем не менее, изредка встречался и fb2. Но из-за того, что он редко встречается. Практический не знаю, как с ним работать. Хотя мне хватает просто перегнать его в тхт. И все же и данный формат достоин внимания т.к. он довольно шустро развивается на разных платформах и совершенно различных устройствах. Но я бы не стал переоценивать данный формат. По крайней мере, пока. Т.к. опенсорс мне кажется все еще сыроват, и пусть меня закидают тухлыми яйцами линуксоиды, но все же… Хотя это опять же отдельная тема.»
Другой комментарий
:
«Если изображение черно-белое – то расположенных в определенной очередности черных и белых точек, которые и будут «рисунком» буквы. Причем на каждую нарисованную точку потребуются те же 8 сигналов."? Это, мягко говоря, совершенно неверно.»
Ответ:
«Спасибо за поправку. В принципе да. По большому счету можно закодировать одну точку как сигнал. Т.е. к примеру, есть сигнал – белый, нет – черный. Вот этот черный и будет точка. Меня сбило с толку то, что на мониторе я могу поставить минимальную цветопередачу 16 цветов - 8 бит. Поэтому одна точка будет кодироваться 8 битами, а не одним. Тем не менее, если анализировать именно хранение информации, то совершенно верно. Можно и 1 битом закодировать одну черно-белую точку. Но все равно, с помощью 8 точек нарисовать полноценную букву и главное пространство вокруг неё довольно проблематично. Поэтому ошибка в данном случае мне кажется, не существенна.