Рис. 29 Поиск книг Вконтакте.
Возможно, что-то подобное есть и в других популярных соц. сетях: мордокниги, пенсекласниках. Но эти ресурсы мне очень не нравятся. Когда-то я на мордобуке пытался что-то найти с книг. Во-первых, интерфейс запутан и усложнен до невозможности, а во-вторых выдало платные книги. Про пенсекласников я вообще молчу. На данный момент уже вроде появился, но в свое время у них не было даже личного видеохостинга. Сейчас, в связи с хроническим вступлением в ЕС, в школах активно пропагандируют раскрутку фейскниги, навязывая и ругая, если туда не выкладывают новости. Увы, самим создать аналог русского контактика у нас слабо, а вражеским пользоваться боятся, т.к. вдруг путлиновские шпйоны выведают у детей пароли от складов с боеприпасами. В общем, и смех и грех… В то же время хочется отметить, что в контактике действительно мне встречались группы, которые вербуют добровольцев на войну. Поэтому лучшей альтернативой было бы создать достойную социалку. А еще лучше не изобретать очередной велосипед, а изобрести хотя бы дрон. Именно украинскую. Что контакт, что фейсбук лоббируют и мягко навязывают свои правила, и мы впадаем в зависимость от чужих стран. Увы, у нас про это никто не думает. В стране рабов не до этого.
Возвращаясь к соц. сетям стоит вспомнить, что есть еще и https://plus.google.com/ , www.linkedin.com , https://www.pinterest.com, https://www.tumblr.com/ , https://www.flickr.com/ https://ask.fm/ и другие. Любопытно (в плане поиска книг) опробовать, освоить и их, но пока нет времени. А вообще уже давно пора создать нормальный агрегатор социальных сетей. Думаю, он был бы весьма актуальным. Увы, пока этим не кто, насколько я знаю, именно серьезно не занялся.
Поисковые системы.
Возможно, надо было начать данный большой раздел именно с них, т.к. как правило первым делом люди обращаются именно к поисковым системам, но увы, как показала моя практика, книги проще найти на проверенных сайтах. Поисковые системы, особенно толерантный к авторским правам гугл, часто выдает в своих первых строках или разные лохотроны, или демоверсии книг. Конечно, многое зависит и от того, что именно вы ищете. Если книга бесплатна, то вероятно её удастся найти и через гугл. Или напротив если кто-то решил купить книгу, либо ознакомиться с демо версией, а может попутно скачать себе на ПК парочку троянов, вирусов майнинговых программ и другой гадости. Тем не менее, косвенно поисковики помогают в поиске книг. Сегодня 21.10.2017 меня приятно порадовал старый добрый и забытый рамблер, который дал ссылку на один из торрентов приведенных выше. Скачать торрент Эрик Тополь. Будущее медицины: ваше..., в то время как знаменитый и хваленый гугл дал только рекламу демо версий данной книги. Возможно, когда автор книги «смягчиться», и книга уже не будет такой новой и в гугле она появиться с ссылкой на торрент, но репутация поисковика уже подпорчена.
А вообще интернет очень гибкая социальная система, поэтому сегодняшние фавориты могут стать завтрашними лузерами, и наоборот. Много нюансов. Пробуйте, экспериментируйте, будьте гибким, настойчивым, неординарным и вам воздастся.
Оцифровать.
Если книги нет в интернете, или нет доступа к интернету, то можно взять у друзей, найти интересующую книгу в дома, взять в библиотеке, другие варианты.
Некоторые малограмотные читатели могут даже после всего вышенаписанного задать вопрос – зачем отцифровывать книги, если их можно прочесть и так. На него я не однократно отвечал выше, так что повторяться не буду. Лишь отмечу, что сканирование книг -- это довольно монотонный труд, и мне часто, сканируя одну книгу, приходилось слушать другую. Но сканирование, вместе с распознанием, всегда занимает меньше времени, чем прослушивание. В среднем на работу с одной книгой у меня уходило 1-3 часа.
Но одно дело ошибки, а другое, когда просто-напросто половина слов в книге вовсе не понятны. Мне, буквально недавно, попалась книга, а точнее учебник по частной паталогической анатомии. Какой-то «умелиц» даже не додумался отсканировать её файнридером с разворотом страниц. Хотел сделать подарок братьям медикам и распознать её для удобства пользования. Файнридер с лёгкостью может разделить страницы, обрезать лишнее (что было отсканировано за полями страниц) и преобразовать картинки в текст. Но он все это может, в том случае, если на картинки видны буквы. Если же на картинки буквы практический не видны, то естественно, уже не только программа, но и люди могут оказаться бессильны. Особенно неприятно, когда оказывается в середине книги что распознать её полноценно невозможно. По сути это убитое время как того, кто отцифровывал, так и того, кто пытался распознать. Да и думаю скачавшие не получат удовольствия от небрежно перевернутых на бок страниц, в которых половина текста просто нет. Т.е. это не книга, а какая-то убогая демоверсия фотографий вымазанных краской листов бумаги.
Для наглядности приведу принскрины этого «шедевра».
Вот как выглядят страницы этой скачанной книги:
Рис. 30 пример страницы неправильно отсканированной и сохраненной книги.
Мало того, что для её прочтения, надо переворачивать или экран, или голову на бок, так еще и приходится догадываться, какие первые слова написаны, практический в каждой строчке, данного труда. Это видно на 145 верхней странице. Но в начале книги страницы еще сносные, поэтому я только при распознании понял, что не чего не выйдет. Впредь буду умнее. И другим советую, перед тем, как распознавать книгу, скачанную с интернета, бегло пролистать страницы и убедиться все ли они есть, какого качества страницы в середине книги, видны ли там буквы. Иначе файнридер не осилить эти уродства и выдаст вместо слов бессмысленный набор букв.
Рис. 31 Пример плохо отсканированного текста который нельзя нормально распознать.
С другой стороны, не хочется отпугивать людей, которые начинают сканировать книги. На самом деле это совершенно не сложно. Можете попробовать для начала отсканировать не всю книгу, а пару десятков страниц вначале, в середине и в конце. Если их удастся нормально распознать, то сканируйте всю. Повторюсь, для файнридера не проблема перевернуть страницы, разделить их на развороте, обрезать, автоматический исправить перекос страниц и многое другое. Единственная проблема в том, что некоторые сканирующие, неплотно прижимают книгу к сканеру. Из-за чего буквы, возле разворота, в центре книги, практический не видны. Собственно, это и показано на фото выше.
Если бы её сканировали, используя сразу программу файнридер, то можно было бы просто поставить все галочки. Единственное что осталось бы это перелистывать страницы, когда они отсканируются.
Рис. 32 Настройки в программе файнридер.
Программы в общем.
После того, как у вас появилась цифровая версия книги, перейдем к следующему пункту раздела «Алгоритм действий.», а именно переводу книги в нужный формат.
Наверно, повторюсь, трудно писать о том, что происходит в данном направлении сейчас, т.к. информационные технологии настолько быстро развиваются, что успеть за ними и уследить, практический невозможно. Поэтому то, что сейчас только внедрили, уже завтра может быть безнадежно устаревшим. Тем не менее, некоторые технологии вчерашнего дня, по ряду причин, до сих пор все еще актуальны. Например, все не как не соберу денег на новый смартфон, да и старый меня вполне устраивает, поэтому я, как и 5 лет назад, продолжаю слушать книги на своем стареньком N-82. Хотя, уже давно пора перейти на железо под управлением андроида, или чего-то подобного. Но по ряду причин все еще не перехожу. Дорого, да и подходящих мне смартфонов, по-видимому, пока не придумали.
Конвертация книг частично рассмотрена в подразделе: «Сохранить книгу в нужном формате», ниже. К тому же тема довольно большая, т.к. форматов много. Если говорить за фанридер. То, в нем есть кнопка «Файл», «Сохранить документ как…» и выбираем нужный формат.
Рис. 33 Настройки в программе файнридер.
Рекомендую сохранять в двух форматах .docx и .pdf (текст под изображением). Не буду долго расписывать почему, зачем, как... Нюансы распознавания. Хотя наверно стоило бы. Но это долго. Если кому надо, Googlите, есть на YouTube не плохие видео «Как распознавать книги файнридером». Или, надеюсь, в будущем появится бесплатная аналогичная программа.
Если имеется уже распознанный текст, возможно, потребуется его переконвертировать в нужный формат. В зависимости от формата, можно воспользоваться стандартными средствами. Т.е. программами, работающими именно с этим форматом, либо задействовать какие-то специализированные «всеядные»: конвертеры форматов. Например, многие не ухищрённые пользователи думают, что все, что сохранено в .pdf является картинкой. Но на самом деле в данном формате может быть, как картинки, так и текст. Зачастую этот текст оттуда быстрее «вытянуть», чем распознавать фанридером. Делается это акробатом, но, к сожалению, только платной версией: Acrobat Pro. Среди именно конвертеров с pdf файлами работают AVS Document Converter, или разные PDF2Word. Аналогично можно преобразовывать с помощью специальных конверторов файлы формата .chm, .fb2, .epub и другие.
П. с.
Кому интересно узнать больше о самих принципах распознания текстов, в качестве дополнения, могу порекомендовать навскидку пару интересных статей: «Распознать нельзя оставить картинкой, или кое-что о сложных случаях оптического распознавания текста». В ней доступным языком повествуется о простых для человека, но в то же время чрезвычайно сложных проблемах для программы распознания текстов. И подробная статейка о разницы векторных и растровых шрифтов «Векторный и растровый текст». Хотя вторая статья не относится непосредственно к теме распознания, но все же, возможно станет подкреплением и дополнением к подразделу «