Анализ макета страницы можно проводить автоматически или вручную. Автоматическое сегментирование FineReader осуществляет, если сразу после сканирования запустить процесс распознавания. Для этого вам нужно нажать кнопку Распознать на панели инструментов. Вручную выделять блоки есть смысл, если вы хотите распознать не весь отсканированный документ, а лишь его часть либо если в результате автоматического сегментирования блоки были выделены неверно.
Для анализа макета страницы необходимо выполнить команду Процесс → Распознать → Анализ макета страницы. Программа произведет автоматическое разбиение страницы на блоки (рис. 9.3). Для выделения или редактирования блока следует воспользоваться командой Изображение → Изменить тип блока и в появившемся меню выбрать нужный тип. Например, если у вас в тексте встречаются иллюстрации, пометьте их с помощью типа блока Картинка – выбрав пункт меню, следует выделить в окне Изображение нужный фрагмент. Точно так же помечаются текст и таблица.
Рис. 9.3. Анализ макета страницы
При обработке изображения, полученного в результате сканирования, FineReader выделяет блоки нескольких типов. Блок Зона распознавания используется для распознавания и автоматического анализа. В результате обработки он будет разделен на блоки других типов. Для корректного распознавания таблицы существует специальный блок Таблица , для распознавания текста – Текст, для изображений используются блоки Картинка и Штрих-код.
Следующим этапом обработки изображения является установка параметров распознавания – вы должны задать язык распознавания, тип печати, ориентацию текста. Язык распознавания устанавливается на панели Стандартная, причем FineReader умеет распознавать не только одноязычный, но и многоязычный текст, например содержащий элементы на русском и английском. Этот параметр очень важен, и если в вашем тексте встречаются английские термины, обязательно выберите пункт Русский и английский, иначе большинство английских слов будут распознаны неверно.
Тип печати обычно определяется автоматически. Однако в некоторых случаях, особенно для текстов, напечатанных в черновом варианте или на матричном принтере, тип печати необходимо устанавливать вручную. Для этого выполните команду Сервис → Опции, перейдите на вкладку Распознавание (рис. 9.4) и выберите нужное значение с помощью переключателя Тип печати. По умолчанию здесь установлено значение Авто, но вы можете выбрать другой – например, Пишущая машинка или Матричный принтер.
Рис. 9.4. Настройка распознавания текстаПосле установки параметров можно начинать распознавание, результат которого будет отображаться в окне Текст (встроенном редакторе).
Примечание
Иногда FineReader неверно распознает блоки с вертикальным текстом. Для изменения ориентации текста щелкните правой кнопкой мыши на блоке с вертикальным текстом, выберите пункт Свойства и в открывшемся окне укажите нужный вариант в списке Направление текста. После этого еще раз распознайте этот блок.
Для проверки текста нажмите кнопку Проверить. На экране отобразится окно Проверка (рис. 9.5). В верхней его части система будет по очереди выделять найденные ошибки. Вы можете исправлять их непосредственно в этом окне. После правки необходимо нажать кнопку Подтвердить. В некоторых случаях программа FineReader будет предлагать варианты замены слова с ошибкой. Используя предложенные варианты либо задав изменения вручную, можно исправить неверно распознанные слова.
Рис. 9.5. После распознавания текст необходимо проверить
Во время проверки текста вы можете добавлять исправленные слова в словарь. Это позволит повысить качество распознавания, так как при распознавании система сверяется со словарем, в котором может не быть некоторых слов, особенно терминов или сокращений.
После завершения проверки закройте окно. Все исправления будут сохранены в распознанном тексте документа.
Получив готовый текст, вы можете его отформатировать – для этого предназначена панель инструментов Форматирование. На ней размещены инструменты для изменения шрифта и способа выравнивания текста.
После распознавания и исправления результаты работы можно сохранить в отдельном файле, скопировать в буфер обмена либо передать во внешнее приложение.
Один из способов сохранения результатов работы в FineReader – использование мастера сохранения результатов. Для его запуска нажмите кнопку Сохранить.
В окне мастера предлагается выбрать приложение для передачи текста либо одну из возможностей: Сохранить страницы, Отправить страницы по электронной почте, Копировать в буфер обмена (рис. 9.6). В этом же окне можно задать параметры сохранения оформления распознанного текста и возможность сохранения картинок.
Рис. 9.6. Мастер сохранения результатовВыбрав пункт Microsoft Word, вы таким образом отобразите распознанный текст в окне текстового редактора Word. После этого можно продолжить работу с документом. У программы FineReader появляется все больше поклонников, так как ее возможности позволяют превратить текст или изображения даже самого плохого качества в электронный документ с наименьшими потерями. После изучения основных функций программы вам не составит большого труда преобразовать в электронный вид десятки бумажных страниц.
Примечание
В видеоуроке «Урок 9.1. Сканирование текста», который находится на компакт-диске, прилагаемом к книге, показано, как сканировать и распознавать текст с помощью программы FineReader.
Глава 10 Поиск информации в Интернете
• Поиск в Интернете: общие понятия
• Виртуальные библиотеки
• Форматы электронных книг
• Поиск рефератов
• Поиск в библиотеках
Для многих людей на сегодняшний день Интернет стал обязательным источником информации. Если раньше при написании работы, да и просто при необходимости что-то узнать пользовались справочниками, каталогами и журналами, то сейчас такой процесс часто заменяют поиском в Сети. Полностью отказываться от бумажных источников информации, конечно, не стоит: в них есть много не только полезного и интересного, но и того, что невозможно найти в Интернете. Однако написать реферат, а тем более научную работу, не используя Глобальную сеть, в наше время практически невозможно. В Интернете можно найти самые новые материалы по теме исследования: аналитические статьи, публикации в онлайн-изданиях и многое другое, что пригодится в работе или просто может вас заинтересовать.
Первоначальная проблема, возникающая у всех, кто собирается использовать материалы Сети, – как найти необходимую информацию. Казалось бы, в этом нет ничего сложного – запустил поисковую систему, например Rambler, ввел нужное слово или фразу и получил результат. Однако так может рассуждать только человек, который никогда ничего не искал в Интернете. Количество сайтов в виртуальном пространстве достигает миллиардов, и найти среди них именно то, что вам нужно, не так просто. Свои особенности есть и в построении поисковой фразы, и в использовании дополнительных возможностей поисковых машин, и во многих других, менее очевидных, нюансах. По этой причине изучение основ поиска информации в Интернете в наше время просто обязательно.
Чтобы быстро найти нужную информацию, не прилагая при этом особых усилий, нужно хотя бы в общих чертах иметь представление о том, как работают разные виды информационно-поисковых систем и как корректно составлять запросы для них. Результат поиска можно считать успешным лишь в том случае, когда необходимые документы размещены в начале полученного списка.Примечание
Мера соответствия поискового запроса полученному списку ссылок называется релевантностью. Чем больше полученный список ссылок соответствует поисковому запросу, тем более релевантным считается результат.
Известный идеолог веб-маркетинга Джим Стерн писал: «Самая сложная вещь в Интернете – это то, что вы не можете ничего найти. Ищите – и вы станете растерянным, потерянным и расстроенным. Это как доступ в Библиотеку Конгресса без каталога или информация в Желтых страницах без алфавитного указателя. Если вам нечего делать – это еще можно понять, но если вы ищете что-то особенное – это далеко не радостная процедура».
10.1. Поиск в Интернете: общие понятия
В первую очередь определимся со средствами поиска информации в Интернете. По принципу организации и использования их можно разделить на поисковые каталоги (справочники, директории) и поисковые машины.
Каталоги веб-страниц
Поисковые каталоги напоминают систематические каталоги обычных библиотек. Каталоги – это электронные справочники, в которых собраны списки адресов интернет-страниц, сгруппированные по определенным признакам, чаще всего – по тематике. Обычно они многоуровневые, каждая тема в них разбивается на несколько более узких. Верхний уровень представляет собой общую категорию, например «бизнес», «наука», «искусство», а элементы самого низкого уровня – это ссылки на отдельные страницы и серверы вместе с кратким описанием их содержимого.
Процедура поиска нужного сайта в каталогах состоит в последовательном переходе от одного уровня к другому. Таким образом, последовательно уточняя тематику поиска, можно, продвигаясь по каталогу, дойти до самых нижних ступеней иерархии и получить, наконец, нужный список сайтов. Каталоги чаще всего используются в тех случаях, когда необходимо получить набор сайтов по какой-то определенной проблеме. В каталогах отображены самые популярные ресурсы, относящиеся к одной теме, которые, кроме всего прочего, отсортированы в порядке значимости.
Наиболее популярными каталогами считаются следующие: www.maiL.ru (list.mail.ru), каталог поисковой системы «Яндекс» (yaca.Яндекс.ru), weblist.ru, www.vsego.ru, www.myweb.ru. Среди англоязычных ресурсов наиболее популярным является каталог Yahoo! (www.yahoo.com). Самым авторитетным в мире каталогом веб-страниц признан открытый каталог dmoz.org.