Рис. 8.4. Анализ макета страницы означает выделение на ней блоков разного типа
При обработке изображения, полученного в результате сканирования, FineReader выделяет блоки нескольких типов. Блок Зона распознавания используется для распознавания и автоматического анализа. В результате обработки он будет разделен на блоки других типов. Для корректного распознавания таблицы существует специальный блок Таблица, для распознавания текста – Текст, для изображений используются Картинка и Штрих-код.
Следующим этапом обработки изображения является установка параметров сканирования – вы должны задать язык распознавания, тип печати, ориентацию текста. Язык распознавания устанавливается на панели Стандартная, причем FineReader умеет распознавать не только одноязычный, но и многоязычный текст, например содержащий элементы на русском и английском. Этот параметр очень важен, и если в вашем тексте встречаются английские термины, обязательно выберите пункт Русский и английский, иначе большинство английских слов будут распознаны неверно.
Тип печати обычно определяется автоматически. Однако в некоторых случаях, особенно для текстов, напечатанных в черновом варианте или на матричном принтере, тип печати необходимо устанавливать вручную. Для этого выполните команду Сервис → Опции, перейдите на вкладку Общие и нажмите кнопку Дополнительные опции. В появившемся окне (рис. 8.5) выберите нужное значение с помощью переключателя Тип печати. По умолчанию здесь установлен переключатель Авто, но вы можете выбрать другой – например, Пишущая машинка или Матричный принтер.
Рис. 8.5. Настройка параметров распознавания текста
После установки параметров можно начинать распознавание.
Результат распознавания будет отображаться в окне Текст, встроенном редакторе программы FineReader.
Примечание
Иногда программа по умолчанию неверно распознает блоки с вертикальным текстом. Для изменения ориентации текста щелкните правой кнопкой мыши на блоке с вертикальным текстом, выберите пункт Свойства и в открывшемся окне укажите нужный вариант в списке Направление текста. После этого еще раз распознайте этот блок.
Для проверки текста нажмите кнопку Проверить. На экране отобразится окно Проверка (рис. 8.6). В верхней его части система будет по очереди выделять найденные ошибки. Вы можете исправлять их непосредственно в этом окне. После исправления не забудьте нажать кнопку Подтвердить. В некоторых случаях программа FineReader будет предлагать варианты замены слова с ошибкой. Используя предложенные варианты исправления текста либо задав изменения вручную, можно исправить неверно распознанные слова.
Рис. 8.6. После распознавания текст необходимо проверить
Во время проверки текста вы можете добавлять исправленные слова в словарь. Это позволит повысить качество распознавания, так как при распознавании система сверяется со словарем, в котором может не быть некоторых слов, особенно терминов или сокращений.
После завершения проверки закройте окно. Все исправления будут сохранены в распознанном тексте документа.
Получив готовый текст, вы можете его отформатировать – для этого предназначена панель инструментов Форматирование. На ней размещены инструменты для изменения шрифта и способа выравнивания текста.
После распознавания и исправления результаты работы можно сохранить в отдельном файле, скопировать в буфер обмена либо передать во внешнее приложение.
Один из способов сохранения результатов работы в FineReader – использование мастера сохранения результатов. Для его запуска нажмите кнопку Сохранить.
В окне мастера предлагается выбрать приложение для передачи текста либо одну из возможностей: Сохранить страницы, Отправить страницы по электронной почте, Копировать в буфер обмена (рис. 8.7). В этом же окне можно задать параметры сохранения оформления распознанного текста и возможность сохранения картинок.
Рис. 8.7. Мастер сохранения результатов
Выбрав пункт Microsoft Word, вы таким образом отобразите распознанный текст в окне текстового редактора Word.
После этого можно продолжить работу с документом.
Программа FineReader завоевывает все больше поклонников, так как ее возможности позволяют превратить текст или изображения даже самого плохого качества в электронный документ с наименьшими потерями. После освоения основных функций программы вам не составит большого труда преобразовать в электронный вид десятки бумажных страниц.
Глава 9Поиск информации в Интернете
Для очень многих людей Интернет стал на сегодняшний день обязательным источником информации. Если раньше при написании работы, да и просто при необходимости что-то узнать, пользовались справочниками, каталогами, книгами и журналами, то сейчас такой процесс часто заменяют поиском в Сети. Полностью отказываться от бумажных источников информации, конечно, не стоит: в них есть очень много не только полезного и интересного, но и такого, что невозможно найти в Интернете. Однако написать реферат, а тем более научную работу, не используя Глобальную сеть, в наше время практически нереально. В Интернете можно найти самые новые материалы по теме исследования, аналитические статьи, публикации в онлайн-изданиях и многое другое, что пригодится в работе или просто может вас заинтересовать.
Первоначальная проблема, возникающая у всех, кто собирается использовать материалы Сети: как найти необходимую информацию. Казалось бы, в этом нет ничего сложного – запустил поисковую систему, например Rambler, ввел нужное слово или фразу и получил результат. Однако так может рассуждать только человек, который никогда ничего не искал в Интернете. Количество сайтов в виртуальном пространстве достигает миллиардов, и найти среди них именно то, что вам нужно, не так просто. Свои особенности есть и в построении поисковой фразы, и в использовании дополнительных возможностей поисковых машин, и во многих других, менее очевидных, нюансах. Поэтому изучение основ поиска информации в Интернете на сегодняшний день просто обязательно для современного человека.
Чтобы быстро найти нужную информацию, не прилагая при этом особых усилий, нужно хотя бы в общих чертах иметь представление о том, как работают разные виды информационно-поисковых систем и как корректно составлять запросы для них. Результат поиска можно считать успешным лишь в том случае, если нужные документы размещены в начале полученного списка.
Примечание
Мера соответствия поискового запроса полученному списку ссылок называется релевантностью. Чем больше полученный список ссылок соответствует поисковому запросу, тем более релевантным считается результат.
Известный идеолог веб-маркетинга Джим Стерн писал: «Самая сложная вещь в Интернете – это то, что вы не можете ничего найти. Ищите – и вы станете растерянным, потерянным и расстроенным. Это как доступ в Библиотеку Конгресса без каталога или информация в Желтых страницах без алфавитного указателя. Если вам нечего делать – то это еще можно понять, но если вы ищете что-то особенное – это далеко не радостная процедура».
9.1. Поиск в Интернете: общие понятия
В первую очередь определимся со средствами поиска информации в Интернете. По принципу организации и использования их можно разделить на поисковые каталоги (справочники, директории) и поисковые машины.
Каталоги веб-страниц
Поисковые каталоги напоминают систематические каталоги обычных библиотек. Каталоги – это электронные справочники, в которых собраны списки адресов интернет-страниц, сгруппированные по определенным признакам, чаще всего – по тематике. Обычно каталоги веб-страниц бывают многоуровневыми, каждая тема в них разбивается на несколько тем более частного характера. Верхний уровень представляет собой общую категорию, например «бизнес», «наука», «искусство», а элементы самого низкого уровня – это ссылки на отдельные страницы и серверы вместе с кратким описанием их содержимого.
Процедура поиска нужного сайта в каталогах состоит в последовательном переходе от одного уровня к другому. Таким образом, последовательно уточняя тематику поиска, можно, продвигаясь по каталогу, дойти до самых нижних ступеней иерархии и получить, наконец, нужный список сайтов. Каталоги чаще всего используются в тех случаях, когда необходимо получить набор сайтов по какой-то определенной проблеме. В каталогах отображены самые популярные ресурсы, относящиеся к одной теме, которые, кроме всего прочего, отсортированы в порядке значимости.
Наиболее популярными и серьезными каталогами считаются следующие: www.mail.ru (list.mail.ru), каталог поисковой системы «Яндекс» (yaca.Яндекс. ru), weblist.ru, www.vsego.ru, www.myweb.ru. Среди англоязычных ресурсов наиболее популярным является каталог Yahoo! (www.yahoo.com). Самым авторитетным в мире каталогом веб-страниц признан открытый каталог dmoz.org.
Главное преимущество поисковых каталогов заключается в том, что информация в них хранится упорядоченно, в соответствии с элементарной логикой.
Примечание
С помощью каталога нецелесообразно проводить поиск информации по узконаправленной тематике: в нем может просто не оказаться нужной рубрики, а на просмотр похожих разделов может уйти много времени.
Однако у поисковых каталогов существует множество недостатков. Например, в них могут отсутствовать некоторые ссылки: из-за того, что редакторы создают каталоги вручную, количество ссылок в них ограничено, более того, самые интересные из них могут не попадать в каталог, так как редакторы физически не успевают их вносить. Как результат – обновление происходит медленно.
Неоднозначность структуры – это еще один явный минус каталожной организации информации (хотя отчасти он нейтрализуется тем, что в каждом крупном каталоге существует своя система поиска).
Поисковые машины
Если вам необходимо получить подборку материалов по более конкретной и специальной информации, лучше воспользоваться поисковыми машинами. Поисковая машина – это комплекс специальных программ для поиска в Сети. Они лишены недостатков, присущих каталогам, и работают немного по-другому. Поиск с помощью поисковых машин происходит намного быстрее, кроме того, такие системы могут искать среди гораздо большего количества сайтов – область поиска в этом случае практически неограниченна.
Принцип действия поисковых машин заключается в постоянном последовательном исследовании всех веб-страниц. Из-за необходимости постоянного обновления информации время от времени машины возвращаются к просмотренным ранее сайтам, чтобы найти и зарегистрировать возникшие там изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой сохраяются просмотренные поисковиком веб-страницы. Там и осуществляется поиск. Эту базу данных наполняют специальные программы-роботы, которые, просматривая сайты, обращают внимание на некоторые дополнительные элементы. Например, на частоту употребления слова на странице, на его выделение, а также количество ссылок на данный документ на других сайтах. Поисковые машины проводят поиск по заданному пользователем поисковому запросу – специальной фразе или набору слов, которые выражают суть того, что нужно найти.
Кроме этого, с каждой веб-страницей связан набор ключевых слов. Эти слова лучше всего описывают ее содержимое. При поиске информации поисковые машины в первую очередь анализируют их совпадение со словами из поискового запроса.
Таким образом, поиск с помощью поисковых машин состоит в просмотре базы данных веб-страниц и розыске тех из них, которые соответствуют запросу.
Примечание
Большинство современных поисковых систем совмещают в себе и тематический каталог, и возможности поисковой машины.
Интерфейс всех поисковых систем построен примерно одинаково. Пользователю предлагается ввести запрос в специальное поле, а затем запустить поиск щелчком на кнопке Найти или Поиск. Система произведет поиск и выдаст результаты в окне браузера. Однако несмотря на общие принципы работы и похожий интерфейс, поисковые машины отличаются между собой целым рядом параметров. Среди них – релевантность результатов, величина и частота обновления баз данных, скорость выдачи результатов и удобство работы.
Наряду с этим существуют и другие различия – языки запроса, зоны поиска, глубина поиска внутри документов, методы определения приоритетов, поэтому применение разных поисковых машин дает различные результаты.
Наиболее популярными поисковыми машинами являются следующие: www.yandex.ru, www.rambler.ru, www.google.com, www.aport.ru, www.mail.ru, www.alltheweb.com, www.yahoo.com, www.lycos.com.
За время существования поисковых машин выработался определенный стандарт предоставления пользователю страницы с результатами поиска. Поэтому, разобравшись в форме выдачи результатов хотя бы одной поисковой машины, можно уверенно пользоваться остальными.
Страница с результатами поиска, полученными с помощью поисковой машины, содержит следующие элементы:
• заголовок найденной страницы;
• цитату из текста страницы, по которой видно, в каком контексте используются слова поискового запроса; искомые слова в цитате, как правило, выделены полужирным шрифтом или отличаются по цвету от основного текста;
• полный адрес страницы;
• размер страницы, дату последнего изменения.
В некоторых случаях в списке ссылок доступна возможность просмотра похожих документов. Отдельные поисковики анализируют содержание найденных по запросу страниц и группируют их по своим особым, внутренним критериям. Например, по близости словарей страниц, по одинаковым заголовкам, по совпадениям фраз, по количеству синонимов.
Кроме того, в некоторых случаях в результатах поиска можно увидеть рубрику веб-каталога, к которой относится найденный сайт (если последний участвует в каталоге или рейтинге).
Секреты поиска: построение поискового запроса
Поисковая машина генерирует список документов, релевантных запросу пользователя. Если запрос не выражает то, что нужно найти, – соответственно, результаты поиска будут не те, которых вы ожидали.
Поэтому для эффективного поиска, в первую очередь, необходимо правильно сформулировать поисковый запрос. Его составляют так, чтобы область поиска была максимально конкретизирована и сужена. В запрос следует включать несколько ключевых слов, наиболее полно раскрывающих суть предмета, информацию о котором вы ищете.
Примечание
Основную смысловую нагрузку в поисковом запросе несут имена существительные, гораздо реже нужны прилагательные, а использовать в поисковом запросе глаголы практически бесполезно.
Если в результате вы получите наиболее релевантные ссылки в верхней части списка, то можно считать, что поиск был произведен успешно.
Примечание
Не следует составлять слишком сложный запрос, так как в результате может быть не найдено ни одного документа. Оптимальным результатом поиска является 10–20 ссылок, среди которых можно быстро отыскать две-три нужные.
При поступлении запроса от пользователя поисковая машина просматривает всю проиндексированную информацию и выдает соответствующий список документов. Поисковые механизмы на первом месте располагают документы, которые содержат максимум слов из вашего запроса. Найденные ссылки сортируются в зависимости от месторасположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления. Таким образом, в верхней части списка, полученного с помощью поисковой машины, размещены ссылки на сайты, в которых искомые слова встречаются чаще всего. Поэтому основная задача пользователя во время поиска в Интернете – получить список ссылок, которые максимально соответствуют поисковому запросу.
Чрезвычайно важно при поиске информации в Интернете – как можно больше сузить область поиска. Найти нужные сайты возможно только в том случае, если пользователь сумел подобрать в поисковом запросе именно те слова, которые действительно несут основную смысловую нагрузку.
Например, набрав запрос реферат на тему Финансовый анализ в Excel, вы получите всего несколько ссылок, в которых представлена совсем не та информация, которую вы ищете. Дело в том, что поисковая система будет искать страницы, в которых встречаются все эти слова—и слово «реферат», и «на тему», и «финансовый анализ в Excel». Причем, учитывая особенности построения поисковых запросов, последняя фраза будет искаться в точности так, как она была сформулирована. Запрос финансовый анализ в Excel предоставит вам несколько другие результаты.
Не стоит винить поисковую машину в том, что она не нашла нужную информацию – она всего лишь ответила на ваш запрос. Перефразируя известное выражение, можно сказать: «Каков запрос – таков ответ».
В идеале процесс поиска должен выглядеть примерно так. Сначала лучше сформулировать общий запрос и получить результат, в котором следует выделить описания более-менее подходящих ссылок. Затем необходимо добавить к запросу общие ключевые слова, которые есть в описании нужных веб-страниц, и повторить процесс. Если вы все делаете правильно, то каждый запрос должен приближать вас к нужной информации. Вы должны выступать в виде своеобразной обратной связи, с каждым шагом уменьшая несоответствие между необходимой вам информацией и тем, что выдает поисковая система.
Для иллюстрации вышесказанного рассмотрим еще один небольшой пример – представьте себе, что вам необходимо найти расписание поездов, проходящих через Киев. В качестве общего запроса можно так и «спросить» поисковую систему: расписание всех поездов, проходящих через Киев. Однако по такому запросу, например, Яндекс находит лишь расписания поездов, проходящих через Самару, Тернополь, но Киева среди результатов поиска не видно. Это ни в коем случае не означает, что такой информации в базе поисковой системы нет, просто запрос был сформулирован не совсем удачно.
Вы помните, что любая поисковая система старается найти страницы, на которых находится максимальное количество слов из вашего запроса, более того, если эти слова еще следуют друг за другом, то такие страницы будут выведены первыми. Например, если в тексте страницы встречается фраза «расписание всех поездов, проходящих через Самару», то даже при отсутствии фразы «расписание всех поездов, проходящих через Киев» система определит, что они имеют пять общих слов, то есть с большой вероятностью сайт, содержащий эти слова, вам подойдет. Хотя это и не так. Поэтому необходимо откорректировать запрос, убрав из него все ненужное и оставив только то, что точно характеризует необходимую вам информацию. В рассматриваемом примере «словами-паразитами» являются слова «всех», «проходящих» и «через», которые могут встречаться практически на любой странице. Набрав откорректированный запрос расписание поездов Киев, вы получите в точности то, что искали.
У каждой поисковой машины своя уникальная методика поиска, от эффективности которой зависит результативность поисковика, то есть релевантность полученного списка ссылок, и как результат – успех на рынке поисковых машин. Механизм поиска не только хранится в секрете, но и регулярно меняется.
В настоящее время поисковые механизмы ищут документы не только по строгому соответствию введенному запросу. Все поисковые машины, которые работают с русскоязычным текстом, умеют проводить морфологический поиск. Это означает, что программа будет искать формы слов, включенных в поисковый запрос, а также их синонимы. То есть поиск будет касаться не только определенного падежа или числа, но и всей парадигмы слова.
Сегодня многие поисковые машины используют технологии полнотекстового поиска. Этот способ отличается прежде всего тем, что поиск документов в этом случае не зависит от наличия словаря синонимов и форм использованных в запросе слов и позволяет находить документы в тех случаях, когда смысл слова меняется в зависимости от контекста. Второе важное отличие полнотекстовых систем – они работают со всем текстом документа, а не только с ключевыми словами.
Согласно общей классификации, поиск бывает простым, расширенным и сложным.
Чаще всего большинство пользователей применяют именно простой поиск. Принцип его использования описан выше: необходимо сформулировать запрос и получить список ссылок, соответствующих ему.
Самая важная задача этого этапа – правильно подобрать слова для создания поискового запроса. Они должны быть, во-первых, характерными для документов, которые вы ищете, во-вторых, нехарактерными для нерелевантных документов.
Получив список ссылок, следует провести его обработку. В первую очередь, увидев результат и определив ненужные ссылки, вы сможете уточнить поисковый запрос – либо сформулировать его по-другому, либо использовать его для построения дополнительного запроса.
Расширенный поиск (в зарубежных системах – Advanced Search) позволяет получить меньше ссылок, чем простой, но при этом их релевантность значительно повышается. Большинство поисковых машин работают с этой технологией. Для перехода к расширенному поиску предназначена специальная ссылка на главной странице поисковой машины (рис. 9.1).
Рис. 9.1. Окно расширенного поиска поисковой машины Google
В данном режиме с помощью специальных средств можно задать более точные критерии отбора и сузить область поиска. В этом случае расширенным является только набор критериев поиска, а вот область поиска в большинстве случаев существенно сужается.
Параметры расширенного поиска у разных поисковых машин похожи, но их использование и построение запроса могут несколько различаться. Рассматриваемый способ относится к профессиональным инструментам поиска. Здесь доступно гораздо больше параметров запроса, но правильное их применение позволит получить гораздо лучший результат.
Для запуска предназначена специальная ссылка рядом с полем для поиска. Вам необходимо заполнить поля формы, в результате поисковая машина на основе заданных параметров сформирует сложный запрос и выполнит его. Для успешного использования всех возможностей расширенного поиска необходимо изучить его особенности и доступные возможности.
Рассмотрим некоторые инструменты расширенного поиска. В поисковых системах Google и Rambler доступна настройка типа вхождения поискового запроса на искомые страницы. При этом возможны следующие варианты.
• Любое слово. В результате поиска составляется список всех индексированных страниц, содержащих любое из слов поискового запроса. Нередко в этом случае количество полученных ссылок велико. Такой поиск может быть удобен, когда пользователь не уверен в правильности подбора ключевых слов. Например, если вы точно не знаете, как называется какой-то термин, задайте в поисковом запросе оба названия.
• Все слова. В этом режиме формируется список всех индексированных страниц, содержащих все ключевые слова в произвольном порядке. При этом сохраняется вероятность получения результатов, не соответствующих поисковому запросу.
• Точная фраза. При использовании данного режима составляется список страниц, содержащих фразу, точно совпадающую с ключевой, знаки препинания при этом игнорируются. В список не попадут сайты, посвященные одной теме, описываемой с использованием разных выражений. Обычно поиск точной фразы будет проводиться, если поисковый запрос взять в кавычки. Например, вы хотите найти текст песни, но не помните, как она называется и кто ее написал, но зато точно знаете, что в ней есть слова «на поляне траву зайцы в полночь косили». Введите эту фразу в окно запроса и заключите ее в кавычки – система найдет документы, содержащие фразу.
В окне расширенного поиска системы «Яндекс» с помощью переключателя употреблены в тексте можно выбрать один из двух вариантов: в любой форме или точно так, как в запросе. Выбор второго варианта означает поиск точного совпадения с текстом запроса (рис. 9.2).
Рис. 9.2. Возможности расширенного поиска «Яндекса»
Кроме этого, работая с «Яндекс» и Rambler, вы можете ограничить расстояние между словами поискового запроса – они могут идти подряд, в одном предложении, не очень далеко или на одной странице. Это важно, когда слова запроса составляют логически цельное словосочетание, например «издательство Питер», «расписание поездов» и т. д.
В расширенном поиске с помощью «Яндекса» можно ограничить ссылки регионом (например, Минск, Украина, Москва).
Большинство поисковых машин в параметрах расширенного поиска позволяют ограничить найденные ссылки другими параметрами. Например, вы можете задать поиск страниц только на одном языке, ограничить сайты определенным диапазоном дат обновления (это удобно, если вам нужно, например, найти только самые новые документы). Кроме того, вы можете задать поиск документов определенного типа (например, только HTML, DOC, RTF, PPT или PDF-файлы).
Многие поисковые машины позволяют ограничить поиск фрагментом страницы. Например, вы можете указать, что фраза поискового запроса должна встречаться только в заголовке страницы или же в основной части, в адресе или в любом месте документа.
Еще одно удобное решение, доступное среди параметров расширенного поиска, – поиск фразы запроса на определенном сайте. Такая возможность на сегодняшний день доступна для всех поисковых машин, она позволяет получить список документов с одного сайта. Например, на сайте с базой данных рефератов вы хотите найти реферат по нужной теме. Можно, конечно, вручную пересмотреть разделы каталога, приблизительно соответствующие вашей теме, но лучше задать запрос и провести поиск на этом веб-ресурсе. Поисковая машина предоставит вам список страниц, на которых находится нужная информация, только данного сайта (рис. 9.3).
Рис. 9.3. Поиск Rambler для определенных сайтов
Поисковые системы Google и «Яндекс» позволяют также получить список сайтов, похожих на заданный. В параметрах расширенного поиска Rambler можно исключить из полученного списка ссылки, в которые входит заданное слово.
Сложный поиск предусматривает возможность использования особенностей специального языка поисковых запросов. Хотя для каждой поисковой системы существует свой, уникальный язык запросов, их возможности похожи.
Язык запросов практически каждой поисковой машины содержит операторы двух типов: логические и операторы расстояния.
• Логические операторы определяют включение/исключение из поиска группы слов.
– AND (и) – поиск документов, содержащих все термины, соединенные данным оператором.
– OR (ИЛИ) – текст должен содержать хотя бы один из терминов, соединенных данным оператором.
– NOT (НЕ) – поиск документов, в тексте которых отсутствуют термины, следующие за оператором.
• Операторы расстояния ограничивают порядок следования и расстояния между словами.
– NEAR – второй термин должен находиться от первого на расстоянии, не превышающем определенного количества слов.
– FOLLOWED BY – термины следуют в заданном порядке.
– ADJ – термины, соединенные оператором, являются смежными.
Наряду с этими, наиболее типичными, в язык поисковых запросов могут входить и другие операторы.
В разных поисковых машинах каждому из этих операторов соответствуют свои обозначения. Обычно детальнее узнать о них можно на странице помощи. Ниже я расскажу о некоторых элементах языка поисковых запросов самых популярных поисковых машин. Работу операторов сложного поиска рассмотрим на примерах решения наиболее типичных задач.
• Найденные ссылки должны содержать точную фразу поискового запроса.
Такую фразу следует заключить в кавычки. Это правило справедливо для всех поисковых машин.
• В найденных документах должно быть несколько слов из поискового запроса.
В этом случае удобно применить логический оператор AND (и), использование которого означает одновременный поиск нескольких слов, вошедших в запрос. В «Яндекс» и Rambler этому оператору соответствует знак &, в Google эту функцию выполняет обычный символ +. Таким образом, запись книжный & магазин в строке поиска «Яндекс» или Rambler будет означать поиск сайтов, страницы которых содержат оба слова поискового запроса. В Google вам для этого нужно будет написать книжный + магазин.
• В документе должно быть хотя бы одно слово поискового запроса.
В этом случае необходимо использовать оператор OR (ИЛИ). В поисковых системах Rambler и «Яндекс» ему соответствует символ |, а в Google следует применять знак ~. Запрос аэроплан |самолет|планер|дирижабль|аэростат|вертолет|пепелац, заданный в «Яндекс» или Rambler, позволит найти страницы, где встречается хоть одно из этих слов. При поиске с помощью Google запрос задается так: аэроплан-самолет-планер.
• Одно слово поискового запроса должно обязательно входить в результирующие ссылки.
При работе с «Яндекс» и Rambler перед такими словами нужно поставить знак +. Обратите внимание, что перед этим символом необходимо ставить пробел, а после него – нет. Например, для поиска известной цитаты из «Гамлета» нужно набрать быть +или +не быть.
• Из итогового списка ссылок необходимо исключить документы с определенными словами.
Для этого следует применить логический оператор NOT (НЕ). В «Яндекс» и Google такие слова помечают символом —, в Rambler для этого предназначен знак!. Данный оператор нужно вводить после ключевого слова через пробел и слитно с необязательным словом. Например, запрос карта Парижа – (агентство | тур) позволит найти карту, а не агентства и туры по Франции.
• Слова поискового запроса должны располагаться на определенном расстоянии друг от друга.
В этом случае синтаксис каждой поисковой машины индивидуален. В некоторых поисковых задачах термины могут идти в разном порядке, причем между ними может быть установлен произвольный интервал. Добавив между словами запроса оператор / (n т), вы получите интересующие вас страницы. Если при работе с Яндекс вы введете запрос справочная / (2 4) литература, то будут найдены документы, в которых слово «справочная» удалено от «литература» на два слова влево и на четыре вправо.
Если вы точно знаете не только расстояние, но и порядок слов запроса, в котором они должны идти в тексте интересующих вас страниц, укажите между символом / и числом-расстоянием символ + для прямого порядка слов или – для обратного.
Если вы хотите найти отчество Тургенева, то введите запрос Иван /+2 Тургенев. Будут найдены страницы, где между словами «Иван» и «Тургенев» есть ровно одно слово.
В поисковой машине Rambler значение ограничения контекста можно изменять конструкцией (число, запрос), где число – любое положительное число. Таким образом, по запросу (2, красная армия) будут найдены только те документы, в которых между словами «красная» и «армия» хотя бы раз не стоит ни одного слова (поскольку лишь в случае их непосредственного соседства разница в порядковых номерах меньше двух, то есть равна единице).
Помните, что при построении сложных запросов вас выручат скобки. Например, если вы ищете описание мумие, но не хотите наталкиваться на прайсы интернет-магазинов, можете задать такой запрос: мумие && (лечение | лечебный | болезни)~~(цена | прайс | рубли доллар | фирма | магазин). Будут найдены все страницы, где есть слово «мумие», а также любое из слов «лечение», «лечебный» или «болезни» и нет ни одного из слов, перечисленных после оператора —.
Все слова, которые вы приводите в запросе, по умолчанию ищутся с учетом морфологии. Чтобы отключить ее, введите оператор! перед словом (без пробела).
Например, на запрос! день будут найдены страницы, где слово день встречается только в такой форме.
Если одна или несколько форм слова совпадает с другими словами, могут найдены лишние страницы. Указав нормальную форму слова с помощью оператора!! вы уберете из списка ненужное.
С подробностями использования поискового движка Google можно ознакомиться по адресу http://www.google.com.ua/intl/uk/help/refinesearch.html. Страница помощи «Яндекс» размещена по адресу http://www.yandex.ru/info/index.html, а поисковую помощь системы Rambler вы найдете здесь: http://www.rambler.ru/doc/help.html.
Дополнительной возможностью является поиск среди обнаруженных страниц. Если ссылок найдено слишком много, то всегда можно добавить к запросу еще одно ключевое слово и повторить поиск.
Полезные советы
Приведу некоторые советы, которые, конечно, не являются однозначным рецептом успеха. Однако они возникли в результате долгой работы с Интернетом и поэтому могут помочь вам искать более эффективно.
1. Перед началом поиска выберите основные понятия, описывающие нужную вам информацию. Старайтесь сформулировать вопрос как можно точнее. Например, такой запрос сорта светлого пива даст более определенный результат, чем слабоалкогольные напитки.
2. Выберите ключевые слова, подходящие к данному понятию.
3. Подыщите как можно больше синонимов к выбранным ключевым словам. Если полученный список результатов содержит слишком мало полезных документов, попробуйте заменить искомое слово синонимом. Например, вместо «видеоконтроллер» можно попробовать «графический адаптер». Попытайтесь также использовать в запросе оба слова.
4. Определите, какой тип операторов поиска (OR, and, not) лучше подойдет в данном случае.
5. Проверьте орфографию. Если система не нашла ни одного документа, содержащего заданное слово, следует проверить правильность написания. Например, если по запросу дрессировка ротвейлеров и бульттерьеров были найдены только сведения по дрессировке ротвейлеров, скорее всего, вы просто допустили ошибку в слове «бультерьеров».
6. Учитывайте особенности интерфейса поисковой системы, с которой вы работаете. Например, некоторые системы ограничивают поиск, если слово запроса набрано с прописной буквы. То есть, если запрос выглядит как мерседес, то будут найдены документы, содержащие варианты «мерседес», «Мерседес» и «МЕРСЕДЕС». По запросу Мерседес будут найдены только те документы, в которых это слово написано с прописной буквы.
Если результаты поиска не устраивают, действуйте следующим образом:
• постарайтесь точнее сформулировать запрос, используя, например, несколько слов;
• воспользуйтесь дополнительными возможностями поисковой системы, например расширенным поиском и языком запросов;
• попробуйте поискать с помощью другой поисковой машины.
Получив список ссылок, помните о следующем.
• Не забывайте о команде Найти браузера.
Используйте команду Правка → Найти для обнаружения незаметных на первый взгляд ключевых слов страницы. Помните, что отыскать слово, которое вам нужно, можно, воспользовавшись сочетанием клавиш Ctrl+F.
• Фиксируйте результаты поиска.
Сохраняйте ссылки на важные и часто посещаемые страницы, используя команду Избранное → Добавить в избранное. Применяйте подобные механизмы для регистрации предварительных результатов поиска в процессе беглого отбора с целью дальнейшего подробного изучения.
• Сохраняйте копии найденных документов на своем компьютере.
Используйте для этого команду контекстного меню Сохранить объект как и команду меню Файл → Сохранить как для сохранения необходимой информации из Интернета на вашем компьютере.
• Некоторую особую информацию следует поискать в специализированных каталогах, просматривая нужные тематические разделы.
Увидев качественный, подходящий по тематике поиска сайт, не спешите покидать его, не изучив страницы ссылок. Обычно на серьезных сайтах ссылки подобраны хорошо, и вполне возможно, что вы найдете там что-нибудь полезное.
Метапоиск
Одно из правил успешного поиска состоит в использовании нескольких поисковых машин. Причина, по которой следует так поступать, очевидна: все поисковые машины применяют разные алгоритмы поиска с разной скоростью, и страница, которая найдется при помощи одного поисковика, может остаться вне поля зрения другой системы – либо программа до нее еще не добралась, либо посчитала сайт несоответствующим запросу. Кроме этого, ни одна поисковая машина, даже самая хорошая, не может похвастаться полнотой своей базы данных.
Разработчики специальных поисковых машин решили воплотить в жизнь идею объединения результатов работы сразу нескольких таких систем. Эти технологии носят название метапоисковиков. Метапоисковые системы на самом деле являются лишь мостом между пользователем и набором стандартных поисковиков. Они не ведут собственную базу интернет-сайтов, а лишь обрабатывают результат, предоставляемый другими поисковыми машинами. Степень этой обработки может быть разной. Самые простые метапоисковики позволяют удалить повторяющиеся ссылки и создать единый список сайтов, упорядоченный по релевантности.
Первые метапоисковики фактически позволяли работать с несколькими видами поиска: не только на сайтах, но и, например, в словарях, энциклопедиях, каталогах и дискуссионных группах. Следующим шагом в развитии метапоиска стало появление новых способов обработки полученных результатов.
Очевидное преимущество метапоиска – более высокая релевантность выдаваемых ссылок. Не ограничиваясь данными одной поисковой системы, с помощью этой технологии можно собрать более полную информацию об интересующем вас предмете. С другой стороны, метапоисковые системы часто отбрасывают или выносят в самый конец результатов те страницы, которые содержатся лишь в одной поисковой базе, даже если ссылка идеально соответствует запросу. Проще говоря, вы можете потерять ценные ссылки, особенно если это достаточно новая страница, которая пока не внесена в базы данных большинства поисковых машин.
Работа с метапоисковой системой практически не отличается от поиска с помощью любой другой поисковой машины. Обычно она использует те же операторы построения запроса, имеет похожий формат вывода информации. Правда, при построении запроса в некоторых системах можно выбрать – в базах каких именно поисковых машин вы бы хотели искать информацию.
Обычно метапоисковые средства позволяют настраивать список используемых поисковых машин, а в некоторых случаях его можно дополнять самим. Эта возможность особенно важна для русскоязычных пользователей, так как в состав списка поисковых средств метапоисковых систем редко входят русскоязычные сайты.
В результатах поиска часто присутствует дополнительное поле – ссылка на поисковый сайт, с помощью которого была найдена данная ссылка.
Последние метапоисковики позволяют проводить кластеризацию (объединение) полученных адресов сайтов по разным критериям. Такие системы выявляют в списке полученных сайтов общие ключевые фразы и группируют страницы в соответствии с ними. Метапоисковые системы, поддерживающие кластеризацию, обычно предлагают как минимум два списка результатов поиска. Это обычный список сайтов и список кластеров – ключевых слов, в соответствии с которыми были сгруппированы полученные результаты поиска. Выбор ключевого слова в этом списке приведет к отображению соответствующих ему ссылок на найденные сайты.
Одна из первых метапоисковых систем, использующих группировку результатов документа на основе кластерной технологии, – http://vivisimo.com (рис. 9.4). По запросу пользователя система строит дерево тем, в котором размещены не только ключевые слова, но и типы документов (статьи, новости). Если в кластерах-темах опять встречаются повторяющиеся комбинации, то создаются подтемы (подкластеры). Система предлагает не только удобное представление результатов поиска, но и не менее удобные средства работы с ними. Рядом с названием каждого сайта есть ссылки, которые открываются в новом окне, а во фрейме текущего окна можно осуществить предварительный просмотр страницы. Для каждой найденной ссылки указано также средство, с помощью которого она была обнаружена. Кроме того, возможен поиск в найденном. Следует отметить корректную работу сервиса с запросами, написанными кириллицей.
Рис. 9.4. Метапоисковая система Vivisimo
Дочерний проект Vivisimo – www.clusty.com – также создан для метапоиска. Некоторые возможности этих сервисов похожи, но Clusty умеет гораздо лучше структурировать результаты поиска. Система предлагает дерево ссылок и дерево кластеров, которые можно построить не только по темам, но и по источнику (поисковой машине) и по домену (URL). Кроме этого, Clusty имеет гораздо больше возможностей по управлению и просмотру кластеров. Изначально их список содержит лишь основные, которые включают больше всего ссылок. Однако при желании пользователь может просмотреть все связанные кластеры. Каждую полученную в результате поиска ссылку можно открыть в новом окне или во фрейме, кроме этого, можно просмотреть ее месторасположение в дереве кластеров. Доступен также тематический поиск: News (Новости), Image (Изображения), Shopping (Товары), Encyclopedia (Энциклопедии) и Gossip (Слухи). Если пользователю недостаточно этого набора ссылок, он может дополнить страницу www.clusty.com своими, указав их названия и используемые поисковые машины.
Метапоиск на http://mamma.com предлагает несколько видов поиска. Кроме традиционного, возможен поиск в новостях, а также поиск картинок. В полученном списке страниц перечислены используемые поисковые машины, с помощью которых были найдены ссылки, а рядом помещен список уточняющих запросов. Кластеризация не поддерживается, но размещение ссылок в полученном списке в соответствии с релевантностью делает эту систему заслуживающей внимания.
Метапоисковое средство Gnome (www.gnome.com) работает в двух режимах. Вы можете задавать один поисковый запрос ко всем доступным поисковикам либо формулировать его отдельно для каждой поисковой машины. В первом случае Gnome позволяет использовать одновременно до 10 систем. Результат можно сгруппировать разными способами – по релевантности либо по алфавиту, но в любом случае полученный список будет разбит на группы в соответствии с используемыми поисковыми машинами.
Завершу обзор метапоисковых систем разработкой российских программистов. Весной прошлого года на суд пользователей была вынесена альфа-версия кластеризующей метапоисковой системы http://nigma.ru. Проект, авторами которого являются студенты и сотрудники МГУ, представляет собой удачное решение, вполне сопоставимое с мощными зарубежными метапоисковиками (рис. 9.5). Система использует для поиска следующие поисковые машины: Google, Yahoo, MSN, «Яндекс», Rambler и др. Рядом с каждой ссылкой результирующего списка указано название системы, с помощью которой она была найдена, и рейтинг по версии этой системы. Указано также общее количество найденных и отнесенных к одному кластеру ссылок.
Рис. 9.5. Nigma– российская метапоисковая система
Кроме метапоисковых сервисов онлайн, существуют специальные программы для метапоиска в Интернете. Самой популярной из них является Copernic Agent 6.12 (www.copernic.com).
Разработчик программы, компания Copernic Technologies, – один из лидеров на рынке поисковых технологий. Программные продукты этой фирмы отличаются удобством в работе и высоким качеством. Copernic Agent Basic хорошо зарекомендовала себя еще с конца 1990 годов, и с каждой версией ее характеристики только улучшаются. Эта программа позволяет производить поиск на основе результатов работы нескольких поисковых машин.
Пользователям Copernic Agent Basic доступны девять категорий поиска (рис. 9.6). Среди них есть базовая категория – The Web, правда, в ней доступна всего одна подкатегория, которая выбирается в процессе установки программы. Внутри подкатегории система позволяет настройку списка поисковиков. Следует отметить, что Copernic Agent Basic использует такие мощные поисковики, как Mamma, Teoma, Yahoo, Lycos, но при этом в списке поисковых машин нет ни одной русскоязычной. Недостатком Copernic Agent Basic является отсутствие возможности добавления новых систем в стандартный список.
Рис. 9.6. Copernic Agent Basic– бесплатная программа для метапоиска
Список найденных ссылок отсортирован по релевантности, для каждой ссылки указана поисковая машина, нашедшая ее, и релевантность (в процентах соответствия поисковому запросу). Однако список можно упорядочить по любому параметру – ссылке, дате создания или посещения, поисковой машине. Получив список, пользователь может удалить из него дубликаты. К нему также можно применить фильтр, оставив на экране только нужные записи. Кроме этого, в найденном списке доступен поиск.
Программа автоматически сохраняет список ссылок, полученный в результате запроса, и он доступен при последующем запуске даже если компьютер не подключен к Интернету.
После установки Copernic Agent Basic встраивает свою панель инструментов в браузер Internet Explorer. С помощью этой панели можно использовать все возможности программы, даже не запуская ее.