российский каталог программ - ListSoft - находится по адресу
http://www.listsoft.ru.
173
В заключение можно отметить, что при проведении ССИ в
общедоступных массивах информации после выполнения подготовительной
фазы, определяющей объект поиска, в первую очередь желательно просмотреть
тематические каталоги, а затем - определить поисковую машину, наиболее
пригодную для решения задачи. Обработка результатов поиска включает в
первую очередь оценку его полноты, адекватность полученной информации
сформулированному первичному запросу и анализ ее достоверности с
применением других поисковых систем.
Практическое использование поисковых машин. Теперь обратимся к
практическому аспекту использования поисковой системы и рассмотрим
Google7, который становится все более популярным. Так, по информации
инженера по программному обеспечению Google Мэта Катса, уже в 2002 г.
«каждый месяц Google индексировал 3 миллиарда веб-документов, в том числе
более трех миллионов новых страниц каждый день».
Google использует интеллектуальную технику анализа текстов, которая
позволяет искать важные и вместе с тем релевантные страницы по запросу. Для
этого Google анализирует не только саму страницу, которая соответствует
запросу, но и страницы, которые на нее ссылаются, чтобы определить ценность
этой страницы для целей запроса. Кроме того, Google предпочитает страницы,
на которых введенные ключевые слова расположены по тексту документа
недалеко друг от друга. Каждый раз в списке найденных страниц Google
показывает отрывок из текста, выделяя в этом отрывке ключевые слова. Тем
самым облегчается обнаружение ключевых слов в тексте.
Другой способ увидеть ключевые слова - загрузить страницу по ссылке
«Сохранено в кэше». Недостаток этого способа (но иногда это рассматривается
как преимущество) в том, что вы видите не ту страницу, которая есть сегодня, а
ту, которая сохранена в базе Google. Tpeтий способ - традиционный для
просмотра текста в браузере - заключается в том, чтобы использовать функцию
браузера «найти на текущей странице», в которую вводятся искомые слова.
По умолчанию при написании слов запроса через пробел Google ищет
документы, содержащие все слова запроса. Это соответствует оператору
«логическое И».
Например: [Кошки собаки верблюды зебры носороги]
Логическое «ИЛИ» пишется с помощью оператора OR. Обратите
внимание, что оператор OR должен быть написан заглавными буквами.
Относительно недавно появилась возможность написания логического «ИЛИ»
в виде вертикальной черты ( | ), подобно тому, как это делается в Яндексе.
Например: [Таксы длинношерстные OR гладкошерстные].
Интересно, что Google может показать и те страницы, на которых нет
ключевых слов, но эти слова содержатся в ссылках на показанную страницу. В
таком случае при просмотре страницы с помощью ссылки «Сохранено в кэше»
7 Ющук Е.Л. Конкурентная разведка: маркетинг рисков и возможностей. - М.: Изд-во
деловой литературы «Вершина», 2006.
174
будет видна надпись: «Эти слова присутствуют только в ссылках на эту
страницу: таксы длинношерстные гладкошерстные».
Надо помнить, что Google не чувствителен к регистру букв. Все буквы
воспринимаются как прописные вне зависимости от того, как их вводили в
поисковую строку. Запросы [Эйфелева Башня] и [эйфелева башня] дадут
одинаковые результаты. Весьма важным для поиска является понятие «стоп-
слов». К стоп-словам относятся большинство артиклей английского языка,
союзов и предлогов русского языка. В руководствах указано, что Google,
подобно большинству поисковых машин, игнорирует стоп-слова и, как и
многие другие, имеет механизм принудительного включения стоп-слов в
результаты поиска. В реальности ситуация несколько иная. (…)
Google не поддерживает морфологию слов. Слова надо вводить в нужных
словоформах. Отчасти это компенсируется интеллектуальной системой поиска,
которая может найти нужную словоформу в ссылках на страницу. (…)
Поскольку Google выдает все слова, которые вы вводите в запросе, имеет
смысл составлять новые запросы, содержащие те слова, которые вы забыли
ввести в начале поиска, но нашли в ходе его выполнения в найденных текстах.
В ряде случаев это может помочь улучшить поиск и проверить достоверность
получаемой информации. Если же добавлять эти слова к уже имеющемуся
запросу, то молено иногда излишне сузить диапазон результатов.
Как известно, информационный мусор часто встречается при составлении
запроса. Чтобы его удалить, стандартно используются операторы исключения -
логическое «НЕ». В Google такой оператор представлен знаком «минус».
Используя этот оператор, можно исключать из результатов поиска те страницы,
которые содержат в тексте определенные слова. (…)
Последовательное исключение ненужных конструкций постепенно
приведет аналитика к обозримому перечню документов, подлежащих
изучению.
Достаточно часто аналитику приходится искать некоторую точную фразу,
не допуская ее интерпретации в поисковой машине. Искать точную фразу на
практике требуется либо для поиска текста определенного произведения, либо
для поиска определенных продуктов или компаний, в которых название или
часть описания представляют собой стабильно повторяющееся словосочетание.
Чтобы справиться с такой задачей при помощи Google, требуется заключить
запрос в кавычки (имеются в виду двойные кавычки, которые применяются,
например, для выделения прямой речи). Например, введем весьма актуальную
для политического прогноза цитату: «Политик должен уметь предсказать, что
произойдет завтра, через неделю, через месяц и через год. А потом объяснить,
почему этого не произошло». Результаты поиска:
Мания пиара - Статьи - Консалтинговая Группа АРМ
Политик должен уметь предсказать, что произойдёт завтра, через
неделю, через месяц и через год. А потом объяснить, почему этого не
произошло...
www.arm-group.ru/rus/talks/articles/politics/prmania/ -30k - Сохранено в
кэше - Похожие страницы
175
Restime: Единая служба спасения от скуки! - Статьи - Екатеринбург
Политик, как и астролог, должен уметь предсказать, что произойдет
завтра, через неделю, через месяц и через год. А потом объяснить, почему
этого не ...
restime911.ru/articles.html - 37k - Сохранено в кэше - Похожие страницы
И, наконец, третья ссылка указывает нам на автора этого мудрого
высказывания:
Уинстон Черчилль
... заключается в умении предсказать, что может произойти завтра, на
следующей неделе, через месяц, через год. А потом объяснить, почему этого
не произошло...
www.aforism.info/%D3%E8%ED%Fl%F2%EE%ED+%D7%E
5%F0%F7%E8%EB%EB%FC.html - 39k - Сохранено в кэше -Похожие страницы
Поиск цитат является весьма важным инструментом, поскольку в
некоторых случаях позволяет существенно расширить границы поиска,
включив в него ресурсы или людей, ассоциированных с содержанием цитаты.
(…)
В сентябре 2006 г. появились публикации, в которых было сказано, что
Google позволяет вводить в строку запроса до 32 слов. Эта информация
соответствует действительности. Но и 32 слова для поиска в системе Google не
предел. Существует особый прием, усечение слова до его корня, называемый
стеммингом. После усечения слова до его корня производится поиск
релевантных вариантов слов, производных от этого корня. Другими словами,
стемминг позволяет искать все однокоренные слова.
Иным полезным для аналитика механизмом является техника поиска по
маске (wildcard), которая представляет собой написание базового слова (или
части слова), после которого идет символ маски - «звездочка» (*), заменяющая
собой любое возможное продолжение слова. Таким образом, если поисковая
машина поддерживает поиск по маске, то ищутся все слова, которые одинаково
начинаются. Эта техника необходима, когда неизвестно точное написание
конкретного слова, либо когда целесообразно включить все возможные
варианты слова в поиск. Например, по запросу [тарт*] получают как
«тарталетку», так и «тартар». Google эти технологии не поддерживает, однако
он поддерживает вариант, когда вместо целого слова вводится звездочка.
Например, по запросу: [красная * площадь] будет выдано: «Красная и
Манежная площади», с подчеркиванием всех этих слов, в том числе буквы «и».
В какой-то степени это похоже на поиск с расстоянием между словами. По
запросу: [красная * площадь - "красная площадь"] будут получены результаты
«Красная (Семеновская) площадь», где слово «Семеновская» не считается
релевантным и не подчеркивается