Несмотря на постоянное улучшение алгоритмов поиска традиционных поисковых машин, их работа уже давно не удовлетворяет современного интернет-пользователя. Ведь чем короче путь от поискового запроса до полученного результата, тем лучше. При постоянном увеличении количества веб-сайтов использование традиционного метода поиска приведет к тому, что результат будет содержать много информационного шума – сайтов, которые случайно попали в результирующий список и не соответствуют или не совсем соответствуют поисковому запросу.
Кроме того, различия в стратегии, широте охвата и мощности разных систем очень часто приводят к тому, что разные поисковые машины дают разные результаты поиска при одних и тех же запросах. Этим не замедлили воспользоваться разработчики специальных программ, основанных исключительно на применении потенциала других, уже существующих традиционных поисковых систем.
Системы, которые не ведут собственной базы интернет-сайтов, а только предоставляют доступ к другим поисковым системам, называются метапоисковыми системами. По сути, метапоисковые системы – это посредник между пользователем и набором обычных поисковых систем. Они реализуют свои алгоритмы и методы обработки результатов работы других поисковых систем.
Метасистема позволяет в соответствии с пожеланиями пользователя ограничить свой поиск определенными серверами и осуществить уточненный поиск в полученном списке сайтов. Основной чертой такой системы является объединение поисковых серверов различных специализаций.
Большинство современных метапоисковых систем умеют обрабатывать полученные результаты поиска, как минимум они удаляют из результирующего списка сайтов ссылки-дубликаты. Большинство из них представляют список ссылок по суммарной релевантности, но некоторые группируют их по используемым поисковым машинам.
ПРИМЕЧАНИЕ
Иногда поиск с применением метасредств может оказаться очень медленным, ведь им приходится координировать во времени поступления результатов обработки поискового запроса от нескольких серверов. Еще одним недостатком является то, что они не позволяют использовать возможности языка запроса каждого из применяемых поисковых средств.
Метапоисковая система, которая умеет объединять полученные списки ссылок в группы, предлагает пользователям сразу два списка ссылок. Кроме обычного списка ссылок с указанием различной дополнительной информации, пользователь получает список ключевых слов, то есть разделов, в которые были сгруппированы полученные результаты поиска. Выбор ключевого слова в этом списке приведет к отображению соответствующих ему ссылок на найденные сайты.
Вы можете найти в Интернете метапоисковые системы, объединяющие результаты работы нескольких традиционных поисковых машин. Одной из таких систем является http://www.gahooyoogle.com. Метапоисковик GahooYoogle умеет искать сразу по двум поисковым машинам – Yahoo! и Google. В результате работы экран браузера будет разделен на две части: слева отобразится результат поиска, полученный с помощью Yahoo! справа – страничка с результатами поиска в Google.
Vivisimo
Один из старейших метапоисковиков – Vivisimo (http://vivisimo.com) использует группировку результатов поиска на основе содержимого сайтов. Вместо простого перечня ссылок он удобно упорядочивает результат. По запросу пользователя строится дерево тем, в котором размещены не только ключевые слова, но и типы документов (статьи, новости и т. д.) (рис. 4.8).
Сайты, для которых не были определены ключевые слова, будут отнесены к специальной группе Other topics. В результате работы Vivisimo создает сложную древовидную структуру, состоящую из разделов и подразделов. Рядом с названием каждого сайта отображаются ссылки, открывающиеся в новом окне или в фрейме текущего окна, здесь же можно осуществить предварительный просмотр найденного сайта. В последнем случае будет открыт специальный блок Preview в окне ниже названия ссылки.
При поиске можно задавать его тематическую направленность, можно искать как в общей категории (Search the web), так и проводить поиск в новостях нескольких типов, а также (специализированный поиск) по конкретным порталам (BBC News, eBay, Open Directory и т. д.).
Для каждой найденной ссылки в результирующем списке отображается название поисковой машины, с помощью которой она была найдена. Кроме обычного, пользователям Vivisimo доступен также и расширенный поиск. Среди его параметров настройка списка используемых поисковых средств, ограничение количества найденных ссылок, время поиска и язык.
Clusty
Еще одна метапоисковая система Clusty (http://www.clusty.com) – это дочерний проект Vivisimo. Возможности обеих этих систем похожи, но последняя имеет гораздо более удобные инструменты для структурирования результата поиска.
По умолчанию список ссылок, полученных в Clusty, сгруппирован по тематике. Однако кроме этого параметра, заданного по умолчанию, можно задать группировку полученных ссылок по источнику и по домену (URL) (рис. 4.9).
Каждую полученную в результате поиска ссылку можно открыть в новом окне или в фрейме, кроме этого, можно просмотреть месторасположение найденной ссылки в дереве тем. Другими дополнительными возможностями Clusty является проведение специфического поиска – для этого предназначены вкладки News, Image, Shopping, Encyclopedia, Gossip. Используя вкладку Customize, можно настроить внешний вид и функциональные возможности Clusty для себя, добавив в стандартный набор вкладок еще одну, свою (при этом необходимо указать ее имя и отметить используемые в ней поисковые средства). При этом одновременно можно создать до четырех своих вкладок.
Пиринговые сети
Вы пересмотрели все поисковые машины, провели специализированный поиск по FTP, поиск программ – и все равно нужный файл не находится… В этом случае остается единственный выход – попытаться поискать файл в других сетях, так называемых файлообменных.
Развитие технологий доступа к Интернету, широкополосный доступ – все это делает еще более популярными инструменты обмена файлами. Современные скорости соединения с Сетью позволяют легко закачивать сотни мегабайт. Результатом этого стало развитие сервисов обмена файлами. Такие сервисы являются одним из самым популярных средств для распространения информации между пользователями. Они могут применяться, например, чтобы выложить объемный архив с фотографиями для друзей вместо того, чтобы отправлять его по почте, или для распространения в Интернете файлов, не нарушающих ничьих прав. Однако контролировать содержание хранилищ файлов, число которых доходит иногда до сотен тысяч или даже больше, практически невозможно.
Все началось в 1999 году, когда свет увидел проект Napster. Всего через год Napster стал едва ли не самым популярным брендом в Интернете. Причиной этого стала возможность с его помощью быстро и бесплатно скачивать музыку. Потом борцы за авторские права расправились с ненавистной им системой, однако пример был подан.
Не только Napster, но и другие файлообменные сети подвергались преследованию со стороны музыкальных компаний и компаний, выпускающих программное обеспечение. Однако это совсем не изменило отношения пользователей к подобным серверам.
Файлообменные сети используют принцип работы, который несколько отличается от привычного для большинства компьютерных сетей принципа «клиент-сервер». Они работают на основе технологии P2P.
Технология P2P (peer to peer) – это схема построения распределенной сети, каждый узел которой может одновременно выступать как в роли клиента, получающего информацию, так и в роли сервера, информацию предоставляющего. P2P-сети (или пиринговые) еще называют сетями равных возможностей, в которых осуществлено взаимодействие между всеми узлами сети.
Технология Р2Р подразумевает общение и распространение файлов между компьютерами в сети напрямую, без посредников. Это значит, что для передачи нового фильма от одного пользователя к другому не будет задействовано никаких промежуточных серверов, а значит, скорость закачки будет выше.
Общий принцип работы пиринговых сетей состоит в следующем: клиентская программа передает в сеть список файлов, которые она может предоставить для скачивания и которые хочет получить сама.
Как правило, сеть состоит из равноправных узлов, причем каждый из них взаимодействует лишь с некоторыми узлами сети, так как установление связи «каждый с каждым» невозможно из-за ограниченности ресурсов (как вычислительных, так и пропускных). При этом передача информации между узлами, не связанными в данный момент непосредственно, может осуществляться как по своеобразной «эстафете» (от узла к узлу), так и путем установления временной прямой связи. Маршрутизация и авторизация сообщений, передаваемых первым способом, происходит не на едином сервере, а на всех этих отдельных узлах.
Существуют две модели пиринговых сетей. Если поиск подходящих партнеров осуществляется с помощью сервера, а сами данные качаются напрямую, то такая сеть называется централизованной. Если любые компьютеры сети могут одновременно выполнять функции и клиентов, и серверов, посылая запросы друг другу, то подобный тип сетей называется децентрализованным.
Пиринговая сеть, которая поддерживает оба режима работы, является смешанной (гибридной).
Отметим, что централизованные P2P-сети, как правило, работают быстрее, но менее надежны, поскольку не могут функционировать без сервера. Гибридные системы наиболее оптимальны, поскольку они используют преимущества обеих моделей.
Чем больше человек участвует в пиринговой сети, тем лучше. Представьте, что своими файлами обмениваются несколько миллионов человек, у каждого из которых есть хотя бы 1 Гбайт информации. Выходит почти 1 000 000 Гбайт! Добавьте сюда еще специальные файловые хранилища энтузиастов, огромные объемы данных на Р2Р-серверах… Таким образом, в пиринговых сетях можно найти практически все, что угодно: от фильмов и музыки до исходных кодов вирусов и операционных систем.
На сегодняшний день существует множество Р2Р-сетей: BitTorrent, SHAREAZA, ed2k и т. д. Чем более распространена пиринговая сеть, тем больше вероятность найти в ней редкий и уникальный файл.
Сети P2P выступают хорошей альтернативой FTP-архивам, которые уже давно перестали справляться с ростом информационного наполнения и числа потребителей. Несмотря на постоянное улучшение количественных характеристик файлсерверной архитектуры, P2P потенциально обладает целым рядом преимуществ: балансировкой нагрузки, более широкой полосой пропускания, высокой устойчивостью и широкими возможностями по организации содержания.
У каждой пиринговой сети есть свой стандарт передачи данных, поэтому существуют клиенты, которые могут работать в нескольких сетях.
KaZaa
В сети KaZaa (http://www.kazaa.com) доступны для обмена файлы следующих типов: MP3, AVI, MPG, ASF, JPEG, GIF, BMP, DOC, RAR, ZIP, EXE и др. Для работы сеть использует центральный сервер.
Сеть KaZаa – одна из первых, которая возникла после исчезновения Napster. При работе с ней пользователь соединяется с одним из центральных серверов или с компонентами дополнительной подсети суперузлов, которые выполняют ту же роль, что и центральный сервер.
Среди достоинств сети можно назвать возможность работы со всеми форматами файлов, наличие докачки, умение копировать файл сразу у нескольких пользователей (у каждого свою часть файла) и др.
При работе с сетью в списке найденных файлов отображается полная информация о файле: длина, битрейт, исполнитель (для аудио и видео), название, размер экрана (для видео) и то, какие преимущества имеет данная сеть.
К недостаткам сети можно отнести то, что количество результатов поиска здесь ограничено первой сотней найденных файлов, а также большие очереди на закачку.
Для работы с сетью KaZaa используется одноименный клиент. Особенность программы состоит в полном отсутствии модулей spyware и adware.
При самом первом запуске KaZaa предложит зарегистрироваться и выбрать пользовательское имя. В дальнейшем подключение будет происходить автоматически при запуске программы. В статусной строке KaZaa можно увидеть информацию о количестве активных пользователей и о суммарном объеме доступных файлов.
KaZaa также поддерживает загрузку файла из нескольких источников. Поиск нужного файла занимает сравнительно много времени, но зато при подключении вам не придется перебирать список серверов – статус online будет доступен вскоре после запуска программы.
Специальная функция My Recommendations в окне My Files позволяет рекомендовать наиболее интересные для прослушивания музыкальные файлы.
EDonkey2000
В сети eDonkey2000 (http://www.edonkey2000.com) доступны для обмена практически любые файлы – сеть работает через центральные серверы.
Эту сеть еще называют «Осликом». Принцип ее работы состоит в использовании нескольких центральных серверов: то есть это нечто среднее между одноранговой технологией и клиент-серверной архитектурой.
Серверы играют роль справочника ссылок для закачки, а сама закачка файлов производится по принципу пиринговой сети с одного компьютера на другой. Интересной особенностью является тот факт, что как только пользователь начал качать какой-то файл – его компьютер тут же становится местом, откуда этот файл можно скачать. Причем, даже если файл переименован, он все равно будет опознан по уникальному индексу.
EMule (http://www.emule-project.net) – это программа-клиент для сети eDonkey2000. Она обладает удобным интерфейсом. Здесь присутствует встроенная поддержка русского языка и нет рекламы. При создании eMule была переработана и оптимизирована процедура загрузки файлов. Например, в первую очередь загружаются наиболее редкие блоки файла, а при повреждении блока повторно скачивается только его поврежденная часть. Кроме того, был улучшен поисковый механизм (рис. 4.10).
После запуска программы часть серверов сразу доступна по умолчанию в базе данных, а специальная кнопка позволяет обновить его. После запуска программа опрашивает серверы и подключается к одному из них, который, в свою очередь, общается с другими серверами сети.
Вначале работы программы необходимо определить ресурсы общего доступа на вашем компьютере. Это очень важный этап, так как сеть eDonkey работает по принципу – чем больше вы отдаете, тем больше получаете.
Специальная система очереди и кредитов действует таким образом: пользователь получает нужные ему файлы гораздо быстрее, если закачивает их кому-нибудь еще. При необходимости можно ограничить доступ к спискам сетевых адресов или к именам конкретных клиентов пиринговой сети. EMule может получить список серверов не только с определенного ресурса, но и от партнеров по сети. Кроме того, партнеры могут обмениваться списками источников скачиваемых файлов, что снижает потребность в серверах.
Список файлов, которые пользователь скачивает у других или которые располагаются у него на диске в специальных открытых для доступа папках, при подключении к сети передается на соответствующий сервер, и они становятся доступными для скачивания другим клиентам, подключенным к тому же узлу.
Для любого файла, помещаемого в eDonkey, вычисляется хэш-сумма (специальная контрольная сумма, зависящая от содержимого файла), в соответствии с которой он однозначно определяется в сети независимо от его названия. Ссылки на файлы имеют следующий вид: ed2k://|file|SomeFile. zip|43573472|94cb15b58509c52afcf8bed5dd7a4bd|.
Этот цифровой идентификатор файла в сети eDonkey позволяет однозначно определить месторасположение файла. Таким образом, достаточно указать данный адрес, и клиент eMule самостоятельно найдет нужный файл на серверах сети eDonkey и начнет закачку на ваш компьютер.
Функция Предпросмотр позволяет ознакомиться с фильмами и заглянуть в архивы еще до того, как они скачаны до конца. В состав eMule включен планировщик задач, а также небольшой веб-сервер, позволяющий удаленно управлять программой через Интернет или с мобильного телефона, поддерживающего Java.
BitTorrent
Технологию BitTorrent (битовый поток) (http://www.bittorrent.com) создал в одиночку американский программист Брэм Коэн (Bram Cohen). Уже в 2001 году у него была готова первая версия BitTorrent, а через три года, в июне 2004-го, по данным исследования компании CacheLogic, более трети всего трафика в Интернете передавалось с использованием этого протокола.
Как таковой глобальной сети BitTorrent не существует. Пиринговая система работает следующим образом. Владелец некоторого файла с помощью специальной программы-клиента разбивает его на фрагменты, для каждого из которых вычисляется специальная контрольная сумма. Полученные в результате этой операции данные вместе с информацией об адресах серверов, на которых размещены фрагменты файла, а также адрес специального tracker-сервера сохраняются в небольшой файл с расширением torrent. Эти файлы размещаются в Интернете. Они являются ссылкой на необходимую информацию. Примечательным является тот факт, что BitTorrent – это единственная пиринговая сеть, у которой поиск файлов осуществляется не с помощью программы-клиента, а с помощью любой поисковой системы, например Google.
Другой пользователь скачивает файл с указанным расширением и запускает при помощи специализированной программы (например, SHAREAZA), после чего уже программа подключается к tracker-серверу. При этом клиент управляет процедурой закачки, обеспечивая эффективное управление скачиванием. Далее ситуация развивается по следующей схеме: искомый файл разбивается на блоки и передается через tracker-сервер по кускам от владельца к скачивающему пользователю. Однако со временем количество людей, копирующих этот конкретный файл, растет, а значит, увеличивается число загруженных ими блоков.
Для работы с сетью BitTorrent существует несколько клиентов, один из них так и называется BitTorrent (http://www.bitconjurer.org) (рис. 4.11).
Принцип работы программы состоит в следующем: после скачивания файла штатными средствами операционной системы необходимо дважды щелкнуть на нем кнопкой мыши, в результате чего будет запущен клиент и начнется скачивание нужного файла.
SHAREAZA
По отзывам пользователей, SHAREAZA (http://www.shareaza.com) является одним из лучших универсальных P2P-клиентов. Он весьма быстро завоевал популярность. Программа работает с четырьмя пиринговыми сетями (Gnutella2, Gnutella1, eDonkey2000/eMule, BitTorrent) и распознает пять видов ссылок (Magnet, Piolet, Gnutella, eDonkey2000/eMule, BitTorrent).
Программе не надо подключаться к каким-либо определенным серверам, она самостоятельно находит рабочие серверы и автоматически обновляет их список из Интернета. Она самостоятельно подключается к серверам выбранной пиринговой сети, а также закачивает torrent-файлы.
Можно задать поиск нужного файла – программа предоставит список файлов, которые можно будет скачать (рис. 4.12).
Кроме того, в программе реализован весьма быстрый поиск, к тому же она выдает различную полезную информацию, такую, например, как скорость доступного канала.
Также в SHAREAZA есть встроенный проигрыватель, позволяющий воспроизводить различные форматы музыки и видео. Причем возможен предварительный просмотр файлов, закачка которых еще не завершена.
В последнее время все большее число гигантов IT-мира стали обращать внимание на эту технологию, например компания Sun, объявившая о том, что в новый протокол Jxta будет добавлена поддержка карманных компьютеров и мобильных телефонов, что позволит мобильным устройствам получать доступ к данным и обмениваться информацией в P2P-сетях.