PRi — PageRank i-й страницы, ссылающейся на рассматриваемую страницу;
Ci — общее число ссылок на i-й странице.
Значение PR находится в пределах от 0 до 10 и представлено целыми числами. Именно это значение можно увидеть в установленной панели инструментов, хотя действительное значение PR совсем иное. Для удобства и упрощения представления индекса цитирования реальные значения были приведены к значениям для пользователей. Точные данные о том, каким образом было выполнено это приведение, отсутствуют, но в качестве примера можно воспользоваться следующими данными (табл. 9.1).
Отсюда можно сделать один вывод — увеличить значение PR от 1 до 2 значительно проще, чем подняться со значения 4 до значения 5. Средние по известности сайты, чаще всего, имеют значение PR, равное 4 или 5. Значение 6 имеют хорошо "раскрученные" сайты. 7 или 8 — у ведущих брендов.
Приведенная здесь формула не говорит о том, что расчеты выполняются строго в соответствии с ней. На самом деле происходит постоянное усложнение алгоритма расчета, примером чему может служить осуществленное в ноябре 2003 года специалистами Google изменение алгоритма вычисления PageRank. Это изменение среди англоговорящих вебмастеров получило название "Florida". Однако Google не сделал никаких официальных заявлений по поводу того, что за изменения были внесены. На этом работа над изменениями не остановилась, в компании постоянно ведутся научные работы по модификации алгоритма PageRank.
О том, как рассчитывается показатель PageRank, написано много. Статьи на эту тему легко найти в Интернете (см., например: Chris Ridings, "Растолкованный PageRank", http://www.searchenginesystems.net). А можно "вживую" попробовать рассчитать значение этого показателя при различных вариантах расстановки ссылок между сайтами с использованием онлайнового калькулятора. Он находится на сайте http://www.webworkshop.net/, и на нем реализовано вычисление по классической версии алгоритма (рис. 9.1). С помощью этого сервиса можно наглядно разобраться в том, как распределяется вероятность посещения пользователем документа (PageRank) при различных схемах расстановки ссылок между документами.
9.3. Тематический индекс цитирования
На Яндексе показатель, аналогичный PageRank, был введен в обращение в 2001 году и получил название взвешенный индекс цитирования — вИЦ. Он рассчитывался на основе классического алгоритма PageRank с точностью, как отмечали сами разработчики, "до деталей реализации". Хотя, безусловно, доскональной точности расчета показателей быть не могло — ни одна поисковая система не раскрывает всех нюансов своих расчетов. В дальнейшем в расчет вИЦ были включены дополнительные факторы, отсутствующие в классическом алгоритме определения ссылочного ранга страницы. Но продержался вИЦ в качестве главного показателя, доступного для посетителей, недолго. Через полтора года его сменил новый индекс, тематический (тИЦ).
Это еще одна разновидность индекса цитирования. Отличается от взвешенного тем, что вес ссылок, учитываемых при подсчете показателя, зависит не только от значимости ссылающегося сайта, но также от его тематики. Чем ближе тематика ссылающегося сайта к рассматриваемому, тем больший вес может быть придан ссылке, ведущей с него. Тематика сайтов определяется по каталогам веб-проектов. Чаще всего поисковая система использует собственный или сотрудничающий с ней каталог, а качество ссылок из таких каталогов на сайт учитывается как ссылки авторитетных сайтов.
Тематический индекс цитирования (рис. 9.2) определяет значимость вебресурсов с учетом качественных характеристик ссылок на них с других сайтов. Эта значимость рассчитывается по специальному алгоритму, в котором существенную роль играет тематическая близость ресурса и ссылающихся сайтов. Значение тИЦ определяется в первую очередь не количеством ссылок, а суммой их собственных качественных характеристик ("весов").
Значение тИЦ не является постоянным. Оно пересчитывается еженедельно. Рассчитывается тИЦ либо для всего ресурса, либо для его разделов, если они зарегистрированы в каталоге Яндекса как самостоятельные ресурсы. При расчете тИЦ учитываются только внешние ссылки, поэтому сколько бы ни было проставлено перекрестных ссылок между страницами одного сайта, они никакого влияния на значение тИЦ не окажут. При расчете тИЦ одного из разделов сайта, ссылки на раздел сайта из других разделов этого сайта будут считаться внутренними и, следовательно, не будут увеличивать его тИЦ.
Не будут учитываться ссылки и с тех ресурсов, которые не проиндексированы Яндексом. Поэтому ссылки, размещенные на ресурсах, расположенных вне доменов su и ru учитываться не будут. Не будут учитываться и ссылки, размещенные на форумах, немодерируемых каталогах, иных ресурсах, в которые может добавить ссылки любой посетитель без контроля со стороны владельца ресурса. Также не учитываются ссылки с сайтов, расположенных на бесплатных хостингах, если эти сайты не описаны в каталоге Яндекса.
Эти особенности необходимо учитывать в первую очередь владельцам новых сайтов. То, что вы разместили в Сети свою работу, еще не означает, что Яндекс сразу ее увидит и проиндексирует. До тех пор, пока на каком-либо известном Яндексу ресурсе не будет размещена ссылка на ваш сайт, робот Яндекса о нем не узнает. Размещение же ссылки на сайтах, значимость которых Яндекс игнорирует, ситуацию не исправит. Одним из наиболее корректных вариантов "подсказать" Яндексу, где находится ваш сайт, является подача заявки на регистрацию сайта в Яндекс. Каталоге. Даже в том случае, если ваш сайт не будет принят для бесплатной регистрации, поисковый робот проверит указанную вами ссылку и проиндексирует размещенный там сайт.
Значение тИЦ для сайтов, внесенных в каталог Яндекса, можно увидеть рядом с описанием ресурса.
Индекс цитирования Яндекса очень удобно просматривать с помощью плагина Яндекс. Бар. При посещении какого-либо сайта вы будете видеть в панели плагина значок, отражающий величину тИЦ данного сайта, независимо на какой из его страниц вы находитесь. А используя меню, вы можете вывести страницу с точным значением индекса и списком ссылающихся на просматриваемый ресурс сайтов.
До недавнего времени существовала ситуация, когда сайты, не включенные в каталог Яндекса, считались Яндекс. Баром неотъемлемой частью своего головного ресурса (например, так обстояло дело с доменами третьего уровня). Соответственно, для таких ресурсов наследовалась тематика головного ресурса и тИЦ. На сегодняшний день эта ошибка работы Бара уже исправлена.
Алгоритм подсчета индексов цитирования у поисковиков не является чем-то постоянным. Не составляет исключения и Яндекс. Причин для этого существует множество, но из них можно выделить наиболее важные. Первая — желание поисковиков улучшить результаты ранжирования сайтов в соответствии с индексами цитирования. Вторая причина заключается в том, что поисковику приходится постоянно бороться с поисковым спамом, паразитирующим на найденных оптимизаторами способах продвижения сайтов с учетом текущей реализации алгоритма расчета индекса цитирования. Точнее — даже не самого алгоритма, а тех составляющих, которые учитываются при его расчете.
Яндекс никогда не объявлял заранее о предстоящем изменении принципов расчета ИЦ. Как правило, о нововведениях становилось известно по изменению численных значений индексов у наблюдаемых сайтов. Причем, это бывали не колебания в пределах допустимых значений, а резкие, в разы, подъемы или спады значений индекса. И первым таким серьезным испытанием для оптимизаторов был год 2004-й, когда произошло первое существенное изменение алгоритма ранжирования. В результате тех изменений значения тИЦ в течение недели изменялись скачкообразно, часто без следования какой-либо логике.
Изменения алгоритма ранжирования происходили и в дальнейшем, внося напряженность в ряды оптимизаторов. Зачастую им приходилось полностью изменять стратегию продвижения сайтов в поисковой выдаче Яндекса. Но для этого требовалось понять, какие же изменения были внесены в алгоритм, и как они сказались на ранжировании. Примером такого анализа можно назвать статью, опубликованную на проекте "Черный квадрат" (http://www.rukv.ru/ analytics-20070107.html), в которой было проанализировано изменение индекса более чем 200 тыс. сайтов российского Интернета.
Самое последнее обновление алгоритма происходит в дни, когда пишутся эти строки. Отличие ситуации в том, что на этот раз руководство Яндекса в лице руководителя отдела веб-поиска Александра Садовского официально объявило о смене алгоритма. Объявление было опубликовано на трех ведущих форумах, где встречаются и обмениваются информацией оптимизаторы. Это форумы порталов Searchengines, Mastertalk и Seochase. Вот что там было сказано:
Уважаемые веб-мастера!
Сегодня ночью на поиске в одном из дата-центров Яндекса обновится алгоритм ранжирования. В течение нескольких дней по одному и тому же запросу результаты у разных пользователей могут заметно отличаться, это нормально. Как только во всех дата-центрах будет работать одинаковый поиск, разница станет незначительной.
Мы надеемся, что по ряду запросов улучшение релевантности поиска будет заметно невооруженным глазом. Если вы все-таки обнаружите запросы, где есть явное ухудшение, напишите нам, пожалуйста, с указанием запроса исчезнувших сайтов и пояснением, почему вы считаете их релевантнее сайтов, которые продолжают находиться: http://feedback.yandex.ru/?from=webmaster.
Чтобы узнать, какой алгоритм ранжирования отработал ваш запрос, зайдите после получения результатов поиска на страницу http://www.yandex.ru/ cgi-bin/hostname, где показывается имя сервера, который вас обслужил. Если оно выглядит как sfront??.yandex.ru или ludi.yandex.ru, значит, вам выпал счастливый билет и возможность потестировать новый поиск. Если имя выглядит как sfront2-???.yandex.ru, значит, счастливый билет выпадет вам на днях.