Пожалуй, сегодня блоги являются одним из самых популярных сервисов в Интернете. Пишут миллионы. Читающих в несколько раз больше. О размере этого явления можно судить по статистике, опубликованной на Яндексе.
Яндекс отслеживает все русскоязычные блоги и форумы, представленные в формате RSS. Они попадают в базу и ранжируются автоматически. На момент написания этих строк было проиндексировано почти 1 900 000 блогов, в которые лишь за одни сутки добавилось почти 150 000 записей. В связи с большой активностью пишущих, обновление базы происходит каждые 5 минут. Записи часто обновляемых блогов и форумов индексируются несколько раз в час, редко обновляемые блоги индексируются несколько раз в сутки.
1.11.1. Блогосфера
Считается, что первые блоги в их нынешней форме появились в конце 1997 или начале 1998 года (хотя можно отыскать аналоги блогам и среди более ранних форм электронных публикаций). Бум, связанный с блогами, начался чуть позже — около 2000 года.
Пожалуй, с самого начала появления блогов мнения о них разделились. В первую очередь эти споры касались тех авторов, которые писали репортажи с места событий. Кто они — журналисты, репортеры? Многие из дневников пользуются не меньшей популярностью, чем традиционные СМИ. Возрастает и социальное значение блогосферы — авторы блогов передают эксклюзивные новости из "горячих точек", публикуют фотографии с места событий, вокруг этих публикаций зачастую разворачиваются бурные обсуждения. Блоги становятся местом встреч единомышленников и организации общественных движений, сленг "блоггеров" перенимают газеты и журналы.
Примером тому может служить сообщение о том, что
…крупнейшее в мире информационное агентство Reuters объявило о своей сделке с владельцами сервиса BlogBurst, предоставляющего информацию и комментарии из интернет-дневников для крупнейших газет США и Великобритании. Reuters инвестировала 7 млн долл. в долю акций компании Pluck Corp., разработчика BlogBurst, и теперь будет предоставлять возможность для распространения информации из живых дневников. Эксперты отмечают, что блоги стали фактически новым средством массовой информации, и в перспективе предсказывают их смешение с традиционными СМИ. (РБК daily от 22.11.2006 г.)
Возможность быстро и просто поделиться информацией, опубликовать фотографию или картинку, попросить совета или поболтать с друзьями привлекает в блогосферу (блогосфера — совокупность всех блогов) все новых пользователей российской сети. К примеру, тема, о которой идет речь в этой книге — поиск по Яндексу — занимает умы многих. В блогах найдено 14 421 запись, в которых так или иначе задета тема поиска.
В блогах часто публикуются мнения о купленных товарах и отзывы о коммерческих услугах. Анализ поисковых запросов к службе показывает, что многие используют блогосферу для того, чтобы оценить общественное мнение по поводу того или иного товара или услуги. Четко выраженный коммерческий характер ряда запросов к службе позволяет говорить о ее эффективности в качестве рекламной площадки, поэтому клиенты системы контекстной рекламы Яндекс. Директ получили возможность разместить свои объявления на Поиске по блогам.
Впрочем, согласно прогнозу британской консалтинговой компании Gartner, в 2007 году в Интернете будет зафиксировано максимальное число сетевых дневников (блогов) — оно достигнет 100 млн. Но аналитики считают, что после этого блогосфера расти перестанет — практически все, кто хотел создать собственный онлайн-дневник, уже сделали это. Блоги на протяжении последних нескольких лет стали новым мощным инструментом вовлечения в Сеть таких несвойственных Интернету групп граждан, как домохозяйки, солидные бизнесмены и профессора. Впрочем, если количественные изменения блогосферы уже на исходе, то качественные только начались. Блоги все чаще заводят политики, деятели культуры и главы компаний.
Ежедневно в России регистрируют блоги около 100 новых участников. Казалось бы, все увеличивающаяся популярность онлайн-дневников позволяет возложить на это средство многие важные задачи, например образовательные, — недаром же заводят блоги главы крупных образовательных учреждений, к примеру декан журфака МГУ Ясен Засурский. (РБК daily от 31.01.2007 г.)
Однако найти что-либо в блогах так же сложно, как и в Интернете. Можно читать блоги своих любимых авторов, но при этом упустить множество еще более интересных. Серьезного поиска по блогам на тот момент, когда они стали расти как грибы после дождя, не существовало. Но крупным поисковым системам отказаться от этого огромнейшего куска информации было нельзя. Решение следовало принять лишь одно — создать поисковых роботов, которые могли бы индексировать блоги. Такой поиск создали и запустили на Яндексе в декабре 2004 года, а через два года он был заменен существенно улучшенной версией.
Самое важное отличие поиска по блогам от основного поиска в Яндексе состоит в необходимости обеспечения оперативности индексирования. В этом поиск по блогам сравним с поиском по новостям. Поиск по блогам, как и новостной, построен на работе с RSS-лентами. В поиск по блогам, кроме них, включен и поиск по форумам, которые поддерживают RSS-формат. На первоначальном этапе проводилось индексирование всех блогов и форумов, в том числе и тех, что не являются отдельными проектами. К примеру, это могли быть форумы на новостных или специализированных сайтах. Большое внимание уделялось и индексации уже закрытых блогов или форумов, ценность которых заключается в их архивах. Чем больше будет охвачено таких сервисов, тем полнее будут представлены существующие в Сети неофициальные мнения на самые разные темы.
Яндекс — поисковая машина по русскоязычному Интернету. Не удивительно, что и на обработку из блогов в первую очередь попали те, что были предназначены для русскоговорящих. Однако в "Яндексе" заявляют, что среди индексируемых проектов могут оказаться и популярные английские блоги. Как указано на сайте компании, это могут быть проекты, "представляющие интерес для русскоязычных пользователей Яндекса".
Но вернемся к главному — что же представляет собой поиск по блогам на Яндексе? Это страница, где можно ввести поисковую фразу, и Яндекс выполнит поиск в блогосфере. Но это еще и большое количество дополнительной информации, помогающей понять, что в настоящий момент интересует пользователей Интернета, из чего складывается общественное мнение виртуального сообщества.
1.11.2. Каталог блогов
Итак, на странице поиска (http://blogs.yandex.ru/) на первом месте, хотя и набранные мелким шрифтом, размещены ссылки на разделы специализированного каталога блогов. На момент, когда просматривался этот каталог, в него было внесено 1455 блогов, разнесенных по 8 категориям. Деловые блоги и блоги Юмор, Развлечения и Общество, Дом и Творчество (рис. 1.32). В каждом разделе выделено по три самых популярных на текущий момент блога. Если щелкнуть на ссылке с названия раздела, попадаешь на страницу, где так же, как в каталоге сайтов, размещены ссылки на блоги, включенные в этот раздел.
Каждая ссылка представлена названием блога, рядом с которой размещен значок RSS. Щелкнув на нем, можно добавить RSS-ленту в свою коллекцию. Следом идет информация о том, сколько у этого блога читателей, сколько раз на него размещали ссылки в других блогах и форумах, какова авторитетность блога.
Рейтинг блогов формируется по нескольких критериям: количество постоянных читателей, количество комментариев в блоге. Основной критерий — количество и качество ссылок на дневник из других блогов. Качество определяется авторитетностью блоггера, который поставил ссылку на ваш дневник (или конкретный пост). Чем авторитетней блог ссылавшегося, тем эффективней для вас будет его ссылка. Например, ссылка из дневника Валеза или Черского сразу может поднять ваш дневник в рейтинге на 4–5 тысяч позиций вверх. Обновляется рейтинг раз в сутки. Рейтинг блогов и принцип его расчета вполне сравним с Индексом Цитируемости (тИЦ). Здесь также учитываются авторитетность блоггеров (как для сайтов — рейтинги ссылающихся сайтов), качество ссылок (так же как для тИЦ — ссылки с тематических сайтов).
Для блога попадание на первые страницы каталога означает одно — дальнейшее поднятие его рейтинга. Ведь здесь, как и в каталоге сайтов, смотрят обычно первые страницы и посещают блоги, ссылки на которые приведены именно на них.
1.11.3. Популярные записи
Обновление списка популярных записей происходит раз в сутки. Таких записей отбирается несколько десятков, но лишь несколько самых популярных выносится на титульную страницу раздела Поиска. Остальные можно посмотреть по ссылке Всего записей. Записи в этот список отбираются на основе количества ссылок на них среди других блоггеров, количества оставленных комментариев, авторитетности пишущего, некоторых других параметров. Список формируется автоматически.
1.11.4. Рейтинг блогов
Есть в Сети блоггеры, пользующиеся авторитетом у значительного количества читающих дневники. Их записи, размышления, репортажи стараются не пропускать, поэтому посетителей у них бывает большое количество. Прочитав интересную заметку, о ней рассказывают в своих дневниках, ставя на нее ссылку. Каждая такая ссылка повышает авторитетность написавшего исходный текст.
Рейтинг (рис. 1.33) учитывает не только число ссылающихся блогов, но и количество постоянных читателей. Может быть так, что по количеству ссылок блоггер занимает первое место, а по количеству постоянных читателей его "обходят" другие блоггеры. Так, на момент написания по авторитетности, учитывающей несколько параметров, на первом месте с рейтингом 104 332 находился блоггер с ником drugoi, а по количеству читателей первое место занимал блоггер с ником doctor_livsy, у которого постоянных читателей было 14 106.
На авторитетность блога оказывают влияние и такие параметры, как количество комментариев в блоге, авторитетность ссылающихся, положение блога в блогосфере и ряд других данных.
В рейтинге участвуют все блоги, известные Поиску по блогам Яндекса, за исключением сплогов (блогов, содержащих поисковый спам) и новостных блогов, а сам рейтинг обновляется раз в сутки.
Если перейти по ссылке с заголовка Рейтинг блогов, мы попадем на страницу со списком блоггеров. Это список можно отсортировать как по авторитетности, так и по количеству постоянных читателей. Кроме того, на этой же странице есть еще одна интересная колонка — распределение блоггеров по сервисам. Наибольшее количество блоггеров держат свои дневники на LiveJournal, таких было немного более 411 тыс. На втором месте — сервис LiveInternet, у которого было почти 365 тыс. дневников.
Но многие авторитетные блоггеры ведут собственный дневник вне этих популярных блог-хостинговых служб. Автономный блог — это блог, представляющий собой сайт на отдельном домене с установленной и настроенной на нем системой публикации записей. Таковы, к примеру, блоггеры Леонид Каганов, чья авторитетность оценивается числом 43 090, Алекс Экслер, Владимир Владимирович. "Независимых" блоггеров не так уж и мало, их количество приближается к десяти тысячам.
1.11.5. Рейтинг сервисов
Сервисов, предоставляющих услуги размещения и ведения блогов, достаточно много. Но среди русскоязычной части Всемирной паутины есть наиболее популярные. Служба Поиск по блогам ведет постоянно обновляющийся их рейтинг (рис. 1.34). Если вначале, когда эта служба только появилась, неоспоримое преимущество было за сервисом LiveJournal, то в последнее время с ним на равных конкурирует российский сервис для блоггеров — Livelnternet. Все остальные блог-сервисы значительно уступают в рейтинге. (Впрочем, это совершенно не означает, что там нет отличных блоггеров.)
Оценка блог-сервисов проводится по количеству сообщений, размещенных в течение суток. При этом не учитываются непубличные сообщения, то есть не предназначенные для широкого доступа. Поэтому внутренняя статистика сервисов может отличаться от предоставляемой Яндексом. Второе отличие внутренней статистики и статистики Яндекса заключается в том, что Яндекс учитывает только те сообщения, которые созданы русскоязычными пользователями. Всего в рейтинге сервисов на момент получения статистики участвовало 39 блог-хостингов.
1.11.6. Популярные категории
Если до этого шел разговор о рейтинге блоггеров, сервисов, наиболее популярных записей, то теперь речь пойдет о категориях. Категорию своему сообщению устанавливают их авторы. Как, почему, отчего — зависит от темы, от моды, от настроения. Тем не менее авторы сознают, что поиск блогов выполняется и по категориям, поэтому стараются, чтобы выбранная ими категория соответствовала теме сообщения.
Список популярных категорий строится на основе данных за последние сутки, при этом ежечасно обновляется. Выглядит список популярных категорий несколько необычно, особенно по сравнению с остальными индикаторами. Такому представлению популярных категорий есть специальное название — облако тегов.
(англ. folksonomy, от folk — народный + taxonomy — таксономия) неологизм, обозначающий практику совместной категоризации посредством произвольно выбираемых ключевых слов. Другими словами, это понятие относится к спонтанному сотрудничеству группы людей с целью организации информации в категории, которая обращает на себя внимание благодаря тому, что она полностью отличается от традиционных формальных методов фасетной классификации. Как правило, это явление возникает только в неиерархических сообществах, таких как общедоступные веб-сайты, а не в многоуровневых коллективах. Так как организаторы информации обычно являются ее же основными пользователями, фолксономия производит результаты, более точно отражающие совокупную концептуальную модель информации всей группы.
Примером фолксономической организации контента можно считать "облако тегов" — представленные в произвольном порядке ключевые слова записей или страниц, где размер шрифта ключевого слова тем выше, чем больше раз оно встречается. Одними из первых "облако тегов" стали применять зарубежные сайты, построенные по принципу Веб 2.0. Это служба закладок del.icio.us, фотоблог Flickr. Среди отечественных сайтов первыми, внедрившими "облако тегов" в качестве рубрикатора, можно назвать Мой Круг и Habrahabr.
Источник: Википедия (http://ru.wikipedia.org/wiki/).
Таким образом, получается, что "облако" блоггеры строят сами, выбирая для своих записей собственные слова-определения. Ну а поскольку каждый пишет определяющее сообщение слово по-разному, то в результате получается, что некоторые теги похожи, но не являются совершенно одинаковыми. Поэтому при определении "облака тегов" происходит "склеивание" похожих категорий для формирования окончательного результата.
Некоторые теги попадают в наиболее популярные категории часто, другие появляются в связи с какими-либо событиями. А вот теги Музыка, Фото, Видео находятся в облаке почти постоянно. И не всегда это связано с интересом к обсуждаемой теме. Например, тег Фото вероятнее всего находится среди лидеров из-за того, что среди блоггеров очень много любителей фотографии, размещающих в дневниках свои фото.
Переход по заголовку Популярные категории приводит на страницу с уже обычным перечнем первой сотни тегов, отсортированных по количеству сообщений, в которых они присутствуют. Если тег изменяет свое место в рейтинге, рядом с ним показывается направление его перемещения (вверх или вниз) и количество позиций, на которое он переместился по сравнению с предыдущей отметкой. А цифра рядом с тегом говорит о том, сколько записей за истекшие сутки отмечены им. Переход же с тега приводит на страницу, где показываются уже не только последние, а все записи, имеющие этот же тег.
1.11.7. Популярные новости
Отдельным блоком среди остальных индикаторов выделен рейтинг новостей сервиса Яндекс. Новости. Это те новости, которые в наибольшей степени обсуждаются в блогах. Список популярных новостей обновляется каждые 5-10 минут. Если перейти по ссылке из этого списка, увидим страницу со ссылками на блоги, в которых эта новость обсуждается. По сравнению с каталогом сайтов, для списка блогов введен еще один параметр — время с момента обнаружения и индексирования записи. И, как и для поиска по веб-сайтам, ссылка на сохраненную копию сообщения. Нужно отметить, что новости, вызывающие интерес, начинают обсуждаться буквально с первых минут после их публикации — произошло, например, воссоединение Русской православной церкви, и сразу новость попала в число самых популярных и обсуждаемых.
1.11.8. Самое-самое интересное
И еще один блок индикаторов. Здесь формируется рейтинг по нескольким направлениям — самые обсуждаемые фильмы, сериалы, выставки, театры, СМИ, спорт. И здесь же — рейтинг запросов того, что ищут в блогах.
К сожалению, главную страницу поиска по блогам пользователи знают плохо. Например, новость о воссоединении Русской православной церкви находилась в списке наиболее обсуждаемых. Казалось бы, нет ничего проще, как перейти по ссылке, чтобы получить список всех блогов (и блоггеров), где ведется обсуждение по этой теме. Так нет, информацию об этом ищут через поиск и фраза "Русская православная церковь" попадает в число наиболее востребованных.
Для каждого индикатора показывается, сколько различных фильмов или сериалов обсуждается в блогах в течение последних суток. В рейтинге запросов — 50 наиболее популярных.
Наверняка, многим пользователям было бы интересно узнать, что же было популярным или наиболее востребованным день, неделю, месяц назад. Узнать это несложно. Перейдите с заголовка любого индикатора или по ссылке со строки, в которой приводится общее количество отслеживаемых тем. На новой странице приводится список тем текущего дня. А вот под ним есть ссылки по датам, месяцам и годам. Выбирайте любую дату и смотрите, что же в тот день интересовало блоггеров и читателей. Но имейте в виду, что архив таких данных начинается только с сентября 2006 года.
Для тематических индикаторов есть возможность посмотреть еще и обобщенные сведения за неделю, месяц, полгода. Такие списки строятся на основе данных за последние полгода (хотя можно посмотреть рейтинг и за другие периоды времени), обновляются ежечасно и содержат названия выставок (фильмов, сериалов и т. д.), количество блоггеров, упоминающих их, а также изменение позиции в списке за последнюю неделю.
1.11.9. Особенности поиска по блогам
Как по веб-сайтам, по картинкам или товарам, для поиска по блогам используются те же самые операторы языка запросов. Но есть дополнительные операторы, связанные с возможностями использования блогов. Таких операторов пять.
□ Оператор server — основной объем блогов размещается на сравнительно небольшом количестве блог-хостингов (LJ, LI и др.). Для ограничения области поиска был добавлен оператор server, который позволяет ограничить поиск определенным блог-хостингом.
Синтаксисзапроса: запрос << server="livejournal.com".
□ Оператор author — может использоваться только для блогов, расположенных на блог-хостинге LiveJournal. Ограничивает область поиска записями определенного автора.
Синтаксисзапроса: запрос << author="kubok".
□ Оператор music — существуют некоторые блоги, позволяющие хранить информацию о том, какую музыку слушал автор записи в момент ее написания. Оператор позволяет искать только ту информацию, которую авторы записывали под определенную музыку.
Синтаксис запроса: music=(Picnic).
□ Оператор mood — некоторые блоги разрешают своим пользователям делать пометку, какое настроение было у автора записи в то время, когда он ее писал. Используя оператор mood, вы сможете найти записи, сделанные в минуты хорошего настроения, или наоборот, плохого.
Синтаксис такого запроса: mood=(хорошее | отличное).
□ Оператор category — о том, что такое категории, мы говорили ранее. А теперь вы сможете не только пользоваться "облаком тегов", но и самостоятельно выполнять поиск по любым, даже не попавшим в "облако", тегам.
Синтаксис запроса: category=(sign) или category=(судьба | ананка).
В одном запросе можно использовать несколько операторов, объединяя их по правилам языка запросов.
1.11.10. Расширенный поиск по блогам
То, о чем говорилось ранее, не является поиском по блогам в полном смысле этого слова. Все индикаторы формирует и показывает вам сервис. Но среди ссылок в индикаторах лишь малая толика того, о чем пишут в дневниках и форумах. И найти то, что нужно именно вам, можно с помощью обычного поиска. Вписываете в строку поиска нужное выражение, нажимаете кнопку Найти или клавишу
Формировать запросы можно с использованием всех тех поисковых операторов, о которых уже говорилось в этой главе. Поиск устойчивого выражения и поиск слов, расположенных на определенном расстоянии друг от друга, исключение или наоборот, обязательное вхождение определенных слов или выражений. Вот пример. Ищем, что у нас может быть в результатах по слову Сочи. Если провести поиск по этому слову так, как оно сейчас написано, в результаты попадут заметки, содержащие и название города Сочи, и слова, в которых Сочи составляют только их часть, например — сочился, сочится. Но если использовать специальный оператор и в поле поиска записать выражение ! Сочи, то лишних заметок в результатах поиска уже не будет.
Найденные результаты сортируются по дате публикации. Но сортировку можно изменить на сортировку по релевантности. И в обоих случаях можно результаты сгруппировать по авторам.
Как и при поиске по веб-документам, для поиска по блогам предлагается кроме простого, еще и расширенный вариант. Найдите под строкой поиска ссылку Расширенный поиск и перейдите по ней. На новой странице (рис. 1.35) уже не будет никаких индикаторов. Здесь лишь поля для ввода дополнительных условий. Если вы внимательно к ним присмотритесь, то обнаружите, что многие поля реализуют описанные в предыдущем разделе дополнительные операторы поиска по блогам.
Таких полей пять — Сервер, Автор, Настроение, Музыка, Категория. Используя расширенный вариант поиска, вам не придется запоминать и руками вписывать эти дополнительные операторы. Обратите внимание, что для полей Сервер, Автор, Категория можно введенные значения использовать в качестве исключений — искать по всем остальным, за исключением вписанного в поле.
Кроме этих полей, для уточнения запроса используются и другие параметры (интервал дат, наличие в тексте определенной ссылки и др.).
Вы можете ограничить поиск записей в дневниках и форумах диапазоном дат. Этот диапазон можно вписать самому, а можно выбрать один из четырех предопределенных диапазонов — сегодня, последние три дня, последняя неделя, последний месяц.
Иногда бывает необходимо ограничить область поиска только блогами или форумами. Для этого предназначены три переключателя, позволяющие определить нужную область. Их можно выставлять в различной комбинации, как по одному, так и попарно.
Использование следующего поля позволяет выбирать записи, содержащие определенную ссылку. Подобный метод используется для определения одной из характеристик авторитетности блоггера, когда по записям отыскивают ссылки на его дневник. И еще один ограничитель поиска состоит в определении поиска по определенным RSS-потокам.
Поиск — поиском, но, как и при поиске по новостям, бывает интересно оформить подписку на поисковый запрос. Сделать это довольно просто. При поиске по любому запросу показывается ссылка RSS-поток по запросу…, которая ведет на RSS-документ с результатами поиска. Используя программы-аггрегаторы RSS, можно удобным способом получать уведомления о новых сообщениях по интересующему запросу. По умолчанию найденные сообщения не сгруппированы по авторам, однако вы можете получить RSS с любой необходимой сортировкой или группировкой, заменив в соответствующем URL search.xml на search.rss.