Яндекс. Почта — сервис, безусловно, нужный и удобный. Было бы не так — не пользовались бы им сотни и сотни тысяч. Но "плюс" этой почты в некоторых случаях оборачивается "минусом". Некоторые компании, предлагающие, к примеру, программное обеспечение, не склонны предоставлять временные лицензионные ключи пользователям, чьи почтовые ящики находятся на публичных бесплатных сервисах. Поскольку мне это приходится делать часто, могу вполне ответственно заявить, что далеко не каждая компания вышлет реквизиты для скачивания программы или временный лицензионный ключ на почтовый адрес, расположенный на Яндекс. Почте.
Дмитрий Иванов — директор по проектам компании "Яндекс" с 2005 года.
Работу в "Яндексе" начал в 2003 году в качестве руководителя службы Яндекс. Новости. Ранее Дмитрий возглавлял интернет-департамент Фонда эффективной политики, где руководил разработкой и продвижением медиапроектов в Интернете.
Дмитрий окончил исторический факультет МГУ, имеет степень кандидата политических наук.
Глава 3Читаем новости
3.1. Что такое Яндекс. Новости
В Интернете ищут не только статичную информацию, раз опубликованную и редко изменяющуюся, но и текущую, быстроменяющуюся. И это несмотря на наличие огромного числа привычных информационных источников — радио и телевидения, газет и журналов. С каждый годом все большее количество людей читает текущие новости в онлайне. Для одних такой способ получения информации является наиболее быстрым (например, для игроков на бирже), для других — наиболее удобным (не надо приобретать десятки газет, которые через день будут выброшены). Особенно удобен способ получения новостной информации через Интернет тогда, когда хочется узнать различные точки зрения на одно и то же событие. А в этом случае одного, пусть даже и любимого, сайта бывает недостаточно. Приходится посещать сайты разных информационных агентств или изданий, при этом существует большая вероятность, что наиболее интересные мнения найдены не будут.
Значительно проще следить за новостями с помощью сервиса, который собирает их с различных сайтов, агрегирует по темам, релевантности, времени публикации. Такие сервисы существуют, и их немало. Как правило, это сервисы, которые сами не являются производителями контента. Какому из подобных сервисов отдаст предпочтение тот или иной человек, зависит от возможностей, им предоставляемых, удобства использования, качественности и своевременности подаваемой информации. В число наиболее посещаемых и, следовательно, наиболее удобных и качественных сервисов такого рода, входят и Яндекс. Новости.
3.1.1. С чего начинались Яндекс. Новости
Начало работы с новостными сайтами у поисковика складывалось примерно так же, как и работа с веб-ресурсами. Поисковые роботы обходили новостные сайты, собирали контент, добавляли его в Индекс, после чего посетители поисковой системы могли найти в ней не только информацию из документов, но и из новостей. Отличие было в том, что новостные сайты обновляют свою информацию на порядки чаще, чем иные сетевые ресурсы. Поэтому частота обхода роботами новостных сайтов была значительно выше, доходя для наиболее значимых ресурсов до 5-10 минут. Какое-то время уходило на индексирование, после чего информация становилась доступной для поиска.
Яндекс. Новости открылись в июне 2000 года и включали в поисковую базу информацию из пятнадцати источников. Этот сервис был первой полностью автоматической службой сбора и обработки новостей. Новости не только индексировались и помещались в Индекс, но также раскладывались по тематическим рубрикам. Новостная база стала одной из первых в перечне дополнительных параллельных поисков Яндекса — заголовки новостей можно было получить по результатам поискового запроса на отдельной вкладке результатов поиска.
Но новостных источников становилось все больше. И уже к 2003 году их количество перевалило за сотню (сегодня партнерами Яндекс. Новостей являются почти 2000 интернет-СМИ, и в их числе — информационные агентства широкого профиля, электронные версии печатных СМИ, сетевые издания, сайты телеканалов и радиостанций, тематические, специализированные и региональные ресурсы). Стало ясно, что первоначальный способ сбора и индексирования новостей уже перестал себя оправдывать, появилось множество дублирующих новостей, выполненных по типу copy+paste. Пришло время менять принцип сбора и обработки новостей.
В том море новостей, которое обрушилось на поисковую систему, нужно было выбрать наиболее важные, значимые новости. Это стало одной из первоочередных задач развития сервиса. А для этого необходимо было научиться, во-первых, находить и соединять сообщения на одну тему, а, во-вторых, упорядочивать сообщения по важности — для того чтобы общественно значимые события последних нескольких часов или всего дня оказывались бы максимально экспонированы.
Как собрать в едином сюжете новости, опубликованные в различных источниках? В почтовой службе это легче — есть исходное письмо, и если есть ответы на него, то они "сцепляются" друг с другом и попадают в одно обсуждение. В новостях все намного сложнее — нет единого названия, тексты сообщений могут отличаться друг от друга весьма значительно. В то же время новости относятся к одному и тому же событию, следовательно, должны попасть в один сюжет. И вот что по этому поводу говорят разработчики системы поиска по новостям:
Центральная задача, которая стояла перед нами, — научиться отождествлять сообщения, относящиеся к одному и тому же сюжету. Очевидно, что эта задача лучше всего решается анализом текста и поиском максимально похожих документов.
Для определения попарной текстуальной близости сообщений мы использовали модифицированный для небольших однородных текстов алгоритм поиска похожих документов и алгоритм нечеткого поиска по кворуму. Как и любой поиск Яндекса, этот алгоритм работает с учетом морфологических вариантов русских и английских слов, причем для агнонимов (то есть "неизвестных системе слов"), составляющих в Яндекс. Новостях значительную часть словника, используется методика нахождения ближайших морфологических эквивалентов. Для частичного снятия морфологической омонимии в Яндекс. Новостях используются статистические эвристики.
Затем матрица попарной близости обрабатывается алгоритмом кластеризации с тщательно подобранным радиусом. Для того чтобы увеличить связность крупных сюжетов, мы дополнительно использовали кластеризацию второго уровня, собирая атомарные кластеры в более крупные. Такой алгоритм дает полноту около 85–90 % (то есть не более 15 % сообщений ошибочно не попадают в сюжеты) и обеспечивает точность около 95 % — в сюжетах редко встречаются сообщения на другие темы.
Отдельной задачей стало оптимальное представление и аннотирование сюжета: выбор наилучшего заголовка (зависит от его длины, свежести и максимального соответствия теме) и "цитатной" аннотации, необходимой для короткого и точного описания сюжета. Кроме того, появилась группировка по сюжетам не только текстовых сообщений, но и фото-, аудио- и видеофайлов.
Немного сложно, особенно в плане используемых терминов, но суть все же понятна.
Собрать новости, опубликованные в различных изданиях, в один сюжет — только часть того, что должен предоставить пользователю сервис. И по тематикам распределить — тоже только часть. А что из этих новостей вывести на первый план, что можно оставить в общем списке? Очередная задача — какие принципы положить в основу ранжирования.
Безусловно, основными факторами, влияющими на ранжирование, являются свежесть и размер сюжета (не новости как таковой!). Свежесть — это время публикации новостей в сюжете, размер сюжета отражает общий интерес СМИ к конкретной теме. Чем интереснее для читателей тема, тем большее количество СМИ опубликует новость и даст свои комментарии. Кроме того, учитываются количество и схожесть сообщений от конкретных изданий. Не секрет, что издания, как и веб-сайты, имеют разный рейтинг, складывающийся из многих показателей. Такие издания, как РБК, Inopressa.ru, Лента. ru будут иметь более высокий рейтинг по многим новостным тематикам, нежели региональные издания, чей рейтинг может быть выше в части новостей, касающихся лишь их региона.
Дополнительно для ранжирования сюжетов используется глобальный анализ сходства, позволяющий, в частности, находить интернет-издания с высокой степенью текстуального пересечения и учитывать этот фактор в ранжировании сюжетов.
Еще один показатель, оказывающий влияние на ранжирование сюжетов, — это наша с вами, посетителями Яндекса, работа с поиском. Количество запросов в минуту составляет при обычной дневной загрузке около 2 тыс. Этих данных вполне достаточно для того, чтобы учитывать аномалии запросов для ранжирования сюжетов в Новостях. (Ведь что такое аномалия в запросах — это наш с вами интерес к событиям.)
3.1.2. Формирование новостного блока
У Яндекс. Новостей свыше полутора тысяч информационных партнеров. Казалось бы, зачем информационным изданиям отдавать свои новости для публикации на другом ресурсе? Это должно было бы понижать посещаемость основного поставщика новостей. На самом деле все получается наоборот.
Яндекс. Новости не занимаются републикацией новостей. На новостных страницах размещается лишь заголовок и краткая аннотация. Для того чтобы прочитать новость полностью, посетитель должен будет перейти на сайт-первоисточник. Следовательно, количество посетителей у информационного сайта не только не уменьшается, а наоборот, возрастает.
Для информационных партнеров Яндекс разработал специальную партнерскую программу, где каждый участник принимает на себя определенные обязательства. К партнерству приглашаются не только центральные издания, но и региональные, что позволяет Яндекс. Новостям формировать региональные новостные ленты. Но не все издания могут стать партнерами. Обязательным условием является соблюдение партнерами действующего российского законодательства. Партнеры службы — профессиональные издания, предоставляющие качественную информацию. Еще одно условие партнерства в том, что транслируемые данные должны находиться в свободном бесплатном доступе в Интернете (необходимость регистрации считается ограничением свободного доступа).
Не будут информационными партнерами издания, занимающиеся плагиатом, не имеющие собственных источников информации и публикующие только перепечатки уже опубликованных новостей. Не смогут стать информационными партнерами издания, относящие себя к "желтой" прессе. Повышать посещаемость за счет такого рода новостей не является целью Яндекса.
Если в начале существования службы Новостей специальный поисковый робот Яндекса обходил новостные ресурсы, собирая и индексируя информацию, то теперь ситуация изменилась. Информационные партнеры Яндекса сами (с использованием структуры экспортных файлов, предлагаемой Яндексом) предоставляют Новостям свою информацию. Как правило, входящая информация обрабатывается и индексируется каждые 10 минут. При этом издания не обязаны выдавать свои новости с такой же частотой, но частота обновления должна быть заявлена изданием при заключении партнерского соглашения. По словам Елены Колмановской, соглашения о партнерстве заключены у Яндекса со всеми средствами информации, которые предоставляют свои публикации для службы Новостей. В противном случае может возникнуть ситуация, аналогичная тому, что случилось с Google.
Поисковая интернет-служба Google оштрафована бельгийским судом на 3 млн евро за нарушение авторских прав на публикации бельгийских СМИ.
Ряд ведущих бельгийских франкоязычных СМИ в начале осени прошлого года выдвинули судебный иск против Google. Издатели обвинили американскую компанию в том, что она открывает доступ к их публикациям, размещенным на интернет-сайтах бельгийских СМИ, без предварительной подписки или оплаты.
Источник: Русская служба новостей, http://www.rusnovosti.ru.
Многие новостные издания часть своей информации распространяют по подписке. Как и когда эта информация может быть предоставлена Яндекс. Новостями в своих лентах, специально оговаривается при заключении соглашения между партнерами. Такой подход минимизирует вероятность возникновения конфликтных ситуаций, а посетители Новостей могут получить максимально доступную информацию.
О том, в каком виде информация попадает на индексацию в Яндекс, можно узнать в опубликованном на Яндексе материале для СМИ. В частности, там сказано, что на Яндекс отправляется полный текст сообщения, который используется только для индексации поисковым роботом и на страницах Яндекса не размещается. Но на основе полного текста автоматически формируется краткая аннотация, которая и будет опубликована вместе с заголовком и адресом, по которому размещена новость на сайте партнера.
Интересно отношение Яндекса к заголовкам новостей — ограничений на количество символов в заголовке, аннотации и полном тексте нет, однако при ранжировании заголовков новостей на страницах Яндекса их размер может учитываться (в таком случае приоритет отдается "средним" заголовкам, то есть не очень коротким и не очень длинным).
На странице базы данных СМИ (http://news.yandex.ru/smi/) можно познакомиться с полным списком информационных партнеров. Они разбиты на 4 группы:
□ центральные;
□ зарубежные;
□ региональные;
□ специализированные.
В каждой из групп СМИ в свою очередь могут быть сгруппированы по видам — информационные агентства, пресса, радио и др. Среди партнеров наибольшее количество составляют специализированные СМИ, на втором месте идут региональные.
Сайт формируется полностью автоматически, что гарантирует беспристрастное отражение информационной картины дня. Отсутствие человеческого вмешательства позволяет объективно формировать сюжеты, помещая рядом сообщения, которые могут содержать совершенно разные точки зрения. Таким образом, пользователь получает возможность сравнить, как одно и то же событие отражено в различных СМИ.
Яндекс. Новости обновляются в режиме реального времени 24 часа в сутки. Каждое поступившее сообщение об актуальном событии сразу же включается в посвященный этому событию сюжет. Аннотирование сюжетов также происходит автоматически. Актуальные заголовки и аннотации формируются компьютерной программой. При этом тексты аннотаций выбираются так, чтобы дополнять информацию из заголовка.
В связи с тем, что среди партнеров Яндекс. Новостей есть телеканалы и радиостанции, новости могут быть представлены и в виде аудио- и видеофайлов, которые также представлены заголовком и краткой аннотацией, а ссылка с таких новостей приведет вас на соответствующий файл.
Такой подход снимает ответственность с Яндекс. Новостей за подачу материала, возможные опечатки или текстуальные ошибки, допущенные источником информации. Попавшее в базу Яндекса новостное сообщение может быть удалено лишь в том исключительном случае, если оно содержит ошибку в оформлении (например, транслируется лишь часть заголовка и т. п.) и приводит к техническим сбоям в работе Яндекс. Новостей.
3.1.3. Как выглядят Яндекс. Новости
Набрав в браузере адрес главной страницы Яндекса — yandex.ru — вы увидите не только строку для ввода поискового запроса, разделы каталога и информеры. Над строкой ввода будут представлены пять главных на этот час новостей дня — только их заголовки. Эти же новости, но уже с аннотациями, будут представлены и на основной странице новостного раздела — news.yandex.ru. Следом за ними только заголовками будет представлена десятка новостей, следующая за первыми по важности (рис. 3.1).
Обратите внимание, что главная новостная страница максимально облегчена для загрузки — здесь отсутствует какая-либо графика, реклама. Загрузка страницы осуществляется быстро даже на плохих каналах связи. Тем не менее информации на странице вполне достаточно, чтобы составить представление об актуальных событиях дня.
Аналогично оформлены и тематические новостные разделы. Чтобы попасть в них, выберите нужный в левой колонке. Для некоторых разделов введены дополнительные подрубрики (например, для раздела Политика добавлена подрубрика Выборы). Подрубрики могут меняться в зависимости от конъюнктуры, от того, что может привлекать наибольшее внимание. Щелчок на названии рубрики переводит вас на тематическую страницу, где точно так же будет представлена пятерка новостей с аннотациями (но только по тематике данной рубрики), и далее десятка новостей, представленных своими заголовками.
Теперь обратите внимание на строку, размещенную над списком новостей (рис. 3.2), — сколько источников обработано, на какой момент времени. Это статистика. А вот в следующей строке, где представлено название раздела, можно увидеть, что существуют две раздельные новостные подборки по каждой тематике, одна для России, другая — для Украины. Какие-то новости окажутся общими, но многие новости и сюжеты будут основываться на региональных материалах.
Представленные на страницах разделов новости (сюжеты) не ограничиваются только своим названием и аннотацией для ведущих новостей. Помимо этого, для каждого из них присутствует дополнительная информация. Возьмем любую новость (рис. 3.3). Сразу за заголовком в скобках приведено количество публикаций в различных СМИ, связанных с этим событием и попавших в сюжет. Для некоторых новостей дополнительная информация на этом исчерпывается, но для большинства дополнена и другими данными.
Новости не только читают, о них высказывают и свои мнения. Обсуждают в блогах и на форумах. И следующая цифра в строке заголовка показывает, сколько записей (мнений) было сделано в блогах при обсуждении этой новости. Цифра, показывающая количество записей, является ссылкой на страницу поиска по блогам, перейдя по которой вы получите полный список этих записей.
Наконец, для ряда новостей может присутствовать еще одна ссылка — карта (рис. 3.4). Эта ссылка означает, что на карте отмечено место, где произошло данное событие. К примеру, когда в московском метро был открыт памятник бездомной собаке, место, где это произошло, было отмечено на карте Москвы, и его можно было посмотреть, перейдя по ссылке.
Если вас заинтересовала какая-либо новость, опубликованная на странице главного или тематического раздела, вы можете перейти на страницу сюжета, щелкнув на его названии.
На странице сюжета (рис. 3.5) представлены отобранные по содержательной близости новости различных источников, отсортированные в хронологическом порядке. Причем здесь подбираются не только текстовые сообщения, но также фотографии, аудио- и видеофайлы, входящие в сюжет. По умолчанию на странице сюжета показывается 30 заголовков, но под этим списком есть ссылка, по которой можно просмотреть все новости, включенные в сюжет, с их аннотациями.
Страница сюжета открывается, как правило, фотографией с места событий, а также более развернутой, чем на тематической странице, аннотацией. При этом аннотация может быть сборная, полученная из различных публикаций.
Следом приводится статистическая информация — сколько входит в этот сюжет сообщений, фотографий и других файлов, сколько высказано по этому поводу мнений в блогах. И не менее важная информация — какое информационное издание первым опубликовало эту новость (приводится название издания, дата и точное время публикации).
В конце списка новостей может присутствовать ссылка на другие сюжеты, связанные с данным. К примеру, с обсуждением установки памятника бездомной собаке Яндекс. Новости связали сюжет под названием "Суд рассмотрит дело охранника метро, убившего пса Рыжика". Поскольку все формирование раздела новостей происходит автоматически, остается лишь порадоваться такому точному определению тематически связанных сюжетов.
Если в новости упоминается географический адрес, связанный с событием, то в дополнение сюжет будет проиллюстрирован фрагментом карты города (пока поддерживается 10 городов, среди которых Москва, Киев, Екатеринбург, Самара). Как уже говорилось, в новости про памятник собаке упоминается станция метро, поэтому на странице сюжета приводится фрагмент карты Москвы (см. рис. 3.4) в районе упомянутой станции. Если вы захотите рассмотреть карту подробнее, то сможете сделать это с помощью одного щелчка, перейдя на большую карту в Яндекс. Картах.
Выделение адресов из контента проводится с помощью технологии извлечения данных, которая применяется и для выделения других важных компонентов сообщений (например, действующих лиц).
С технологической точки зрения интересной задачей оказалось определение города, к которому относится упомянутый в новости адрес. Дело в том, что авторы новостных сообщений достаточно редко пишут город непосредственно рядом с улицей, — говорит Лев Гершензон, ведущий разработчик компании "Яндекс". — Для решения этой задачи пришлось из каждого новостного сообщения выделять все названия населенных пунктов, а потом выбирать самое "релевантное" — в зависимости от количества вхождений в документ, от расположения в документе и т. п.
Очень часто в связи с тем или иным событием в онлайновых изданиях публикуются высказывания известных личностей. Наиболее интересные высказывания могут быть подобраны в специальный блок, который называется Сюжет в лицах. На странице сюжета в этом блоке представлены фамилии людей, выразивших свое отношение к обсуждаемому событию, либо тем или иным образом с ним связанные. Например, в сюжете, посвященном эмбарго на поставку мяса из Польши, в блоке Сюжет в лицах приведена фамилия Маркоса Киприану (рис. 3.6), специального уполномоченного по здравоохранению ЕС. Перейдя по ссылке с фамилии, попадаешь на страницу, посвященную этому человеку, где информация о нем представлена в виде четырех блоков:
□ кто такой Маркос Киприану (в данном случае ЕС Маркос);
□ Работа;
□ Что он говорит по поводу события;
□ Что о нем говорят по поводу события.
Кстати, обратите внимание на то, что в данном случае обработка информации о человеке была выполнена некорректно. Вместо его имени была подставлена аббревиатура "ЕС", присутствующая в тексте рядом с фамилией человека, что и привело к возникновению ошибки. А вот его имя было, похоже, принято за что-то, имеющее отношение к Кипру.
3.1.4. Поиск по Новостям
Для пользователя поиск по новостям выглядит совершенно так же, как и обычный поиск по веб-страницам. То же самое поисковое выражение, которое надо ввести в строку поиска, те же дополнительные параметры, позволяющие составлять сложные поисковые выражения. Поиск по новостям можно выполнять с главной страницы Яндекса, выполнив вначале общий поиск, а затем перейдя на вкладку Новости (параллельный поиск), либо перейти в раздел Яндекс. Новости и поиск выполнить с его главной страницы.
Отличие результатов поиска по новостям от поиска по веб-страницам заключается в том, что при поиске новостей включаются дополнительные алгоритмы, формирующие сюжеты, их аннотирование и ранжирование. В результате, задавая вопрос в Яндекс. Новостях, вы получите не просто список сообщений, соответствующих вашему запросу и отсортированный по времени и релевантности. Результаты поиска будут сгруппированы по сюжетам, а ранжирование по релевантности будет выполнено согласно стандартным принципам ранжирования, принятым на Яндексе. Ранжирование основано на числе и ранге всех найденных новостей внутри новостных сюжетов, при этом ранг одной новости определяется как ее свежесть с учетом приоритетов строгого текстуального совпадения. В то же время оставлена возможность изменить сортировку по сюжетам на сортировку результатов поиска по времени.
Вы можете спросить, будут ли найдены и представлены новости, соответствующие запросу, но не попавшие в какой-либо сюжет? Будут. Такие новости считаются сюжетом из одного сообщения, к которому применяются все правила выдачи и ранжирования, как к любому иному сюжету.
Для каждого найденного сюжета приводится статистика включенных в него сообщений и ссылка для просмотра сюжета полностью. В отличие от представления сюжета на страницах новостных разделов, к найденному сюжету не добавляется информация о его обсуждении в форумах. Вместо этого предлагается ссылка для поиска по блогам по вашему поисковому выражению.
Для поиска по новостям можно использовать дополнительные параметры, ужесточающие рамки поиска. Для этого надо со страницы Яндекс. Новости перейти на страницу расширенного поиска (не путайте его с расширенным поиском для поиска по веб-страницам).
Дополнительные ограничения для поиска распределены по четырем группам. В первой предлагается выбрать рубрику (или несколько рубрик), чьи новости вас интересуют. Вторая группа ограничений позволяет отобрать определенные СМИ, среди публикаций которых и будет выполняться поиск. Выборка производится из списка всех официальных партнеров Яндекса. Хотя список для удобства пользования рассортирован по алфавиту, непонятна система, по которой в этот список включаются издания, чьи названия начинаются с цифры (например, 3DNews). Хотя, если этим списком пользоваться постоянно, постепенно привыкаешь к тому, где искать те или иные издания.
Третье ограничение связано с выбором региона — поиск будет учитывать не только поисковое выражение, но и связь найденных новостей с выбранным регионом. Еще одно ограничение, которое вы можете наложить на поиск, позволяет определить период, за который вам нужно найти нужные новости. В качестве дополнительного параметра вы можете установить, сколько новостей будет показано на одной странице результатов поиска.
Если заданное поисковое выражение есть в новостях, будет сформирована страница результатов (рис. 3.7). Результаты по умолчанию отсортированы по релевантности, но есть возможность отсортировать и по дате публикации.
Перед выводом результатов выводится информация о найденном количестве новостей и ссылка на поиск в блогах. Далее располагаются результаты поиска, причем на первом месте выведены новости, сформированные в сюжеты. Далее — новости-"одиночки". Для сюжетов имеются ссылки на просмотр сюжетов в целом и показывается количество новостей, составляющих сюжет. В отличие от новостной ленты, для найденных новостей не даются ссылки на их обсуждение в блогах.
Если найденных новостей больше, чем может быть выведено на странице, внизу страницы будет размещена строка для перехода на другие страницы результатов поиска.
3.1.5. Немного истории, или Новости в лицах
Прежде чем перейти к следующей возможности, предоставляемой Новостями, немного истории. Предвестником пресс-портретов на Яндексе были Новости в лицах. Это одна из немногих разработок, выполненная сотрудниками Яндекса совместно со сторонней компанией. Соисполнителем разработки была компания "Интегрум" (http://www.integrum.ru/), крупнейший в мире электронный архив русскоязычных документов.
О том, как проводилась работа и с какими сложностями пришлось столкнуться разработчикам, рассказал один из создателей сервиса Лев Гершензон (http://company.yandex.ru/blog/?msg=100050&month=8&year=2005).
Идея делать автоматические именные указатели была навеяна журналом "Власть" и его "Лицами, упомянутыми в номере". Поскольку журналов, газет и прочих поставщиков текстовых документов в "Интегруме" больше трех тысяч, мы решили не мелочиться и сделать подобный именной указатель, но один для всех источников и полностью автоматический.
В большинстве случаев (малочисленные путины, фрадковы, грефы — не в счет), один человек за короткий промежуток времени (1–3 дня) упоминается как участник одного события. Мне показалось, что рубрики и сюжеты Яндекс. Новостей станут интереснее, а главное, читатель сможет быстрее и лучше понять, что к чему, если применить к ним ту же технологию.
Главной особенностью программы является отсутствие какого бы то ни было заранее заданного списка людей — новые несловарные фамилии автоматически определяются и приводятся к словарной форме по специфическому контексту (имя, инициалы и др.). Кроме того, с высокой точностью разграничиваются однофамильцы и разрешается родовая омонимия (ср. Валентина Матвиенко, Александра Лебедева — мужчина или женщина?).
А вот, например, с какими проблемами и ошибками пришлось столкнуться.
• Имена омонимичны обычным словам. В самом начале в "Сегодня в лицах" фигурировали такие персонажи: Гера Советского, Вячеслав Богу, Надежда Доброй.
• Фамилии могут совпадать с отчествами. Бывшие бизнес-партнеры Борис Абрамович Березовский и Роман Аркадьевич Абрамович и в придачу президент компании "КрасЭйр" Борис Михайлович Абрамович доставили нам немало хлопот.
• Некоторые фамилии склоняются, некоторые нет. И если их нет в словаре, по их внешнему виду (по буквам) понять, к какому типу относится фамилия (и если склоняется, то как) далеко не всегда удается. Ардзинба и Анкваба. Поняли, что первая фамилия в именительном падеже, а вторая — в родительном? А так похожи.
• Мужские и женские имена тоже очень часто имеют общие формы (см. ранее).
• Есть такие народы, в которых одного имени человеку недостаточно. Мы этого не понимаем и ошибаемся. Без энциклопедического багажа совершенно не понятно, сколько человек тут упомянуто: Джон Рональд Руэл Толкиен.
Как бы то ни было, но сервис Новости в лицах был создан, и через год после начала разработки был предъявлен посетителям. Сейчас этот сервис не выделяется отдельной страницей, как было при его создании, но превратился в поставщика информации для блоков Сюжеты в лицах.
Главной особенностью программы, анализирующей тексты новостей, является отсутствие заранее заданного списка персон — при обработке сообщения программа самостоятельно находит в тексте имена и фамилии и добавляет их в рейтинг.
Списки имен создаются отдельно для каждой рубрики, региона, сюжета и результатов поиска. Таким образом, пользователь может наблюдать, как меняется состав лиц, о которых пишут журналисты, от Нижнего Новгорода к Иркутску, кто сегодня является наиболее заметной фигурой спортивной сферы, а кто — культурной.
Рейтинги обновляются каждые 10 минут — одновременно с появлением новых сообщений на Яндекс. Новостях, — что позволяет быстро находить упоминания ньюсмейкеров в актуальных сюжетах. Списки имен представлены на всех страницах службы, когда данные позволяют набрать достаточную статистику.
Отзывы об этом сервисе превзошли все ожидания, захотелось двигаться дальше, и тогда появились пресс-портреты.
3.1.6. Пресс-портреты в Новостях
Читая новость о каком-либо событии, зачастую, если в тексте упоминается какой-либо человек, хочется узнать о нем побольше. Кто он такой, чем и когда занимался, какого его отношение к различным событиям. Самостоятельно собрать подобные сведения об интересующем вас человеке довольно сложно, для этого придется проводить обширный поиск нужной информации.
Яндекс. Новости решил выполнить эту работу за нас. Теперь в составе Новостей появился дополнительный сервис — пресс-портреты. Вот как было написано в пресс-релизе по поводу открытия этого сервиса:
В пресс-портрете на сегодняшний день представлено три типа сведений о человеке: свободные определения человека, послужной список и цитаты. Свободные определения — это звания (полковник, доцент), ученые степени (доктор экономических наук), профессии (литературный критик, известный адвокат) и любые другие описания (хороший семьянин, старый знакомый Маши Ивановой, самый богатый человек в мире). В послужной список входят факты, состоящие из названия организации (Юкос, Министерство экономического развития) и должности (президент, генеральный директор, секретарь), которую человек в ней занимал, занимает (или займет в будущем). В третьем блоке содержатся цитаты человека и цитаты о нем других людей. Каждый факт снабжен текстовой иллюстрацией фрагментом новостного сообщения, из которого была извлечена информация. Кроме того, для каждого факта можно получить все его упоминания в Яндекс. Новостях.
Справочная часть службы Яндекс. Новости состоит более чем из 1 млн пресс-портретов, 30 тыс. из которых обновляется ежедневно. Новостная служба Яндекса была открыта семь лет назад, поэтому большая часть пресс-портретов создана на основе анализа сообщений СМИ с 2000 года, в настоящее время к службе подключаются архивы новостных источников за предыдущие годы, что повышает полноту и точность сервиса.
Как и все остальные работы в Новостях, формирование пресс-портретов выполняется полностью автоматически. Поэтому одной из проблем является создание пресс-портретов для однофамильцев, когда совпадают еще и их имена и фамилии. Поэтому идеальный результат, когда одному человеку соответствует один пресс-портрет, получается не во всех случаях.
Примером может служить поиск человека Иван Иванов. На странице результатов поиска, помимо сюжетов и новостей, приведены ссылки на упоминающихся в этих новостях лиц. Но в списке наиболее известных лиц Ивана Иванова нет. Впрочем, под списком ведущей пятерки есть ссылка на все пресс-портреты, относящиеся к этому поиску, а их 93. Перейдя по этой ссылке, увидим список, в котором "Иван Иванов" встречается на первой странице, затем еще несколько раз в продолжении этого списка.
Искать людей можно не только по фамилии (например, Черномырдин или Михаил Булгаков), но и по названию организации (например, Антей, ibm или Палата лордов) — в этом случае будут найдены все, кто, по сведениям СМИ, имеет или имел к ней отношение.
Миллион пресс-портретов — величина весьма впечатляющая. Но вместе с тем нельзя ожидать, что каждый пресс-портрет содержит все информационные блоки, о которых говорилось выше. Встречаются люди, о которых известно лишь место работы либо упоминание в прессе, без привязки к месту работы, поэтому такая информация входит в блок общих сведений.
Жаль, что отсутствует возможность поиска среди этих подборок, поэтому приходится для поиска пресс-портретов выполнять поиск по фамилии человека, а затем через блок Упомянутые лица находить нужную информацию.
Возвращаюсь заново к тексту этого раздела через месяц с тем, чтобы дополнить уже написанное. Опять подтверждается, что о Яндексе писать очень сложно, здесь постоянно появляется что-то новое и написанное вчера сегодня становится уже неточным. Так произошло и с разделом пресс-портретов.
Найдите на новостной странице ссылку Пресс-портреты. Она расположена под строкой поиска. Перейдя по ссылке, вы откроете страницу (рис. 3.8), на которой представлена информация о назначениях и отставках, состоявшихся на текущую дату, список наиболее упоминаемых в новостях личностей и список людей, отмечающих сегодня свой день рождения. И уже дальше, перейдя по ссылке с фамилии упомянутого человека, вы попадете на страницу его пресс-портрета.
3.1.7. Цитаты в Новостях
Как отделить слухи от фактов? Если новость, о которой вы хотите узнать, является ли она официальной или это действительно слух, подтверждается высказыванием чиновника или лица, заслуживающего доверия, вы будете считать ее фактом. А как можно быстро найти официальное подтверждение той или иной новости? Только поиском, который поможет отыскать официальные высказывания, если они существуют.
Служба Яндекса Цитаты в новостях (http://opinion.news.yandex.ru/) выполняет это за вас. Эта служба позволяет искать высказывания людей в сообщениях СМИ. Самые популярные и наиболее цитируемые высказывания за последние сутки представлены на главной странице сервиса. Фактически, цитаты отражают картину наиболее значимых событий дня, дают ее с точки зрения главных действующих лиц.
В основе технологии выделения цитат лежит синтаксический анализатор и модуль обработки предикативных конструкций с коммуникативными глаголами и оборотами. Выделяется как прямая речь в кавычках, так и косвенная речь, выраженная придаточными предложениями ("Иванов отметил, что…") и вводными оборотами ("по словам Иванова…"). Использование результатов извлечения всех фактов о человеке и полный анализ всего новостного сообщения позволяют с высокой точностью различать однофамильцев при определении автора высказывания, даже если в предложении с цитатой никакой дополнительной информации, кроме имени и фамилии, указано не было.
Поиск (рис. 3.9) можно вести по нескольким направлениям. Для этого строка поиска разделена на две части. В первую вписывается фамилия человека, чьи высказывания вы хотите найти, во вторую то, на какую тему вы ищете высказывания. Если заполнить только первое поле, будут показаны все выбранные из СМИ цитаты конкретного человека. Если только второе — будут подобраны высказывания всех людей по данной теме. Впрочем, просматривать цитаты отдельного человека можно и со страницы его пресс-портрета, где на первой странице публикуются его последние высказывания, а по ссылке можно перейти ко всем цитатам, имеющимся в распоряжении Яндекса.
Поиск цитат (рис. 3.10) может послужить основой для сбора всевозможных несуразиц, которые допускали в своих выступлениях или интервью известные личности. База для этого обширная — если пресс-портретов насчитывается свыше миллиона, то количество цитат достигает уже четырех миллионов от более чем 630 тыс. авторов.
Обратите внимание еще на один блок, расположенный на главной странице сервиса. В правой колонке приводятся фамилии наиболее цитируемых за текущий день людей. В этой колонке их только 10, но можно увидеть и весь список людей, привлекших внимание к своим выступлениям.
3.1.8. Новости регионов
Новости, публикуемые в различных изданиях, имеют свою территориальную привязку. Это могут быть новости, связанные с местом их возникновения, хотя касаются общемировых вопросов, это могут быть новости, связанные с событиями отдельного города или поселка. Для жителей региона местные новости не менее интересны и востребованы, чем новости общероссийские или мировые.
Продвижение Яндекса в регионы, не единичное, а массовое, началось в 2004 году. В этом время появились товарные предложения региональных магазинов на Маркете, возможность ограничить поиск по своему региону, прогноз погоды по 700 городам России и мира, телевизионная программа в местном времени. Появились и региональные новости.
На момент написания этих строк количество регионов, по которым в автоматическом режиме формируются сюжеты, достигло 59 (рис. 3.11). Среди них 46 регионов России, 9 регионов Украины, а также Беларусь, Израиль, Казахстан и страны Балтии. По мере привлечения новых информационных партнеров из регионов (а это является обязательным условием выделения в общем потоке региональных новостей), будут появляться и новые региональные подборки.
Яндекс периодически публикует карту охвата регионов. На ней видны как регионы, имеющие свое представительство в Яндекс. Новостях, так и пока еще не имеющие их. На карте видно, что чем ближе к Москве, тем беднее информационное поле. Центральный и Приволжский федеральные округа заполнены на 40 %, причем отдельно Центральный — всего на 23 %, в то время как регионы остальных пяти округов охвачены на 60–70 % каждый. И только в СЗФО каждый регион имеет свою страницу на Яндекс. Новостях.
Страницы регионов автоматически строятся по принципу, общему для всех категорий Яндекс. Новостей. Региональные подборки новостных сообщений (сюжеты) формируются компьютерной программой из материалов центральных и региональных СМИ. Важность сюжета определяется с учетом актуальности и количества сообщений по теме, а также интереса пользователей.
Как выбрать новости региона? Это можно сделать двумя способами. Во-первых, используя расширенный поиск, в котором можно выбрать один или несколько регионов, новости которых вы хотели бы увидеть. Во-вторых, перейдя со ссылки Новости регионов на главной или тематической странице новостей. Этот переход откроет страницу, где перечислены все доступные регионы. Выбор любого из них (здесь можно выбрать только один из доступных регионов, в отличие от расширенного поиска) позволит выделить из общего потока новостей лишь те, которые имеют отношение к выбранному региону.
3.1.9. Новости в блогах
Давно известно, что новости не только публикуются, но и обсуждаются. Обсуждаются на форумах, обсуждаются в блогах. И мнения, которые там высказываются, зачастую бывают много интереснее опубликованных в официальных СМИ или иных изданиях. Недаром многих людей, ведущих свои блоги, приравнивают к журналистам, а их журналы не менее известны и не менее посещаемы, чем многие онлайновые новостные издания.
Поиск по блогам, реализованный в Яндексе, привел и к решению следующей задачи — связал публикуемые новости с их обсуждением в блогах. Если сюжет Яндекс. Новостей широко обсуждается в Интернете, рядом со статистикой сюжета (всего сообщений, видео, аудио) появляется ссылка В блогах: <количество мнений>. Сбор мнений и их связывание с новостями осуществляется автоматически, а наиболее обсуждаемые сюжеты приводятся на странице Новости в блогах (http://news.yandex.ru/Russia/blogs.html).
Страница "Новости в блогах" является своего рода народным рейтингом официальных новостей, — говорит Антон Волнухин, менеджер службы "Поиск по блогам". — Попробуйте взглянуть на новости со стороны читателей, их мнения могут оказаться не менее интересными. А пишут российские пользователи много — хотя доля "блоггеров" Рунета в мире пока всего 3 %, количество ежедневных "постингов" — целых 10 %.
На странице Новости в блогах (рис. 3.12) могут оказаться совсем не те новости, которые выводятся на первую страницу новостного раздела. Обсуждение происходит с некоторой задержкой по сравнению с публикацией новостей и обычно носит более "затяжной" характер, что позволяет наиболее обсуждаемым новостям дольше продержаться в числе лидеров обсуждения в блогах. Едино лишь то, что общее количество новостей на этой странице такое же, как и на странице новостного раздела, то есть пятерка наиболее популярных с краткими аннотациями и десятка следующих по популярности новостей.