3.1.1. С чего начинались Яндекс. Новости
3.1.1. С чего начинались Яндекс. Новости
Начало работы с новостными сайтами у поисковика складывалось примерно так же, как и работа с веб-ресурсами. Поисковые роботы обходили новостные сайты, собирали контент, добавляли его в Индекс, после чего посетители поисковой системы могли найти в ней не только информацию из документов, но и из новостей. Отличие было в том, что новостные сайты обновляют свою информацию на порядки чаще, чем иные сетевые ресурсы. Поэтому частота обхода роботами новостных сайтов была значительно выше, доходя для наиболее значимых ресурсов до 5-10 минут. Какое-то время уходило на индексирование, после чего информация становилась доступной для поиска.
Яндекс. Новости открылись в июне 2000 года и включали в поисковую базу информацию из пятнадцати источников. Этот сервис был первой полностью автоматической службой сбора и обработки новостей. Новости не только индексировались и помещались в Индекс, но также раскладывались по тематическим рубрикам. Новостная база стала одной из первых в перечне дополнительных параллельных поисков Яндекса — заголовки новостей можно было получить по результатам поискового запроса на отдельной вкладке результатов поиска.
Но новостных источников становилось все больше. И уже к 2003 году их количество перевалило за сотню (сегодня партнерами Яндекс. Новостей являются почти 2000 интернет-СМИ, и в их числе — информационные агентства широкого профиля, электронные версии печатных СМИ, сетевые издания, сайты телеканалов и радиостанций, тематические, специализированные и региональные ресурсы). Стало ясно, что первоначальный способ сбора и индексирования новостей уже перестал себя оправдывать, появилось множество дублирующих новостей, выполненных по типу copy+paste. Пришло время менять принцип сбора и обработки новостей.
В том море новостей, которое обрушилось на поисковую систему, нужно было выбрать наиболее важные, значимые новости. Это стало одной из первоочередных задач развития сервиса. А для этого необходимо было научиться, во-первых, находить и соединять сообщения на одну тему, а, во-вторых, упорядочивать сообщения по важности — для того чтобы общественно значимые события последних нескольких часов или всего дня оказывались бы максимально экспонированы.
Как собирают сюжеты
Как собрать в едином сюжете новости, опубликованные в различных источниках? В почтовой службе это легче — есть исходное письмо, и если есть ответы на него, то они "сцепляются" друг с другом и попадают в одно обсуждение. В новостях все намного сложнее — нет единого названия, тексты сообщений могут отличаться друг от друга весьма значительно. В то же время новости относятся к одному и тому же событию, следовательно, должны попасть в один сюжет. И вот что по этому поводу говорят разработчики системы поиска по новостям:
Центральная задача, которая стояла перед нами, — научиться отождествлять сообщения, относящиеся к одному и тому же сюжету. Очевидно, что эта задача лучше всего решается анализом текста и поиском максимально похожих документов.
Для определения попарной текстуальной близости сообщений мы использовали модифицированный для небольших однородных текстов алгоритм поиска похожих документов и алгоритм нечеткого поиска по кворуму. Как и любой поиск Яндекса, этот алгоритм работает с учетом морфологических вариантов русских и английских слов, причем для агнонимов (то есть "неизвестных системе слов"), составляющих в Яндекс. Новостях значительную часть словника, используется методика нахождения ближайших морфологических эквивалентов. Для частичного снятия морфологической омонимии в Яндекс. Новостях используются статистические эвристики.
Затем матрица попарной близости обрабатывается алгоритмом кластеризации с тщательно подобранным радиусом. Для того чтобы увеличить связность крупных сюжетов, мы дополнительно использовали кластеризацию второго уровня, собирая атомарные кластеры в более крупные. Такой алгоритм дает полноту около 85–90 % (то есть не более 15 % сообщений ошибочно не попадают в сюжеты) и обеспечивает точность около 95 % — в сюжетах редко встречаются сообщения на другие темы.
Отдельной задачей стало оптимальное представление и аннотирование сюжета: выбор наилучшего заголовка (зависит от его длины, свежести и максимального соответствия теме) и "цитатной" аннотации, необходимой для короткого и точного описания сюжета. Кроме того, появилась группировка по сюжетам не только текстовых сообщений, но и фото-, аудио- и видеофайлов.
Немного сложно, особенно в плане используемых терминов, но суть все же понятна.
Ранжирование сюжетов
Собрать новости, опубликованные в различных изданиях, в один сюжет — только часть того, что должен предоставить пользователю сервис. И по тематикам распределить — тоже только часть. А что из этих новостей вывести на первый план, что можно оставить в общем списке? Очередная задача — какие принципы положить в основу ранжирования.
Безусловно, основными факторами, влияющими на ранжирование, являются свежесть и размер сюжета (не новости как таковой!). Свежесть — это время публикации новостей в сюжете, размер сюжета отражает общий интерес СМИ к конкретной теме. Чем интереснее для читателей тема, тем большее количество СМИ опубликует новость и даст свои комментарии. Кроме того, учитываются количество и схожесть сообщений от конкретных изданий. Не секрет, что издания, как и веб-сайты, имеют разный рейтинг, складывающийся из многих показателей. Такие издания, как РБК, Inopressa.ru, Лента. ru будут иметь более высокий рейтинг по многим новостным тематикам, нежели региональные издания, чей рейтинг может быть выше в части новостей, касающихся лишь их региона.
Дополнительно для ранжирования сюжетов используется глобальный анализ сходства, позволяющий, в частности, находить интернет-издания с высокой степенью текстуального пересечения и учитывать этот фактор в ранжировании сюжетов.
Еще один показатель, оказывающий влияние на ранжирование сюжетов, — это наша с вами, посетителями Яндекса, работа с поиском. Количество запросов в минуту составляет при обычной дневной загрузке около 2 тыс. Этих данных вполне достаточно для того, чтобы учитывать аномалии запросов для ранжирования сюжетов в Новостях. (Ведь что такое аномалия в запросах — это наш с вами интерес к событиям.)
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
Яндекс
Яндекс Официально представленный широкой публике в 1997 году поисковик Яндекс успешно развивался и через десять лет впервые попал в число десяти крупнейших поисковых машин мира. В русском сегменте интернета он добился лидирующих позиций, которые пока не собирается
Яндекс
Яндекс Основная особенность поисковых операторов Яндекса состоит в том, что с их помощью можно составлять очень гибкие запросы благодаря таким параметрам, как дистанция между словами, учет морфологии. Примерами использования этих операторов для быстрого и простого (а
6.2. «Яндекс. Деньги»
6.2. «Яндекс. Деньги» Данная платежная система (http://money.yandex.ru/) была создана в 2002 году в результате сотрудничества компании «Яндекс» и международной системы PayCash (специализируется на платежах в Интернете). Она позволяет работать только с российскими рублями, поэтому ее
1.7. Яндекс. Каталог
1.7. Яндекс. Каталог Каталог вне зависимости от того, кто его создал и в каком виде, преследует всегда одну и ту же цель — систематизировать информацию, предоставив возможность пользователям быстро и легко находить необходимое.Суть идеи каталогов проста — собрать на одном
1.8. Яндекс. Музыка
1.8. Яндекс. Музыка Вы любите музыку? Джаз, металл, классику? Вы собираете коллекцию музыкальных произведений? Вы их покупаете на дисках, скачиваете из Интернета? Размещение и распространение музыкальных произведений в сети Интернет стало всеохватывающим. И кто только не
1.10. Яндекс и Адреса
1.10. Яндекс и Адреса Если службы Яндекса, о которых мы говорили раньше, были созданы или приобретены и доработаны компанией "Яндекс", то служба адресов создана и поддерживается Яндексом совместно с компанией "Эниро Рус-М" — "Желтые страницы Москва" (http://www.yellowpages.ru/). Начало
3.1. Что такое Яндекс. Новости
3.1. Что такое Яндекс. Новости В Интернете ищут не только статичную информацию, раз опубликованную и редко изменяющуюся, но и текущую, быстроменяющуюся. И это несмотря на наличие огромного числа привычных информационных источников — радио и телевидения, газет и журналов. С
3.1.3. Как выглядят Яндекс. Новости
3.1.3. Как выглядят Яндекс. Новости Набрав в браузере адрес главной страницы Яндекса — yandex.ru — вы увидите не только строку для ввода поискового запроса, разделы каталога и информеры. Над строкой ввода будут представлены пять главных на этот час новостей дня — только их
10.2. Яндекс. XML
10.2. Яндекс. XML Не для всех ситуаций может оказаться удобным решение по развертыванию на своем веб-ресурсе полноценного поискового сервера. Причины для этого могут быть разными. Тем не менее качественный поиск все равно бывает необходим. Для таких случаев Яндекс
11.2. Яндекс. WiFi и Яндекс. Тариф
11.2. Яндекс. WiFi и Яндекс. Тариф Проект Яндекс. WiFi (http://wifi.yandex.ru/) появился от необходимости. Необходимость заключалась в том, что во время деловых встреч за ланчем многие менеджеры Яндекса, включая и руководство, порой испытывали проблемы в отсутствии возможности доступа к
1. Яндекс. Wordstat
1. Яндекс. Wordstat Мы покажем, как можно очень быстро проверить ваши идеи на потенциальную востребованность. Откройте сайт wordstat.yandex.ru. Введите главную фразу, которая описывает тему. Должна быть конкретика. Если строительство – то чего? Если как создать блог – то для кого?
«Яндекс»
«Яндекс» Адрес: www.yandex.ru, www.ya.ru.Описание. Самый популярный сервер поиска в Рунете (российском Интернете). Осуществляет поиск и текста, и картинок. «Яндекс» – не только система поиска, среди его сервисов есть новости, отправка поздравительных открыток и мощная служба поиска
Новости Новости и комментарии: pcmag.ru/news
Новости Новости и комментарии: pcmag.ru/news Раздел подготовил Максим Белоус, Олег Лебедев Оруэллу и не снилось Лучшие антиутопии написаны в середине XX века. Их авторов всерьез беспокоила проблема сокращения личного пространства – такое сокращение неизбежно обусловлено
Новости Новости и комментарии: pcmag.ru/news
Новости Новости и комментарии: pcmag.ru/news Раздел подготовили: Максим Белоус, Игорь Новиков Ничто не вечно под DRM Встречаются люди, искренне убежденные, что владелец авторских прав вправе оберегать от нелицензированного копирования любыми доступными способами всякий