RSS-поиск
RSS-поиск
Пополнять список своего RSS-агрегатора можно различными способами. Первый и наиболее распространенный – простой поиск сайтов по интересующим темам, а затем подписка на их RSS-ленты, если, конечно таковые имеются. Способ несложный, однако на редкость медленный и трудоемкий. Другой распространенный вариант – воспользоваться различными рекомендательными сервисами и каталогами. Правда, логика деления таких каталогов может быть просто фееричной, да и обновляются каталоги не так часто, как хотелось бы. В последнее время появилась любопытная альтернатива – интернет-машины, предназначенные для поиска RSS-каналов. Одним из наиболее интересных проектов такого типа является система RSSMicro.
В настоящее время RSSMicro индексирует более чем двенадцать тысяч RSS-каналов. Если же говорить об индексации отдельных сообщений, то счет идет на миллионы. Анализируются новостные сайты, форумы, блоги и другие источники, предлагающие данные в формате RSS. Обновление индекса происходит с периодичностью в несколько часов. Для пополнения индекса используются различные источники, в том числе сервис DMOZ, а также собственные роботы, ведущие поиск веб-сайтов с RSS-каналами. Система поддерживает режим автоматического поиска RSS-источников на сайтах.
Основа поисковика – технология FeedRank. Это собственная разработка владельцев поисковика. Основным параметром оценки канала служит так называемый алгоритм Feed Delta, который выбирает в анализируемом RSS-канале уникальную информацию и определяет ее процент по отношению к общему количеству сообщений ленты. Далее учитывается наличие в сообщениях ленты полных текстов новых материалов и разнообразного дополнительного контента, например изображений. Задействуются и другие параметры. Например, учитывается «жизнеспособность» ленты: количество опубликованных за определенный промежуток времени постов. Анализируется и популярность ленты. В результате формируется численная оценка «дельты» той или иной RSS-ленты.
Кроме оценки качества источника, необходимого для объективного определения позиции той или иной ленты в списке выдачи поисковика, данный показатель используется для отсеивания информационного шума. Дело в том, что по утверждению разработчиков FeedRank автоматически генерируемые источники, не содержащие оригинального контента, а также спам-ленты имеют очень мало шансов получить хорошее значение «дельты». В результате на первых позициях должны оказаться RSS-каналы, содержащие оригинальный контент, который, к тому же, максимально раскрывается в сообщениях ленты. Работа над совершенствованием алгоритма продолжается, и разработчики призывают пользователей быть активными, не стесняясь сообщать свои оценки и предложения.
FeedRank измеряется в диапазоне значений от нуля до десяти. Нулевой рейтинг получают давно не обновляющиеся ленты, ленты без текста в постах, большинство лент, автоматически полученных с других ресурсов и не прошедших дополнительную обработку, а также ленты с ошибками, которые роботу банально не удалось открыть. Таковых среди поступающих в систему порядка 6 %. Подавляющее большинство лент – почти 70 % – получают рейтинг, равный единице. Это значит, что звезд с неба они не хватают, имеют ошибки в форматировании либо неполный контент в постах, однако предлагают интересную информацию. Рейтинги 2 и 3 отражают повышающееся качество и оригинальность контента, а вот для получения рейтинга от 4 до 6 от канала потребуется еще и регулярное обновление. Действительно высокие рейтинги получают ленты популярных веб-ресурсов с большим количеством подписчиков и новостные агентства, располагающие собственным оригинальным контентом. Интересно, что лент с рейтингом 8-10 в индексе RSSMicro всего около 1,3 %, так что подход к оценкам у системы достаточно жесткий. Заметим, что RSSMicro отслеживает и индексирует только ленты с положительным рейтингом. Любопытный факт: с особенным вниманием рассматриваются каналы с рейтингами 4–5, поскольку именно в этой зоне, по мнению разработчиков FeedRank, должно находиться большинство качественных ресурсов, которые пока просто не имеют достаточной известности и финансовых возможностей для конкуренции с раскрученными и активно продвигаемыми проектами.
Возможно и самостоятельное добавление RSS-ленты своего веб-сайта в базу RSSMicro. Для этого даже не потребуется регистрировать аккаунт и сообщать какие-либо персональные сведения. Достаточно указать в специально отведенном для этой задачи разделе сайта RSSMicro URL-адрес предлагаемого канала, отнести его к одной из имеющихся тематических категорий и пройти капча-тест. Как только все нужные сведения будут указаны, система сразу же проанализирует предложенный канал и рассчитает его рейтинг. Кроме формы предложения новой RSS-ленты, этот раздел поисковика содержит достаточно толковые комментарии с примерами правильно отформатированного кода и советами по подготовке RSS-лент.
На главной странице RSSMicro предлагается четыре варианта поиска в вертикальных базах. Кроме поиска каналов (Feeds), это поиск отдельных сообщений (Posts), а также поиск изображений и видео. Выбирать режим можно с помощью вкладок рядом с полем ввода запроса (рис. 9.4).
Рис. 9.4. Система поиска RSSMicro
При настройке поиска можно определить предпочитаемый язык RSS-каналов и сообщений, включить режим поиска во всем контенте сообщений. Кроме того, здесь есть флажок ALL Time Search, который определяет, будет ли поиск производиться во всей индексной базе RSSMicro или же только в свежих обновлениях RSS-лент.
Результаты поиска в RSSMicro вполне адекватные и достаточно полезные. При вводе запроса работает механизм автодополнения, предлагающий похожие запросы. К сожалению, RSSMicro не лучшим образом подходит для поиска небольших, узкотематических каналов. Дело в том, что по объективным причинам по таким тематикам обеспечить постоянный поток новостей бывает достаточно затруднительно. В результате подобные ленты получают рейтинг не выше «тройки» и индексируются по остаточному принципу, если вообще попадают в базу.
Элементы списка на странице выдачи содержат название канала, значение рейтинга, аннотацию канала, а также ссылки, открывающие предварительный просмотр ленты и список ее последних сообщений. Кроме того, имеется прямая ссылка на канал, которую можно использовать для подписки. Если тема достаточно популярна, на странице выдачи появится также панель с перечнем автоматически найденных кластеров, с помощью которой можно быстро уточнить свой запрос.
Раздел RSS Feed Directory основан на анализе базы DMOZ, в которой выбирались сайты, располагающие RSS-каналами. Всего в каталоге порядка ста пятидесяти тысяч источников, разбитых на пятнадцать основных категорий. Есть в нем и около трех тысяч лент на русском языке. Картину дополняют списки рекомендуемых RSS-каналов и свежих поступлений в базу проекта.
RSSMicro предлагает также ряд собственных RSS-каналов, основанных на результатах работы алгоритма FeedRank. На странице RSSMicro News имеются разделы с перечнем наиболее популярных и «трендовых» тем в анализируемых RSS-каналах. Отдельно предлагаются наиболее популярные изображения и видеофайлы, проходившие в RSS-лентах. Пожалуй, здесь наиболее любопытен раздел Authentic & Original News, посвященный исходным текстам активно перепечатываемых статей, а также сообщениям из малоизвестных, но ценных тематических RSS-лент. Для всех названных разделов созданы собственные RSS-каналы, поэтому система RSSMicro вполне может рассматриваться и в качестве «рекомендательной машины».
Раздел Tools содержит различные вспомогательные инструменты. Среди них – форма самостоятельного добавления RSS-ленты в индекс и средство расчета ее рейтинга в режиме реального времени. Кроме того, предлагается инструмент для создания поискового виджета RSSMicro. У него достаточно гибкие возможности настройки, относящиеся как к контенту, так и к внешнему оформлению. Во-первых, предлагается задать перечень ключевых слов, по которым будет вестись поиск, предпочитаемый язык сообщений, область поиска (вся база или только обновления RSSMicro), способ сортировки и количество выводимых в виджете сообщений. Также можно выбирать демонстрируемые элементы RSS-сообщения. Можно также настроить параметры, касающиеся внешнего вида виджета, такие как шрифт заголовка новости и ее текста, размер и цвет блока самого виджета. Рядом с редактором виджета генерируется превью будущего виджета, которое наглядно демонстрирует будущий результат ваших усилий. Далее остается только получить код и поместить его на своем ресурсе. Надо сказать, это хорошая заготовка для автоматического новостного блока. Создание аналогичного виджета с помощью мэшап-редакторов займет гораздо больше времени, даже если вывести за скобки собственно весьма трудоемкий процесс поиска сайтов с тематическими RSS-лентами.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
Поиск
Поиск Элемент input со значением “search” в атрибуте type будет вести себя примерно так же, как элемент ввода со значением “text” атрибута type:<label for="query">Поиск</label><input id="query" name="query" type="search">Единственная разница между “text” и “search” состоит в том, что браузер может
Поиск
Поиск Поскольку каналы, на которые вы подписаны, в некотором роде являются вашей базой знаний, в ней нужно уметь эффективно ориентироваться – упорядочивать новости по типам, выделять запомнившиеся сообщения, искать нужные записи. Для этого Reader предлагает сразу
Поиск
Поиск С количеством фотографий, производимых современными обладателями цифровиков, работа по разбору и классификации фотографий превращается в нетривиальное занятие: легкость съемки и дешевизна карт памяти привела к тому, что мы практически не удаляем снимки, даже
Поиск
Поиск В процессе работы в компьютере накапливается большое количество файлов, и зачастую сориентироваться в них самостоятельно и найти нужный оказывается затруднительно. В этом случае вам на помощь придет система поиска. В Windows Vista она была значительно
RSS-поиск
RSS-поиск Пополнять список своего RSS-агрегатора можно различными способами. Первый и наиболее распространенный – простой поиск сайтов по интересующим темам, а затем подписка на их RSS-ленты, если, конечно таковые имеются. Способ несложный, однако на редкость медленный и
Поиск
Поиск Если вы хотите удалить пункт Поиск (Найти) из меню кнопки Пуск, то откройте разделHKEY_CURRENT_USER SoftwareMicrosoftWindowsCurrentVersionPoliciesExplоrer и создайте параметр NoFind типа DWORD со значением, равным 1.После перезагрузки пункт Поиск исчезнет из меню кнопки Пуск, а также исчезнет команда
Поиск
Поиск Классический видЧтобы использовать классический вид поиска файлов без анимированного персонажа, то присвойте строковому параметру Use Search Asst значение no в разделе HKCUSoftwareMicrosoftWindowsCurrentVersionExplorerCabinetStateОчистка истории раннее вводимых словЕсли вы часто пользуетесь
Поиск
Поиск Строка поискаЧтобы скрыть строку поиска из IE7, в разделе HKCUSoftwarePoliciesMicrosoftInternet ExplorerInfoDeliveryRestrictionsсоздайте параметр типа DWORD ·NoSearchBox· со значением 1. Перезапустите IE7, чтобы изменения вступили в силу. Кнопка Поиск (IE6)Чтобы изменить адрес поисковика, который у вас
Поиск
Поиск На всех страницах сайта обязательно должно быть поле для поиска товаров. Удивительно, но в некоторых интернет-магазинах отсутствует поддержка поиска по сайту. Убедитесь, что на вашем сайте есть поиск. Более того, сделайте функцию поиска максимально заметной. Чаще
Поиск
Поиск Чтобы начать поиск, следует выполнить команду меню Search ? Find/Replace (Поиск ? Найти/Заменить) или нажать сочетание клавиш Ctrl+F. В нижней части окна программы появится панель поиска.В поле Find (Найти) необходимо указать искомое слово (или выражение), а затем нажать кнопку Find All
Яндекс. Поиск – быстрый поиск документов
Яндекс. Поиск – быстрый поиск документов Документы, как известно, имеют премерзкое свойство накапливаться. И чем больше документов, тем труднее в их залежах найти нужный. Электронные документы здесь не слишком отличаются от бумажных. Проблема места для хранения, правда,
Поиск
Поиск Поиск величины при вводе Каким способом можно производить поиск подходящих величин в момент ввода? Табличный курсор (визуально) должен перемещаться к наиболее подходящему значению при добавлении пользователем новых символов водимой величины.Первоначально код
Поиск
Поиск Управление отображением команды Поиск, которая также по умолчанию входит в состав меню кнопки Пуск, осуществляется в системном реестре в разделе HKEY_CURRENT_USERSoftwareMicrosoftWindowsCurrentVersionPoliciesExplorer с помощью REG_DWORD-параметра NoFind. Чтобы удалить данную функцию, следует присвоить
Глава 12 Поиск с предпочтением: эвристический поиск
Глава 12 Поиск с предпочтением: эвристический поиск Поиск в графах при решении задач, как правило, невозможен без решения проблемы комбинаторной сложности, возникающей из-за быстрого роста числа альтернатив. Эффективным средством борьбы с этим служит эвристический
Поиск
Поиск Проблема поиска информации существовала всегда. Поиск информации на локальном компьютере напоминает работу поисковых систем Интернета. В данном случае можно также выделить два основных направления поиска: обычный и усложненный. Под обычным подразумевается поиск