Принципы работы поисковых серверов
Принципы работы поисковых серверов
Поисковый сервер – это довольно сложная программа, точнее комплекс программ, в которых используются специальные алгоритмы анализа содержимого веб-сайтов в масштабах всего Интернета.
Интересный момент: на обработку того же запроса домашние животные у «Яндекса» ушло менее секунды. Невольно возникает вопрос: «А можно ли проанализировать весь Интернет за столь короткое время?» Однозначный ответ на это: «За столь короткое время проанализировать весь Интернет нельзя». Тем не менее факт остается фактом: на обработку запроса затрачено меньше секунды. Ответом на возникшее недоразумение будет описание принципов работы поисковых серверов.
Работа над запросом конкретного пользователя (а заодно и над всеми другими возможными запросами) началась задолго до его введения. Специальная программа, называемая «пауком», просматривает содержимое веб-сайтов.
Ее задачи чем-то схожи с задачами обычного веб-браузера, только вместо того, чтобы показывать страницы на экране, «паук» передает их содержимое другой программе – «путешествующему пауку». Задача «путешествующего паука» – вычленение из загруженной страницы ссылок на другие сайты, по которым снова направляется «паук». Цикл этот повторяется многократно, точнее непрерывно.
На этом работа не заканчивается. За дело принимается программа-индексатор, которая, используя определенные правила, анализирует полученные «пауками» страницы и формирует сложную базу данных поискового сервера. Вот эта самая база данных потом и выдает результаты поиска, которые появляются после обработки введенного запроса. На принципах работы индексатора остановимся поподробнее, так как именно от него зависит то, что войдет в результаты поиска.
В основе работы большинства современных поисковиков лежит индекс цитирования, который вычисляется индексатором в результате анализа ссылок на текущую страницу с других страниц Интернета. Чем их больше, тем выше индекс цитирования анализируемой страницы и тем выше эта страница будет отображена в результатах поиска. Кроме того, учитывается индекс цитирования страниц, которые ссылаются на страницу, изучаемую индексатором.
Кроме индекса цитирования учитываются также следующие параметры:
• наличие искомых слов в заголовке страницы или названии сайта;
• частота повторений искомых слов на странице;
• размер шрифта, которым на странице написаны слова из поискового запроса, а также выделение этих слов шрифтами и стилями;
• тематика ссылающихся сайтов и некоторые другие.
После ввода запроса пользователем за дело берется последнее звено поискового сервера – система выдачи результатов. В итоге анализа и сопоставления упомянутых выше показателей эта система определяет степень соответствия содержимого страницы условиям запроса. Чем эта степень больше, тем выше страница будет представлена в списке найденных ресурсов.
Возвращаясь к вопросу о скорости обработки запроса, отмечу, что такая высокая скорость обеспечивается за счет того, что страницы Интернета проиндексированы заранее, а результаты поиска составляются на основе информации из базы данных поискового сервера.
Такой способ, как несложно догадаться, имеет очевидный недостаток, заключающийся в том, что содержимое веб-страниц может со временем изменяться, а «паук» не будет успевать найти их и обработать, следовательно, результаты поиска будут неточными. Еще раз, упомянув о времени, необходимом поисковому серверу для просмотра и индексации всего Интернета, скажу, что на это у разных поисковиков уходит от нескольких суток до нескольких недель в зависимости от алгоритма обработки информации. Так что сайты, появившиеся в Сети недавно, в результатах поиска представлены не будут.
Разработчики поисковых серверов борются с этим разными способами и с переменным успехом. Например, большинство современных поисковиков предоставляет такой сервис, как поиск по новостным лентам, обновляющимся каждые несколько минут, и поэтому они чаще индексируются поисковиками. Как бы там ни было, лучшего способа, чем предварительная индексация страниц, сегодня не существует.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
Принципы работы
Принципы работы Основная программа комплекса NeTAMS состоит из следующих частей, работающих параллельно и одновременно, и называемых сервисами: Сервис main представляет собой главный поток, с исполнения которого начинает работу программа. Он определяет основные свойства
Принципы работы
Принципы работы Работа netams в случае использования модуля NETGRAPH (далее–модуль) заключается в установке модуля в ядро (и подключения его к интерфейсу, через который идет трафик), и настройке программы netams (далее–демона) для корректного соединения с модулем.Модуль и демон
Принципы работы
Принципы работы Скрипт addon/snmp2netams.pl опрашивает перечисленные в его заголовке SNMP–устройства, используя заданное значение community. Запрашиваются имена интерфейсов и значения 64–битных счетчиков байт, прошедших через интерфейс:ifMIB.ifMIBObjects.ifXTable.ifXEntry.ifName ==
10.4. Создание виртуальных серверов
10.4. Создание виртуальных серверов Поддержка виртуальных серверов для FTP — очень мощная вещь. Когда на компьютере крутится 20 виртуальных Web-серверов и ими управляют разные люди, то вполне логичным будет для каждого из них поставить в соответствие свой FTP-сервер. В этом
Использование серверов NFS
Использование серверов NFS Как правило, серверы NFS применяются для разделения файлов в системах UNIX и Linux. Необходимость в совместном доступе к файлам может возникнуть по разным причинам. Возможно, вы захотите хранить на сервере программы большого объема для того, чтобы их
Выявление ненужных серверов
Выявление ненужных серверов Задачу выявления ненужных серверов можно разбить на две подзадачи: идентификация серверов, присутствующих в системе, и принятие решения о том, какие из них могут быть отключены без вреда для системы. Обе эти подзадачи можно решить различными
Отключение серверов
Отключение серверов Отключить сервер, который выполняется в системе, можно различными способами. На практике для этого применяются два основных подхода.• Вы можете выполнить действия, противоположные тем, которые предпринимались для запуска сервера. Например, можно
Загрузка файлов с FTP-серверов
Загрузка файлов с FTP-серверов В принципе, не думаю, что вы настолько поразитесь FTP-серверами, что только на них и будете проводить время в Интернете. Обычно с ними работают профессионалы (веб-дизайнеры, сетевые администраторы и др.). Для обычных же пользователей существует
12.11.2 Размещение серверов DNS
12.11.2 Размещение серверов DNS Многие организации предпочитают иметь в своей внутренней сети один комплект из первичного и вторичного серверов, даже если сеть разделена на отдельные зоны. Вполне допустимо использовать один сервер для множества зон (или для нескольких
Принципы работы функции поиска
Принципы работы функции поиска Прежде чем рассказывать о выполнении поисковых запросов, необходимо рассмотреть основные концепции работы системы поиска. Поисковый запрос содержит одно или несколько слов, представляющих содержимое, которое нужно найти. Область
Общие принципы работы со спецификациями
Общие принципы работы со спецификациями При работе с документом-спецификацией в КОМПАС-3D обычно пользуются таким понятием, как объект спецификации.Объект спецификации – это строка или несколько текстовых строк в документеспецификации, характеризующих (описывающих)
Принципы работы с файлами в VBA
Принципы работы с файлами в VBA Как уже говорилось в главе 11, VBA позволяет работать с файлами как с объектами и манипулировать файловыми объектами с помощью их свойств и методов.Но это не стало органической частью VBA, а обеспечивается некоторой внешней объектной
Принципы работы с текстом
Принципы работы с текстом В Adobe Photoshop существует два вида текста – точечный и абзацный.Точечный текст предназначен для написания коротких текстов – два-три слова, строка, реже – две или три строки; то есть для написания текста в определенной точке. Создать такой текст
Использование выделенных серверов
Использование выделенных серверов Исключите использование на хост-машине других сервисов, особенно таких уязвимых, как серверы Web и FTP, которые потенциально принимают безымянные подключения. Отключение других сервисов не требуется для запуска Firebird. В Windows ограничьте
Принципы работы RAID
Принципы работы RAID В основе работы RAID лежат несколько принципов организации записи данных на массив дисков. Реализация этих принципов позволяет ускорить запись и извлечение данных, а также увеличить степень надежности их хранения.• Данные в процессе записи
Принципы работы, основанной на анализе сигнатур системы обнаружения вторжений
Принципы работы, основанной на анализе сигнатур системы обнаружения вторжений Система обнаружения вторжений является вполне простым высокотехнологичным эквивалентом охранной сигнализации, настроенной контролировать точки доступа к сети, враждебную сетевую