Глава 3 Метапоиск
Глава 3
Метапоиск
Сам факт наличия множества индексных баз данных сетевых документов, причем собранных с использованием разных методов и алгоритмов, порождает экологическую нишу для целого класса метапоисковых систем. Такие системы не занимаются самостоятельным сбором информации, а отсылают запрос пользователя на несколько других поисковых серверов, объединяют результаты поиска, производят их дополнительную обработку и выдают обобщенный ответ. Это увеличивает широту охвата поиска за счет обработки данных различных индексных баз. Кроме того, метапоиск экономит время пользователя, которое иначе пришлось бы потратить на личное обращение ко всем нужным серверам. Такова схема работы полноценной метапоисковой системы. В то же время существует ряд сервисов, пренебрегающих собственным анализом полученных результатов. В предельном случае вы можете просто получить пару-тройку отдельных страниц с результатами разных поисковиков. Данный подход, в общем-то, тоже имеет право на существование, однако далее мы остановимся только на нескольких по-настоящему инновационных системах. Дело в том, что проблема обработки результатов метапоиска стоит даже более остро, чем в случае отдельного поисковика. Не удивительно, что на метапоисковиках можно увидеть немало интересных экспериментальных решений.
У всех ведущих современных интернет-поисковиков есть одна общая черта – они выдают результаты единым списком, отсортированным по релевантности ссылок. При всех своих достоинствах данная схема порождает для пользователей проблемы при большом количестве ссылок в списке выдачи Не секрет, что мало кто просматривает на поисковике больше одного-двух экранов результатов, на которых может так и не найтись требуемой информации. В то же время нужные данные в итоге могут оказаться на сайте, занимающем какую-нибудь 108-ю позицию в общем списке. Получается парадоксальная ситуация: информация в Сети есть, она найдена, однако останется навсегда скрытой для пользователя, если он не сможет грамотно уточнить запрос или составить сложное поисковое выражение.
Одним из ответов на данный вызов стала технология кластеризации результатов интернет-поиска. Ее преимущества по сравнению с аналогами – возможность сравнительно простой автоматизации процесса. Кластерные технологии не требуют какой-либо специфической разметки веб-страниц, как это принято в комплексе технологий «семантического веба». Они также не нуждаются в сравнительно трудоемкой предварительной подготовке массива веб-страниц, используемой в веб-каталогах. Цена этого преимущества – некоторый процент информационного шума, неизбежного при автоматической обработке результатов поиска в Сети.
Получив запрос, кластерный поисковик, как и обычная поисковая система, сначала находит в своей базе соответствующие запросу веб-страницы. Различия начинаются на этапе сортировки результатов. Система проводит анализ найденных страниц и находит на них дополнительные ключевые слова, встречающиеся вместе с терминами из поступившего от пользователя запроса. Получившиеся в результате такого анализа подмножества страниц называются кластерами и с большой вероятностью относятся к разным аспектам темы запроса. Далее в недрах поисковика происходит следующее важное событие – определение релевантности ссылок и их позиции в результатах. Кластерная машина проделывает эту операцию отдельно для каждого кластера. При этом ссылки со страниц одного кластера, то есть сайтов аналогичной или схожей тематики, ценятся выше, чем ссылки с посторонних, пусть даже очень популярных ресурсов. В результате позиция сайта в списке выдачи по кластеру является своеобразным отражением ее оценки коллегами по тематическому цеху, что работает на качество поиска. Кроме того, ранжирование ссылок по отдельным кластерам позволяет вывести на первые позиции в кластерах полезные, но не «раскрученные» ресурсы, которым в обычных поисковиках с выдачей результатов единым списком и бесконечными войнами оптимизаторов мало что светит.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
Метапоиск торрент-ресурсов
Метапоиск торрент-ресурсов Технологии Peer to Peer (P2P) прочно вошли в практику современной Сети. Торрент-сети содержат значительные объемы контента и пользуются заслуженной популярностью. Одним из центральных звеньев торрент-сетей являются трекеры – сайты, на которых
Онлайновый метапоиск
Онлайновый метапоиск Несмотря на постоянное улучшение алгоритмов поиска традиционных поисковых машин, их работа уже давно не удовлетворяет современного интернет-пользователя. Ведь чем короче путь от поискового запроса до полученного результата, тем лучше. При
Глава 12 DNS
Глава 12 DNS 12.1 Введение Часто конечный пользователь знает имя хоста, но не имеет понятия о его адресе. Но адрес нужно знать для взаимодействия с хостом, поэтому конечному пользователю или запущенному им приложению необходим способ получения адреса по имени хоста.В
Глава 15 RPC и NFS
Глава 15 RPC и NFS 15.1 Введение За последние десять лет компьютерное оборудование существенно изменилось. Вместо подключенных к центральному компьютеру неинтеллектуальных терминалов появились сложные настольные системы, серверы и локальные сети.Пользователи быстро
Глава 19 WWW
Глава 19 WWW 19.1 Введение 19.1.1 Гипертекст Идея гипертекста (hypertext) известна уже многие годы. Она основана на следующих положениях:? Выделенные в документе фразы связаны с указателями на другие документы.? Пользователь может перейти на другой документ, щелкнув мышью на
Глава 1
Глава 1 1. В обоих процессах нужно лишь указать флаг O_APPEND при вызове функции open или режим дополнения файла при вызове fopen. Ядро гарантирует, что данные будут дописываться в конец файла. Это самая простая форма синхронизации доступа к файлу. На с. 60-61 [21] об этом рассказывается
Глава 2
Глава 2 1. Эти два бита могут менять действующий идентификатор пользователя и/или группы выполняющейся программы. Идентификаторы используются в разделе 2.4.2. Сначала следует указать флаги O_CREAT | O_EXCL, и если вызов окажется успешным, будет создан новый объект. Если вызов
Глава 4
Глава 4 1. Если бы дескриптор fd[1] остался открытым в дочернем процессе при завершении родительского, его операция read для этого дескриптора не вернула бы признак конца файла, потому что дескриптор был бы еще открыт в дочернем процессе. Закрытие fd[1] гарантирует, что после
Метапоиск
Метапоиск Несмотря на универсальность поисковых серверов, результаты поиска у каждого из них практически всегда разные. Искать отдельно на каждом поисковике интересующую информацию достаточно трудно и утомительно. Проще найти необходимые сведения с помощью
Метапоиск
Метапоиск Одно из правил успешного поиска состоит в использовании нескольких поисковых машин. Причина, по которой следует так поступать, очевидна: все поисковые машины применяют разные алгоритмы поиска с разной скоростью, и страница, которая найдется при помощи одного
ГЛАВА 3
ГЛАВА 3 Глава, самая короткая, в которой появляется и тут же исчезает Кадабра. — Вот тут я живу и работаю, — сказал Точка.Алёша во все глаза разглядывал мастерскую Точки. Ни мольберта, ни баночек с красками и кисточками нигде не было видно.В комнате был бы идеальный
ГЛАВА 4
ГЛАВА 4 Глава, в которой именинник — доктор Кашля получает подарки и угощает гостей солёным тортом. В небольшой комнатке, одна из стен которой была увешана всевозможными диковинными пипетками и градусниками, а на другой красовалась редчайшая коллекция больших и
ГЛАВА 5
ГЛАВА 5 Глава, в которой выясняется причина порчи дискет и Алёша с Котёнком едут в поликлинику снимать отпечатки зубов. В кабинете Центрального Процессора шло экстренное совещание. Микроши по очереди высказывали свои предположения о причинах столь необычного для
ГЛАВА 6
ГЛАВА 6 Глава, в которой Алёше удаляют зуб, а Котёнок ест эскимо и мурлычет от удовольствия. Всем известно: никто из детей не пойдёт сам в поликлинику, а про зубной кабинет и говорить нечего. Другое дело — Симплекс. В Симплексе поликлиника — любимое место микрошей. Дай им
ГЛАВА 9
ГЛАВА 9 Глава, самая тревожная, в ней одна за другой происходят аварии, профессор Пломба застревает в лифте, Точка с Алёшей, Котёнком и Попугаем едут в издательство, а Бейсик сочиняет новое, совершенно необыкновенное стихотворение. — Ну, друзья, и денёк сегодня выдался, —