Обзор поисковых систем
Обзор поисковых систем
Российские поисковые системы
Яndex
Поисковая машина Яndex (http://www.yandex.ru/) обладает наибольшей в российской части Internet базой данных и развернутой системой формирования запроса. Ею индексируется информация российских (домены RU и SU) и зарубежных серверов, имеющих в своем составе страницы, написанные на русском языке.
Дата официального открытия Яndex – 23 сентября 1997 года. Идея, разработка и техническое обеспечение проекта принадлежат компании с одноименным названием.
Яndex – это полнотекстовая информационно-поисковая система, учитывающая морфологию русского языка. Таким образом, в индекс попадают все слова, найденные на Web-странице, за исключением самых частотных слов русского и английского языков (стоп-слов). Все лексические единицы, попавшие в индекс, доступны для поиска. Адресом слова в Яndex являются документ (точнее, его URL-адрес), номер предложения и номер слова внутри предложения. Кроме страниц сайтов, поиск идет по новостям информационных агентств и по товарам электронных магазинов.
Обнаружив новую или измененную страницу, Яndex ее индексирует. В этом случае страница разбивается на элементы (текст, заголовки, подписи к картинкам, ссылки и т. д.), содержание которых заносится в индекс. При этом учитываются позиции слов, то есть их положение в документе или его элементе. Сам документ в базе не хранится.
Яndex индексирует страницы по их истинным адресам. Это значит, что, если на странице стоит перенаправление (например, с помощью метатэга HTTP– EQUIV="Refresh"), робот воспримет его как ссылку на новый адрес и поставит ее в очередь на индексирование. То же самое произойдет, если в одном из фреймов будет стоять ссылка на другой сервер. В частности, если эта ссылка находится вне доменов, разрешенных по умолчанию, страница не будет проиндексирована. Робот Яndex хранит дату последнего обхода каждой страницы, дату ее изменения, присланную Web-сервером, и информацию о времени внесения последних изменений в базу поиска (дату индексации). Он оптимизирует обход Сети таким образом, чтобы чаще посещать наиболее изменяемые серверы.
Яndex индексирует документ полностью: текст, заголовок, подписи к картинкам, описание (description), ключевые слова и некоторую другую информацию.
Робот работает со стандартными ссылками языка HTML (HREF, LINK и FRAME), то есть так, как работал бы пользователь с отключенными Java и JavaScript.
Поиск учитывает все морфологические формы слов запроса по правилам русского языка. Например, при запросе «идти» в результате поиска будут найдены ссылки на документы, содержащие слова: «идти», «идет», «шел», «шла» и т. д. На запрос «окно» будет выдана информация, содержащая и слово «окон», а на запрос «отзывали» – документы со словом «отозвали». Таким образом, можно подавать запрос на естественном языке, представляя область поиска лишь в общем виде.
При этом поиск не ограничен только словами или фразами. Яndex отыщет по названию Web-страницу компании или файл с нужной картинкой.
Страница поиска Яndex (рис. 3.1) позволяет задать фразу для поиска. Сузить область поиска до рамок тематических разделов можно с помощью каталога (нижняя часть окна), а также переключателя Везде – Каталог – Новости – Маркет – Энциклопедии – Картинки. Его позиция Каталог ведет на страницу Яndex. Каталог (http://yaca.yandex.ru/) – см. рис. 3.2, – где, кроме разделов, есть возможность выбора географического региона, справочной информации и типа сайта.
Рис. 3.1. Страница поиска Яndex
Позиция Новости приведет на страницу Яndex.Новости (http://news.yandex.ru/) – рис. 3.3. Яндекс. Новости – первая российская служба автоматической обработки и систематизации новостей, предоставляемых ее партнерами – ведущими мировыми и российскими СМИ. Поступающая информация анализируется компьютерной программой, которая объединяет содержательно близкие новости в сюжеты и выделяет главные темы дня.
Автоматическое формирование сайта гарантирует беспристрастное отражение информационной картины дня. Отсутствие человеческого вмешательства позволяет объективно организовывать сюжеты, помещая рядом сообщения, которые могут содержать совершенно разные точки зрения. Таким образом пользователь получает возможность сравнить, как одно и то же событие отражено в различных СМИ. Поиск доступен не только по свежим новостям, но и по огромному архиву информационных сообщений, ведущемуся с 2000 года. Результаты поиска сгруппированы по сюжетам, но существует возможность их сортировки в хронологическом порядке.
Позиция переключателя Маркет приведет вас на страницу Яндекс. Маркет (http://market.yandex.ru/), которая позволит вести поиск товаров по категориям и моделям, а позиция Энциклопедии – на страницу Яндекс. Энциклопедии (http://encycl.yandex.ru/), представленную на рис. 3.4, с которой вы осуществите поиск по энциклопедиям и словарям разнообразной тематики.
С позиции Картинки можно перейти на страницу поиска изображений (http://images.yandex.ru/), который ведется по названию файла, по подписи к нему (тэгу ALT) и тексту ссылки. Укажите при этом, если требуется, относительный размер искомых картинок: большие, маленькие и т. д.
Кроме перечисленного, имеются специальные виды поиска:
• расширенный (кнопка
Расширенный поиск рядом с кнопкой Найти, адрес страницы – http://www.yandex.ru/advanced.html);
• поиск для КПК (http://pda.yandex.ru/);
• поиск для слабовидящих (http://large.yandex.ru/);
• «семейный» поиск (http://family.yandex.ru/) – с учетом полуавтоматически строящегося фильтра, исключающего из результатов «сайты для взрослых», страницы с ненормативной лексикой и порнографией;
• аскетичный поиск (http://www.ya.ru/) – поиск со страницы без графики (рис. 3.5); результаты поиска выводятся также без рекламных баннеров;
• дзен-поиск (http://dzen.yandex.ru/) – некая медитация поисковой машины: запрос для поиска берется откуда-то из высших сфер.
На странице регионального поиска (http://www.yandex.ru/regions.html), показанной на рис. 3.6, отметьте галочкой регионы, по которым вы хотите получить информацию. Если не отмечен ни один их них, поиск будет вестись по всему Internet (всей базе Яndex).
В результатах поиска используются следующие термины:
• уникальный URL (страница, документ). В Internet часто одни и те же документы лежат на разных серверах или же на одном сервере, но в разных кодировках. Яndex умеет определять совпадения документов и индексирует как уникальный только один из группы одинаковых. Дубликаты видны пользователю, когда в списке найденного под одним заголовком оказывается несколько URL;
• уникальный сервер (хост) – это сервер, где проиндексирован хотя бы один документ;
• объем проиндексированной информации – суммарный объем всех проиндексированных уникальных документов;
• объем индекса – объем индексной базы Яndex, по которой осуществляется поиск информации.
На страницах результатов запроса, одна из которых представлена на рис. 3.7, можно отсортировать найденную информацию по релевантности или по дате – первыми показывать документы, наиболее соответствующие запросу, либо созданные или измененные недавно. Кроме того, в вашем распоряжении другие средства, облегчающие просмотр найденных документов. В частности, можно включить функцию поиска в найденном для уточнения запроса, выйти на другие страницы сайта или исследовать похожие документы.
Весьма полезной является предоставляемая поисковой системой Яndex подписка на поисковый запрос (http://www.yandex.ru/subscribe/). Это означает, что вам регулярно будет пересылаться информация об индексировании документов. Так, подписка на запрос, содержащий название вашей компании (торговую марку, наименование продукта, фамилию директора) поможет подобрать опубликованные в Internet материалы, касающиеся деятельности фирмы. Таким образом, вы сможете узнавать, когда появятся обновленные или новые страницы по интересующей вас теме. Достаточно задать в подписке соответствующие запросы, и на ваш адрес начнет поступать нужная информация, как только она появится в Internet и робот Яndex до нее доберется. Оформив подписку на запрос, вы будете получать необходимые сведения по мере поступления новых или изменения уже существующих в базе данных документов. Запрос в подписке осуществляют аналогично запросу к поисковой машине Яndex. В результате на указанный вами электронный адрес время от времени будут приходить уведомления следующего вида:
Subject: Подписка Яndex: inotec
Date: Wed, 4 Oct 2000 07:13:54 +0400 (MSD)
From: subscribe@yandex.ru
To: your@address.ru
Добрый день!
По вашему запросу «inotec» появилась новая информация.
Новые результаты по запросу: inotec
Найдено: серверов – 5 8
Показано серверов: 58
Список найденных документов находится по адресу: http://www.yandex.ru/subscribe/view.pl?doc=6794411097554607
Изменить параметры подписки
Остановить подписку на этот запрос
–
С уважением,
Администрация службы подписки, subscribe@yandex.ru
–
На любой из своих страниц вы можете создать форму для обращения к поисковому сервису Яndex (описание находится по адресу http://www.yandex.ru/info/addyandex.html) и осуществлять поиск в Internet с нее, но можно ограничиться и своим сайтом. Единственное условие, предъявляемое владельцами ресурса, – сохранение дизайна страницы с результатами поиска.
Яndex давно предлагает пользователям возможность поиска без набора запроса – по слову, выделенному в окне браузера.
Чтобы зарегистрировать свой сайт в базе поисковой системы Яndex, воспользуйтесь ссылками Добавить сайт (http://www.yandex.ru/addurl.html) и Регистрация в каталоге (http://www.yandex.ru/advertising/catalog.html).Данный текст является ознакомительным фрагментом.