Обзор поисковых систем
Обзор поисковых систем
Российские поисковые системы
Яndex
Поисковая машина Яndex (http://www.yandex.ru/) обладает наибольшей в российской части Internet базой данных и развернутой системой формирования запроса. Ею индексируется информация российских (домены RU и SU) и зарубежных серверов, имеющих в своем составе страницы, написанные на русском языке.
Дата официального открытия Яndex – 23 сентября 1997 года. Идея, разработка и техническое обеспечение проекта принадлежат компании с одноименным названием.
Яndex – это полнотекстовая информационно-поисковая система, учитывающая морфологию русского языка. Таким образом, в индекс попадают все слова, найденные на Web-странице, за исключением самых частотных слов русского и английского языков (стоп-слов). Все лексические единицы, попавшие в индекс, доступны для поиска. Адресом слова в Яndex являются документ (точнее, его URL-адрес), номер предложения и номер слова внутри предложения. Кроме страниц сайтов, поиск идет по новостям информационных агентств и по товарам электронных магазинов.
Обнаружив новую или измененную страницу, Яndex ее индексирует. В этом случае страница разбивается на элементы (текст, заголовки, подписи к картинкам, ссылки и т. д.), содержание которых заносится в индекс. При этом учитываются позиции слов, то есть их положение в документе или его элементе. Сам документ в базе не хранится.
Яndex индексирует страницы по их истинным адресам. Это значит, что, если на странице стоит перенаправление (например, с помощью метатэга HTTP– EQUIV="Refresh"), робот воспримет его как ссылку на новый адрес и поставит ее в очередь на индексирование. То же самое произойдет, если в одном из фреймов будет стоять ссылка на другой сервер. В частности, если эта ссылка находится вне доменов, разрешенных по умолчанию, страница не будет проиндексирована. Робот Яndex хранит дату последнего обхода каждой страницы, дату ее изменения, присланную Web-сервером, и информацию о времени внесения последних изменений в базу поиска (дату индексации). Он оптимизирует обход Сети таким образом, чтобы чаще посещать наиболее изменяемые серверы.
Яndex индексирует документ полностью: текст, заголовок, подписи к картинкам, описание (description), ключевые слова и некоторую другую информацию.
Робот работает со стандартными ссылками языка HTML (HREF, LINK и FRAME), то есть так, как работал бы пользователь с отключенными Java и JavaScript.
Поиск учитывает все морфологические формы слов запроса по правилам русского языка. Например, при запросе «идти» в результате поиска будут найдены ссылки на документы, содержащие слова: «идти», «идет», «шел», «шла» и т. д. На запрос «окно» будет выдана информация, содержащая и слово «окон», а на запрос «отзывали» – документы со словом «отозвали». Таким образом, можно подавать запрос на естественном языке, представляя область поиска лишь в общем виде.
При этом поиск не ограничен только словами или фразами. Яndex отыщет по названию Web-страницу компании или файл с нужной картинкой.
Страница поиска Яndex (рис. 3.1) позволяет задать фразу для поиска. Сузить область поиска до рамок тематических разделов можно с помощью каталога (нижняя часть окна), а также переключателя Везде – Каталог – Новости – Маркет – Энциклопедии – Картинки. Его позиция Каталог ведет на страницу Яndex. Каталог (http://yaca.yandex.ru/) – см. рис. 3.2, – где, кроме разделов, есть возможность выбора географического региона, справочной информации и типа сайта.
Рис. 3.1. Страница поиска Яndex
Рис. 3.2. Страница поиска Яndex.Каталог
Позиция Новости приведет на страницу Яndex.Новости (http://news.yandex.ru/) – рис. 3.3. Яндекс. Новости – первая российская служба автоматической обработки и систематизации новостей, предоставляемых ее партнерами – ведущими мировыми и российскими СМИ. Поступающая информация анализируется компьютерной программой, которая объединяет содержательно близкие новости в сюжеты и выделяет главные темы дня.
Автоматическое формирование сайта гарантирует беспристрастное отражение информационной картины дня. Отсутствие человеческого вмешательства позволяет объективно организовывать сюжеты, помещая рядом сообщения, которые могут содержать совершенно разные точки зрения. Таким образом пользователь получает возможность сравнить, как одно и то же событие отражено в различных СМИ. Поиск доступен не только по свежим новостям, но и по огромному архиву информационных сообщений, ведущемуся с 2000 года. Результаты поиска сгруппированы по сюжетам, но существует возможность их сортировки в хронологическом порядке.
Позиция переключателя Маркет приведет вас на страницу Яндекс. Маркет (http://market.yandex.ru/), которая позволит вести поиск товаров по категориям и моделям, а позиция Энциклопедии – на страницу Яндекс. Энциклопедии (http://encycl.yandex.ru/), представленную на рис. 3.4, с которой вы осуществите поиск по энциклопедиям и словарям разнообразной тематики.
С позиции Картинки можно перейти на страницу поиска изображений (http://images.yandex.ru/), который ведется по названию файла, по подписи к нему (тэгу ALT) и тексту ссылки. Укажите при этом, если требуется, относительный размер искомых картинок: большие, маленькие и т. д.
Кроме перечисленного, имеются специальные виды поиска:
• расширенный (кнопка
Расширенный поиск рядом с кнопкой Найти, адрес страницы – http://www.yandex.ru/advanced.html);
• поиск для КПК (http://pda.yandex.ru/);
• поиск для слабовидящих (http://large.yandex.ru/);
• «семейный» поиск (http://family.yandex.ru/) – с учетом полуавтоматически строящегося фильтра, исключающего из результатов «сайты для взрослых», страницы с ненормативной лексикой и порнографией;
• аскетичный поиск (http://www.ya.ru/) – поиск со страницы без графики (рис. 3.5); результаты поиска выводятся также без рекламных баннеров;
• дзен-поиск (http://dzen.yandex.ru/) – некая медитация поисковой машины: запрос для поиска берется откуда-то из высших сфер.
На странице регионального поиска (http://www.yandex.ru/regions.html), показанной на рис. 3.6, отметьте галочкой регионы, по которым вы хотите получить информацию. Если не отмечен ни один их них, поиск будет вестись по всему Internet (всей базе Яndex).
В результатах поиска используются следующие термины:
• уникальный URL (страница, документ). В Internet часто одни и те же документы лежат на разных серверах или же на одном сервере, но в разных кодировках. Яndex умеет определять совпадения документов и индексирует как уникальный только один из группы одинаковых. Дубликаты видны пользователю, когда в списке найденного под одним заголовком оказывается несколько URL;
• уникальный сервер (хост) – это сервер, где проиндексирован хотя бы один документ;
• объем проиндексированной информации – суммарный объем всех проиндексированных уникальных документов;
• объем индекса – объем индексной базы Яndex, по которой осуществляется поиск информации.
На страницах результатов запроса, одна из которых представлена на рис. 3.7, можно отсортировать найденную информацию по релевантности или по дате – первыми показывать документы, наиболее соответствующие запросу, либо созданные или измененные недавно. Кроме того, в вашем распоряжении другие средства, облегчающие просмотр найденных документов. В частности, можно включить функцию поиска в найденном для уточнения запроса, выйти на другие страницы сайта или исследовать похожие документы.
Весьма полезной является предоставляемая поисковой системой Яndex подписка на поисковый запрос (http://www.yandex.ru/subscribe/). Это означает, что вам регулярно будет пересылаться информация об индексировании документов. Так, подписка на запрос, содержащий название вашей компании (торговую марку, наименование продукта, фамилию директора) поможет подобрать опубликованные в Internet материалы, касающиеся деятельности фирмы. Таким образом, вы сможете узнавать, когда появятся обновленные или новые страницы по интересующей вас теме. Достаточно задать в подписке соответствующие запросы, и на ваш адрес начнет поступать нужная информация, как только она появится в Internet и робот Яndex до нее доберется. Оформив подписку на запрос, вы будете получать необходимые сведения по мере поступления новых или изменения уже существующих в базе данных документов. Запрос в подписке осуществляют аналогично запросу к поисковой машине Яndex. В результате на указанный вами электронный адрес время от времени будут приходить уведомления следующего вида:
Subject: Подписка Яndex: inotec
Date: Wed, 4 Oct 2000 07:13:54 +0400 (MSD)
From: subscribe@yandex.ru
To: your@address.ru
Добрый день!
По вашему запросу «inotec» появилась новая информация.
Новые результаты по запросу: inotec
Найдено: серверов – 5 8
Показано серверов: 58
Список найденных документов находится по адресу: http://www.yandex.ru/subscribe/view.pl?doc=6794411097554607
Изменить параметры подписки
Остановить подписку на этот запрос
–
С уважением,
Администрация службы подписки, subscribe@yandex.ru
–
На любой из своих страниц вы можете создать форму для обращения к поисковому сервису Яndex (описание находится по адресу http://www.yandex.ru/info/addyandex.html) и осуществлять поиск в Internet с нее, но можно ограничиться и своим сайтом. Единственное условие, предъявляемое владельцами ресурса, – сохранение дизайна страницы с результатами поиска.
Яndex давно предлагает пользователям возможность поиска без набора запроса – по слову, выделенному в окне браузера.
Чтобы зарегистрировать свой сайт в базе поисковой системы Яndex, воспользуйтесь ссылками Добавить сайт (http://www.yandex.ru/addurl.html) и Регистрация в каталоге (http://www.yandex.ru/advertising/catalog.html).Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
8.1.2. Обзор различных типов файловых систем
8.1.2. Обзор различных типов файловых систем ЗАМЕЧАНИЕ. Обсуждение в данном разделе специфично для Linux. Однако, у многих современных систем Unix также есть сходные особенности. Мы рекомендуем вам изучить документацию своей системы. Исторически V7 Unix поддерживал лишь один тип
Обзор операционных систем и ядер
Обзор операционных систем и ядер Из-за неуклонного роста возможностей и не очень качественного построения некоторых современных операционных систем, понятие операционной системы стало несколько неопределенным. Многие пользователи считают, что то, что они видят на
Эволюция факторов ранжирования поисковых систем
Эволюция факторов ранжирования поисковых систем Несмотря на сделанные еще в 1960 — 1970 — х предсказания фантастов, лет двадцать – двадцать пять назад мало кто догадывался, что вскоре для поиска любой информации миллионы людей будут обращаться к Глобальной cети. Трудно
SEO и алгоритмы поисковых систем: ключи, отмычки, кувалды
SEO и алгоритмы поисковых систем: ключи, отмычки, кувалды Их служба и опасна, и трудна, и бессонна. SEO-аналитики – белая кость и красные глаза оптимизации. Вопреки расхожему мнению, они не «взламывают “Яндекс”», а пробуют разгадать механизмы его работы, его «предпочтения».
3.7. Обзор возможностей современных систем управления политиками безопасности
3.7. Обзор возможностей современных систем управления политиками безопасности Как правило, современные системы управления политиками безопасности используют лицензированные библиотеки политик безопасности, разработанные другими компаниями. Так, например, продукт
Тайны других поисковых систем
Тайны других поисковых систем Этот раздел я начну, пожалуй, с самого популярного поискового сервиса Рунета — Яндекса. Простой поиск в системе Яндекс ничем не отличается от такого же процесса в Google. А вот используемые операторы различны. Кроме того, некоторые операторы
Поиск с помощью языка операторов запросов поисковых систем как инструмент раскрутки блога
Поиск с помощью языка операторов запросов поисковых систем как инструмент раскрутки блога Чтобы блог пользовался успехом у читателей, он должен содержать полезные для них материалы – об этом мы уже говорили. Если вы выбрали в качестве контента не художественные
Запрос страницы сайта, сохраненной в кэше различных поисковых систем
Запрос страницы сайта, сохраненной в кэше различных поисковых систем Рис. 30. Запрос страницы сайта компании «Автоленд» из кэша Google, полученный через панель управления на ресурсе Fagan
Обман поисковых систем. Спамдексинг. Клоакинг. Дорвеи. Свопинг[29]
Обман поисковых систем. Спамдексинг. Клоакинг. Дорвеи. Свопинг[29] Для того чтобы по ключевым запросам сайты находились на верхних местах в поисковых системах, часто применяется поисковый спам, то есть попытки обмана поисковой системы и манипулирования результатами с
Пишите для людей, а не для поисковых систем
Пишите для людей, а не для поисковых систем Осмелимся предположить, что Google и «Яндекс» вряд ли являются вашими покупателями. Скорее всего, ваша целевая аудитория – обычные люди. Поэтому не перенасыщайте описания товаров и другой контент тоннами ключевых слов с целью
Как правильно писать тексты для поисковых систем
Как правильно писать тексты для поисковых систем SEO-копирайтинг предполагает написание текстов с целью оптимизации поиска сайта. Статьи пишутся с использованием ключевых слов и призваны поднимать рейтинг сайта в поисковых системах (Google, Yandex, Rambler и др.).Естественно, сайт,
Основные отличия текстов для поисковых систем и для людей
Основные отличия текстов для поисковых систем и для людей Не секрет, что тексты, написанные для посетителей и оптимизированные под поисковые системы, сильно отличаются.Так, создаваемые для людей статьи должны быть понятны и просты в своем изложении, при этом их должно
НОВОСТИ: Не Гуглом единым. Следующее поколение поисковых систем уже на подходе
НОВОСТИ: Не Гуглом единым. Следующее поколение поисковых систем уже на подходе Автор: Денис КоновальчикШаги весны явственно слышны не только в природе, но и в мире поисковых систем. Словно россыпь подснежников, в марте на свет появился целый букет новых многообещающих
8.13. ОБЗОР ОСОБЕННОСТЕЙ ПРОЕКТОВ ПРИКЛАДНЫХ СИСТЕМ
8.13. ОБЗОР ОСОБЕННОСТЕЙ ПРОЕКТОВ ПРИКЛАДНЫХ СИСТЕМ Проектируя систему одного из перечисленных далее типов, имеет смысл обратиться к одному из соответствующих решений. Далее рассматриваются следующие типы систем:— системы пакетной обработки — обработка данных
10.2. ОБЗОР CASE-СИСТЕМ
10.2. ОБЗОР CASE-СИСТЕМ На сегодняшний день российский рынок программного обеспечения располагает следующими наиболее развитыми CASE-средствами:• Vantage Team Builder (Westmount I–CASE);• Designer/2000;• Silverrun;• ERwin+BPwin;• S-Designor;• CASE.Аналитик;• Rational Rose.Кроме того, на рынке постоянно появляются