1.5.1. Простой поиск

1.5.1. Простой поиск

Начинающие пользователи обычно используют самый простой вариант поиска — поиск "в лоб", при котором в поисковой строке набирается исходное выражение или слово и запускается процесс. Как мы уже видели при разборе языка запросов, в этом случае поиск ведется по принципу вхождения в анализируемые документы как всего выражения, так и отдельных его частей. Попробуем и мы провести такой поиск.

В качестве примера попробуем найти архитектурный проект жилого дома. Поиск будем вести по всем разделам. Впишем поисковое выражение в поле формы запроса, не используя дополнительных параметров. Если вы привыкли работать с клавиатурой, то вместо того, чтобы щелкнуть в форме поиска указателем мыши на кнопке Найти, можно на клавиатуре нажать на клавишу <Enter>. Несколько секунд (скорость в первую очередь зависит от скорости вашего соединения с Интернетом) — и откроется страница результатов. На этой странице есть тексты, поясняющие результаты поиска, и ссылки, дающие возможность сортировать найденное или уточнять запрос (рис. 1.7).

В случаях, когда поиск ведется по всем разделам, Яндекс будет искать не только документы и сайты, но и новости, товары, картинки, словарные статьи и иную информацию, соответствующую запросу. Если в "параллельных" базах что-то будет найдено, Яндекс покажет информацию среди результатов поиска. Вверху или внизу страницы будут результаты поиска по новостям, словарям, картам, афише, погоде, а в правой колонке — информация, полученная о товарах и картинках. В правой колонке также публикуются объявления службы Яндекс. Директ, в которых в качестве ключевых слов используются слова поискового запроса. Но если таких объявлений Яндекс не отыщет, вместо них будет присутствовать приглашение о размещении объявления по вашему запросу.

Добиться отсутствия результатов довольно сложно, разве что задавать в поиске заведомо несуществующие слова. Как правило, что-то в ответ на свой запрос вы получите. А вместе с результатом и дополнительную информацию.

Пролог

Прежде чем просматривать результат поиска, обратите внимание на строки, предваряющие его. Здесь размещена очень интересная и полезная информация. В первой строке — количество найденных страниц и сайтов, содержащих ключевые слова. Чем точнее поставлен вопрос, тем меньше будут эти значения, тем больше вероятность найти требуемое.

Пример

Результат поиска: страниц — 95 865, сайтов — не менее 1 885.

Следующая строка показывает статистику Индекса, а если точнее — сколько раз ключевые слова встречаются в проиндексированных документах. Чем чаще слово употребляется в текстах, тем больше будет это значение.

Пример

Статистика слов: архитектурный — 15 063 257, проект — 497 340 239, жилого — 59 541 623, дома — 787 144 580.

Обратите внимание, что если слова запроса были взяты в кавычки, например, при поиске цитаты, то в строке Статистика слов все слова будут приведены с предшествующим знаком! определяющим обязательность включения слова в поиск.

И, наконец, в последней строке приводятся статистические данные по количеству запросов, в которых было использовано каждое из ваших ключевых слов.

Пример

Запросов за месяц: архитектурный — 33 779, проект — 273 903, жилого — 26 366, дома — 1 062 700.

А что бывает, когда вы ошиблись в написании слова? Мы уже говорили, что Яндекс использует при обработке запроса морфологический анализ. В результате он способен определить, что вы написали слово с ошибкой и предложить свой вариант. Например, если в нашем примере вместо слова проект мы напишем прокт, Яндекс предложит нам корректный вариант, снабдив его предположением, не опечатка ли это. Впрочем, не всегда следует пользоваться этими подсказками. В некоторых случаях некорректное написание слова было выполнено специально. К примеру, всем известно слово "агентство", но не все пишут его правильно. Очень часто это слово пишут так: агенство (по информации Яндекса, в его Индексе это слово с ошибкой встречается 7 783 366 раз, а количество запросов за месяц составило 152 952.) Если вести поиск по правильному написанию, то документы, где слово написано с ошибкой, в результаты поиска не попадут.

Есть и другие случаи, когда Яндекс воспринимает правильно написанное слово иначе, предлагая другой вариант. По всей видимости, критерием "правильно-неправильно" в данном случае служит частота употребления слова. Поэтому редко встречающиеся слова, похожие на часто употребительные, могут быть восприняты как написанные с ошибкой.

Но, конечно, далеко не всегда Яндекс может правильно определить, какое слово было задумано посетителем.

Пример

Посетитель написал слово колеки, вместо того, чтобы написать калеки. Яндекс, подумав, решил, что должно было быть написано слово колени. С точки зрения Яндекса предложенное им слово находится ближе к исходному, чем первоначально задуманное посетителем.

В том случае, если на ваш запрос ничего не было найдено, Яндекс предложит вам повторить поиск. К примеру, если поисковое выражение стояло в кавычках, будет предложено выполнить аналогичный поиск, но кавычки убрать.

Орфографическая проверка

Предположение о том, что слово в строке поиска набрано неверно, строится не на пустом месте. Определить корректность написания слов помогает орфографический словарь либо статистика написания слова, полученная в результате индексирования интернет-страниц. Однако в наши дни новые слова, названия компаний, фамилии людей появляются не по одному каждый день, и уследить за ними одному Яндексу было бы проблематично. Создать словарь, в который были бы занесены все слова русского языка, и, самое главное, поддерживать его в актуальном состоянии, не сможет ни одна команда, как бы подготовлена и обеспечена она ни была. Зачастую слова приходят из других языков, совершенно не соответствуют правилам русского языка, нечитаемые и непроизносимые. При появлении таких слов в запросах Яндекс ранее предлагал их исправить, предполагая, что человек допустил опечатку.

В 2005 году был запущен новый алгоритм, участвующий в разборе и анализе таких ситуаций. Его цель — создание словаря исправлений. Запросы пользователей собираются и анализируются, обрабатывается статистика. Если оказывается, что по какому-то слову есть много вариантов исправлений, то из кластера выбирается похожее слово из числа наиболее распространенных в Интернете. Таким образом, появляется база пар "плохих" и "хороших" слов — слов с ошибками и исправленных, и каждое слово в запросе пользователя теперь проверяется по такому "народному" словарю. Набранная статистика позволяет отбирать наиболее употребляемые варианты написания слов, за счет чего и происходит поддержка орфографического словаря.

Транслитерация

Слова могут быть написаны с ошибкой, которую вы можете не заметить. Например, если в слове встречаются символы русского и английского алфавита, близкие по начертанию. Например, в слове "передача" первая буква "а" была взята из английского алфавита. Яндекс "с удовольствием" принял запрос, заменил некорректную букву на русскую "а" и в результатах поиска представил документы, содержащие корректное написание слова "передача". Самое интересное все же в том, что в этом же списке результатов могут присутствовать и документы, в которых ключевое слово написано именно так, как в вашем запросе. Аналогичным образом конвертируются слова, содержащие хотя бы одну русскую букву.

Конвертируются следующие буквы (полужирным выделены английские): e — е — ё, a — а, В — В (только прописные), c — с, g — д (только строчные), k — к, n — п (только строчные), o — о, p — р, u — и (только строчные), x — х, y — у.

Иначе обстоит дело, если слово набрано на транслите. Яндекс правильно преобразует его в слово на русском языке, например, слово "peredacha" будет представлено как "передача". При этом поиск в документах ведется по исходному слову, а русский вариант предлагается в качестве возможного в преобразовании с транслита. Если предположение Яндекса верно, щелкнув на слове передача, вы откроете страницу с результатами поиска по этому ключевому слову.

Не конвертируются слова, в которых есть хотя бы одна цифра. Например, в слове "переgача1" буква "g" не будет заменена на букву "д". Не конвертируются и слова, состоящие из одной буквы, например, предлог "c". И цифра "0" буквой "О" не заменяется. Она подпадает под предыдущее условие, что слова с цифрой не подлежат транслитерации. Обратите внимание на то, что транслитерация идет только в одном направлении — с латинского (английского) на русский. Но не обратно. И напомню, что надо делать, чтобы избежать конвертирования слова, если вам требуется поиск с точным его написанием. Для этого достаточно в поле запроса записать ключевое слово с предшествующим ему восклицательным знаком, например, так:!переgача.

Все, о чем было сказано ранее, в Яндексе называется прологом. Тем, что еще не является собственно результатом. И лишь после пролога выводится та часть, которая нам нужна более всего — результаты поиска.

Результаты поиска

Сколько бы ни было найдено документов, информация по каждому из них формируется на основе единых правил и включает одни и те же информационные блоки. Это — заголовок документа, его описание, фрагмент и статус. В свою очередь каждый из этих блоков может состоять из нескольких элементов.

Заголовок документа

Каждый результат имеет свой порядковый номер. Он служит только для удобства ориентирования на странице и иной функциональности не несет.

А вот следующая информация в заголовке результата уже имеет ценность. Это — название документа, в котором были найдены слова, входящие в запрос. Для веб-страниц название берется из тега <title>, поэтому полностью зависит от того, что в него включил разработчик. Если тег <title> не заполнен, вместо названия страницы вписывается ее адрес (URL). Для документов в других форматах название берется из их свойств, а если в свойствах файла название отсутствует, вместо него берется имя файла.

Если заголовок осмысленный, то даже по нему можно оценить соответствие найденной страницы запросу. Но могут быть и иные заголовки, не несущие какой-либо информации, например, page5. Вряд ли по этому названию удастся оценить найденное. Если в заголовок входят ключевые слова, они будут выделены в нем полужирным шрифтом.

Пример

Архитектурный проект жилого дома, 3 экземпляра, общей пл. 320.

Заголовок является ссылкой, поэтому щелчок на нем левой кнопкой мыши приведет к переходу на найденную страницу либо к загрузке файла. Будет ли ссылка открыта в этом же окне, либо в новом, зависит от настроек страницы результатов поиска.

Описание документа

Ниже заголовка может находиться строка, в которой выводится описание документа, сделанное его автором. Для веб-страницы это описание берется из тега <meta name="description">. Если такой тег на странице не найден, описание документа не приводится. Хотя возможен и иной вариант. Если документ найден на сайте, который есть в каталоге Яндекса, описание может быть взято из каталога. Если же сайт найден по ссылке, то в описании приводится ее текст.

Фрагмент текста

В число фрагментов, показываемых в результатах поиска, включаются части документа, содержащие слова запроса. Количество фрагментов не превышает пяти и определяется настройками результатов поиска. Каждый фрагмент содержит все или часть заданных для поиска слов. В соответствии с правилами сортировки обычно вначале списка находятся ссылки на документы, в которых слова расположены именно так, как это задано в условии поиска. Ключевые слова выделяются во фрагментах полужирным шрифтом, за исключением стоп-слов, даже если они входят в состав запроса.

Статус документа

Следом за фрагментами текста следует строка с адресом найденного документа. Это тот же самый адрес, который является ссылкой у заголовка. Отличие лишь в том, что по этой ссылке переход на найденную страницу не осуществляется — это только текст. Здесь же дается информация о размере страницы и дата последнего изменения, если сервер ее отдает. Любой из этих элементов может быть спрятан из показа путем настройки.

Следующая за описанием строка представляет набор ссылок. На тот момент, когда я готовил эту главу, количество их варьировалось от нуля до трех. Все зависело от причин, которые мы сейчас рассмотрим.

Первая ссылка ведет на сохраненную копию страницы в базе данных Яндекса. Такая ссылка появилась в конце 2006 года, заменив собой ссылку Найденные слова. Что это значит для пользователя? Раньше Яндекс хранил у себя только текст всех проиндексированных страниц. Поэтому, чтобы показать слова, которые были указаны в запросе на найденной странице, приходилось снова идти на исходный сайт. И возникала проблема, если со времени последней индексации страница изменилась, либо была удалена.

Замена хранения текста страницы на ее полноценную копию снимает эту проблему. Теперь, переходя по ссылке Сохраненная копия, вы увидите ту страницу, которая была проиндексирована роботом вне зависимости от того, изменялась она впоследствии или нет. Подобные копии сделаны для очень многих страниц, но еще не для всех. Поэтому не у всех найденных документов будет ссылка на их сохраненные копии.

Следующая ссылка, которая может присутствовать в этой строке выдачи результатов, показывает, сколько еще документов с найденного сайта отвечает вашему запросу. Переход по ней равносилен использованию в системе расширенного поиска ограничения на поиск по определенному сайту.

Наконец, если найденная страница размещена на сайте, зарегистрированном в каталоге Яндекса, будет отображена рубрика, которой он принадлежит. Переход по этой ссылке приведет вас в соответствующий раздел каталога.

Эпилог

Сказанное относится к описанию найденного документа. Осталось рассмотреть, что выводится на странице поиска после списка результатов.

На странице по умолчанию выводится до 10 ссылок на документы. Если их больше, под последней размещается строка с номерами следующих страниц, на которые вы можете перейти, если первых результатов оказалось недостаточно. Статистика говорит о том, просматривают обычно не более 3-х страниц, но Яндекс дает возможность просмотреть и остальные.

Результаты поиска сортируются по их релевантности запросу. Но вы можете изменить сортировку, заменив ее сортировкой по дате документа. В этом случае первыми будут документы с наиболее поздней датой создания или изменения.

В процессе формирования списка результатов Яндекс определяет, к каким регионам относится большинство найденных сайтов. Эти регионы представлены в виде их названий, и если перейти по любому из них, будут показаны только сайты, относящиеся к этому региону.

Одновременно с этим поисковая система определяет принадлежность найденных сайтов к тематическим разделам каталога Яндекса (если отобранные сайты в нем присутствуют). В строке в рубрике полужирным шрифтом выделены разделы верхнего уровня, а в скобках — подрубрики. Нажав на одну из ссылок, вы отберете только те сайты, которые относятся к заданной теме.

Пример

Если вы хотите найти информацию о том, как нужно гадать под Рождество, введите в строке поиска слово коляда, а затем перейдите по ссылке в рубрику Тосты и сценарии.

И остается последняя строка страницы результатов. Это — поиск вашего запроса в других поисковых системах. Если ответ Яндекса на ваш запрос оказался недостаточно точным, попробуйте сформулировать запрос иначе либо задайте его другим поисковым системам. Достаточно нажать на ссылку с именем поисковика, и в новом окне откроются его результаты поиска.

Хорошо это или плохо? Следует ли уводить своих посетителей на другие поисковые системы? Не приведет ли это к тому, что пользоваться станут ими, а не Яндексом? Этот вопрос не раз задавался разработчикам, да и они сами наверняка долго обсуждали эту проблему, прежде чем предоставить возможность перехода на другие поисковики. Решили сделать так потому, что никакой робот не в состоянии проиндексировать весь Рунет (я приводил выше количество проиндексированных документов, которое постоянно растет), тем более невозможно сделать это в режиме реального времени. А полнота данных — один из важнейших показателей при поиске. Поэтому были выбраны поисковые системы, которые могли бы помочь пользователям найти дополнительную информацию, отсутствующую в Яндексе.

Что немаловажно, статистика переходов на другие поисковые системы сделана общедоступной, и ее можно просмотреть в раздел Статистика на странице Переходы на поисковые системы. Оказалось — ничего страшного. Переходов много, но они составляют все же небольшой процент по отношению к использованию самого Яндекса. А вот понаблюдать за этой статистикой довольно интересно (табл. 1.5). Видно, какие поисковики пользуются популярностью, а какие нет, какие разделы Яндекса оказываются для посетителей менее привлекательными в плане поиска информации, а какие их вполне устраивают.

Если на ваш запрос было найдено большое количество документов, вы можете уточнить его. Даже без использования возможностей расширенного поиска вам доступно два варианта. При этом вам не потребуется вводить запрос заново. Под строкой ввода запроса есть два флажка: искать в найденном и в регионе, в качестве которого подставляется ваш регион, определенный либо по вашему IP, либо взятый из ваших настроек.

В случае, если целью уточнения запроса является поиск по региону, установите флажок и выполните запрос заново. В полученном списке будут ссылки на документы, имеющие отношение к указанному региону. Если вы хотите уточнить запрос, поставьте флажок в поле искать в найденном, а в строку поиска впишите уточняющие ключевые слова или выражение. Этот поиск будет вестись только по тем документам, которые были отобраны в предыдущем поиске.

Данный текст является ознакомительным фрагментом.



Поделитесь на страничке

Похожие главы из других книг:

Простой пример

Из книги автора

Простой пример Начнем с простого примера: наложим переход на изменение фона ссылки. Когда пользователь будет наводить на ссылку, цвет ее фона будет меняться, и мы применим переход, чтобы сделать это изменение плавным. Такого эффекта раньше можно было добиться


Создаём простой пул

Из книги автора

Создаём простой пул Освоив ранее основные понятия, мы научились понимать ZFS. Для обратной же задачи — чтобы ZFS понимала нас — нужно ознакомиться с её командами. Главные из них — две: zpool для создания и управления пулами, и zfs для создания и управления наборами данных.


Поиск на научных сайтах с использованием платформы Flexum «Поиск по научным сайтам»

Из книги автора

Поиск на научных сайтах с использованием платформы Flexum «Поиск по научным сайтам» Тема научного поиска не прошла мимо разработчиков персональных поисковиков. Подробному рассказу о возможностях таких поисковых систем посвящена отдельная глава нашей книги (см. главу 6).


Простой пример

Из книги автора

Простой пример Конечно, приведенный выше пример довольно сложен — ведь он написан на машинном языке и в шестнадцатиричном виде. Но его можно упростить, ведь отладчик в Windows XP поддерживает как ASCII-символы, так и язык «Ассемблера».Вот упрощением мы сейчас и займемся.


Яндекс. Поиск – быстрый поиск документов

Из книги автора

Яндекс. Поиск – быстрый поиск документов Документы, как известно, имеют премерзкое свойство накапливаться. И чем больше документов, тем труднее в их залежах найти нужный. Электронные документы здесь не слишком отличаются от бумажных. Проблема места для хранения, правда,


Глава 12 Поиск с предпочтением: эвристический поиск

Из книги автора

Глава 12 Поиск с предпочтением: эвристический поиск Поиск в графах при решении задач, как правило, невозможен без решения проблемы комбинаторной сложности, возникающей из-за быстрого роста числа альтернатив. Эффективным средством борьбы с этим служит эвристический


18.5.1. Простой цикл for

Из книги автора

18.5.1. Простой цикл for Этот цикл просто выводит на экран список, который состоит из " 1 2 3 4 5". Чтобы получить доступ к каждой переменной, в качестве параметра имя_переменной указывается "loop".$ pg for_i#!/bin/sh# for_ifor loop in 1 2 3 4 5doecho $LOOP doneПриведенный выше сценарий выводит следующие данные:$


18.6.1. Простой цикл until

Из книги автора

18.6.1. Простой цикл until Этот сценарий непрерывно ищет пользователя "root" и выполняет команду who. Результат выполнения команды grep содержится в переменной IS_ROOT.Если пользователь "root" обнаружен, цикл завершает обработку. Затем пользователю simon направляется электронное


18.7.1. Простой цикл while

Из книги автора

18.7.1. Простой цикл while Ниже приводится основная форма цикла while. Условие тестирования состоит в том, что если "COUNTER is less than 5", условие останется истинным. Переменная counter имеет начальное значение нуль, и ее значение увеличивается на постоянную величину при выполнении цикла.$ pg


Создаём простой пул

Из книги автора

Создаём простой пул Освоив ранее основные понятия, мы научились понимать ZFS. Для обратной же задачи – чтобы ZFS понимала нас – нужно ознакомиться с её командами. Главные из них – две: zpool для создания и управления пулами, и zfs для создания и управления наборами данных.


Простой класс

Из книги автора

Простой класс Что представляет собой класс можно выяснить, изучая простой, но типичный пример, который демонстрирует фундаментальные свойства, применимые практически ко всем