Секреты поиска: построение поискового запроса
Секреты поиска: построение поискового запроса
Поисковая машина генерирует список документов, релевантных запросу пользователя. Если запрос не выражает то, что нужно найти, – соответственно, результаты поиска будут не те, которых вы ожидали.
Поэтому для эффективного поиска, в первую очередь, необходимо правильно сформулировать поисковый запрос. Его составляют так, чтобы область поиска была максимально конкретизирована и сужена. В запрос следует включать несколько ключевых слов, наиболее полно раскрывающих суть предмета, информацию о котором вы ищете.
Примечание
Основную смысловую нагрузку в поисковом запросе несут имена существительные, гораздо реже нужны прилагательные, а использовать в поисковом запросе глаголы практически бесполезно.
Если в результате вы получите наиболее релевантные ссылки в верхней части списка, то можно считать, что поиск был произведен успешно.
Примечание
Не следует составлять слишком сложный запрос, так как в результате может быть не найдено ни одного документа. Оптимальным результатом поиска является 10–20 ссылок, среди которых можно быстро отыскать две-три нужные.
При поступлении запроса от пользователя поисковая машина просматривает всю проиндексированную информацию и выдает соответствующий список документов. Поисковые механизмы на первом месте располагают документы, которые содержат максимум слов из вашего запроса. Найденные ссылки сортируются в зависимости от месторасположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления. Таким образом, в верхней части списка, полученного с помощью поисковой машины, размещены ссылки на сайты, в которых искомые слова встречаются чаще всего. Поэтому основная задача пользователя во время поиска в Интернете – получить список ссылок, которые максимально соответствуют поисковому запросу.
Чрезвычайно важно при поиске информации в Интернете – как можно больше сузить область поиска. Найти нужные сайты возможно только в том случае, если пользователь сумел подобрать в поисковом запросе именно те слова, которые действительно несут основную смысловую нагрузку.
Например, набрав запрос реферат на тему Финансовый анализ в Excel, вы получите всего несколько ссылок, в которых представлена совсем не та информация, которую вы ищете. Дело в том, что поисковая система будет искать страницы, в которых встречаются все эти слова—и слово «реферат», и «на тему», и «финансовый анализ в Excel». Причем, учитывая особенности построения поисковых запросов, последняя фраза будет искаться в точности так, как она была сформулирована. Запрос финансовый анализ в Excel предоставит вам несколько другие результаты.
Не стоит винить поисковую машину в том, что она не нашла нужную информацию – она всего лишь ответила на ваш запрос. Перефразируя известное выражение, можно сказать: «Каков запрос – таков ответ».
В идеале процесс поиска должен выглядеть примерно так. Сначала лучше сформулировать общий запрос и получить результат, в котором следует выделить описания более-менее подходящих ссылок. Затем необходимо добавить к запросу общие ключевые слова, которые есть в описании нужных веб-страниц, и повторить процесс. Если вы все делаете правильно, то каждый запрос должен приближать вас к нужной информации. Вы должны выступать в виде своеобразной обратной связи, с каждым шагом уменьшая несоответствие между необходимой вам информацией и тем, что выдает поисковая система.
Для иллюстрации вышесказанного рассмотрим еще один небольшой пример – представьте себе, что вам необходимо найти расписание поездов, проходящих через Киев. В качестве общего запроса можно так и «спросить» поисковую систему: расписание всех поездов, проходящих через Киев. Однако по такому запросу, например, Яндекс находит лишь расписания поездов, проходящих через Самару, Тернополь, но Киева среди результатов поиска не видно. Это ни в коем случае не означает, что такой информации в базе поисковой системы нет, просто запрос был сформулирован не совсем удачно.
Вы помните, что любая поисковая система старается найти страницы, на которых находится максимальное количество слов из вашего запроса, более того, если эти слова еще следуют друг за другом, то такие страницы будут выведены первыми. Например, если в тексте страницы встречается фраза «расписание всех поездов, проходящих через Самару», то даже при отсутствии фразы «расписание всех поездов, проходящих через Киев» система определит, что они имеют пять общих слов, то есть с большой вероятностью сайт, содержащий эти слова, вам подойдет. Хотя это и не так. Поэтому необходимо откорректировать запрос, убрав из него все ненужное и оставив только то, что точно характеризует необходимую вам информацию. В рассматриваемом примере «словами-паразитами» являются слова «всех», «проходящих» и «через», которые могут встречаться практически на любой странице. Набрав откорректированный запрос расписание поездов Киев, вы получите в точности то, что искали.
У каждой поисковой машины своя уникальная методика поиска, от эффективности которой зависит результативность поисковика, то есть релевантность полученного списка ссылок, и как результат – успех на рынке поисковых машин. Механизм поиска не только хранится в секрете, но и регулярно меняется.
В настоящее время поисковые механизмы ищут документы не только по строгому соответствию введенному запросу. Все поисковые машины, которые работают с русскоязычным текстом, умеют проводить морфологический поиск. Это означает, что программа будет искать формы слов, включенных в поисковый запрос, а также их синонимы. То есть поиск будет касаться не только определенного падежа или числа, но и всей парадигмы слова.
Сегодня многие поисковые машины используют технологии полнотекстового поиска. Этот способ отличается прежде всего тем, что поиск документов в этом случае не зависит от наличия словаря синонимов и форм использованных в запросе слов и позволяет находить документы в тех случаях, когда смысл слова меняется в зависимости от контекста. Второе важное отличие полнотекстовых систем – они работают со всем текстом документа, а не только с ключевыми словами.
Согласно общей классификации, поиск бывает простым, расширенным и сложным.
Простой поиск
Чаще всего большинство пользователей применяют именно простой поиск. Принцип его использования описан выше: необходимо сформулировать запрос и получить список ссылок, соответствующих ему.
Самая важная задача этого этапа – правильно подобрать слова для создания поискового запроса. Они должны быть, во-первых, характерными для документов, которые вы ищете, во-вторых, нехарактерными для нерелевантных документов.
Получив список ссылок, следует провести его обработку. В первую очередь, увидев результат и определив ненужные ссылки, вы сможете уточнить поисковый запрос – либо сформулировать его по-другому, либо использовать его для построения дополнительного запроса.
Расширенный поиск
Расширенный поиск (в зарубежных системах – Advanced Search) позволяет получить меньше ссылок, чем простой, но при этом их релевантность значительно повышается. Большинство поисковых машин работают с этой технологией. Для перехода к расширенному поиску предназначена специальная ссылка на главной странице поисковой машины (рис. 9.1).
Рис. 9.1. Окно расширенного поиска поисковой машины Google
В данном режиме с помощью специальных средств можно задать более точные критерии отбора и сузить область поиска. В этом случае расширенным является только набор критериев поиска, а вот область поиска в большинстве случаев существенно сужается.
Параметры расширенного поиска у разных поисковых машин похожи, но их использование и построение запроса могут несколько различаться. Рассматриваемый способ относится к профессиональным инструментам поиска. Здесь доступно гораздо больше параметров запроса, но правильное их применение позволит получить гораздо лучший результат.
Для запуска предназначена специальная ссылка рядом с полем для поиска. Вам необходимо заполнить поля формы, в результате поисковая машина на основе заданных параметров сформирует сложный запрос и выполнит его. Для успешного использования всех возможностей расширенного поиска необходимо изучить его особенности и доступные возможности.
Рассмотрим некоторые инструменты расширенного поиска. В поисковых системах Google и Rambler доступна настройка типа вхождения поискового запроса на искомые страницы. При этом возможны следующие варианты.
• Любое слово. В результате поиска составляется список всех индексированных страниц, содержащих любое из слов поискового запроса. Нередко в этом случае количество полученных ссылок велико. Такой поиск может быть удобен, когда пользователь не уверен в правильности подбора ключевых слов. Например, если вы точно не знаете, как называется какой-то термин, задайте в поисковом запросе оба названия.
• Все слова. В этом режиме формируется список всех индексированных страниц, содержащих все ключевые слова в произвольном порядке. При этом сохраняется вероятность получения результатов, не соответствующих поисковому запросу.
• Точная фраза. При использовании данного режима составляется список страниц, содержащих фразу, точно совпадающую с ключевой, знаки препинания при этом игнорируются. В список не попадут сайты, посвященные одной теме, описываемой с использованием разных выражений. Обычно поиск точной фразы будет проводиться, если поисковый запрос взять в кавычки. Например, вы хотите найти текст песни, но не помните, как она называется и кто ее написал, но зато точно знаете, что в ней есть слова «на поляне траву зайцы в полночь косили». Введите эту фразу в окно запроса и заключите ее в кавычки – система найдет документы, содержащие фразу.
В окне расширенного поиска системы «Яндекс» с помощью переключателя употреблены в тексте можно выбрать один из двух вариантов: в любой форме или точно так, как в запросе. Выбор второго варианта означает поиск точного совпадения с текстом запроса (рис. 9.2).
Рис. 9.2. Возможности расширенного поиска «Яндекса»
Кроме этого, работая с «Яндекс» и Rambler, вы можете ограничить расстояние между словами поискового запроса – они могут идти подряд, в одном предложении, не очень далеко или на одной странице. Это важно, когда слова запроса составляют логически цельное словосочетание, например «издательство Питер», «расписание поездов» и т. д.
В расширенном поиске с помощью «Яндекса» можно ограничить ссылки регионом (например, Минск, Украина, Москва).
Большинство поисковых машин в параметрах расширенного поиска позволяют ограничить найденные ссылки другими параметрами. Например, вы можете задать поиск страниц только на одном языке, ограничить сайты определенным диапазоном дат обновления (это удобно, если вам нужно, например, найти только самые новые документы). Кроме того, вы можете задать поиск документов определенного типа (например, только HTML, DOC, RTF, PPT или PDF-файлы).
Многие поисковые машины позволяют ограничить поиск фрагментом страницы. Например, вы можете указать, что фраза поискового запроса должна встречаться только в заголовке страницы или же в основной части, в адресе или в любом месте документа.
Еще одно удобное решение, доступное среди параметров расширенного поиска, – поиск фразы запроса на определенном сайте. Такая возможность на сегодняшний день доступна для всех поисковых машин, она позволяет получить список документов с одного сайта. Например, на сайте с базой данных рефератов вы хотите найти реферат по нужной теме. Можно, конечно, вручную пересмотреть разделы каталога, приблизительно соответствующие вашей теме, но лучше задать запрос и провести поиск на этом веб-ресурсе. Поисковая машина предоставит вам список страниц, на которых находится нужная информация, только данного сайта (рис. 9.3).
Рис. 9.3. Поиск Rambler для определенных сайтов
Поисковые системы Google и «Яндекс» позволяют также получить список сайтов, похожих на заданный. В параметрах расширенного поиска Rambler можно исключить из полученного списка ссылки, в которые входит заданное слово.
Сложный поиск
Сложный поиск предусматривает возможность использования особенностей специального языка поисковых запросов. Хотя для каждой поисковой системы существует свой, уникальный язык запросов, их возможности похожи.
Язык запросов практически каждой поисковой машины содержит операторы двух типов: логические и операторы расстояния.
• Логические операторы определяют включение/исключение из поиска группы слов.
– AND (и) – поиск документов, содержащих все термины, соединенные данным оператором.
– OR (ИЛИ) – текст должен содержать хотя бы один из терминов, соединенных данным оператором.
– NOT (НЕ) – поиск документов, в тексте которых отсутствуют термины, следующие за оператором.
• Операторы расстояния ограничивают порядок следования и расстояния между словами.
– NEAR – второй термин должен находиться от первого на расстоянии, не превышающем определенного количества слов.
– FOLLOWED BY – термины следуют в заданном порядке.
– ADJ – термины, соединенные оператором, являются смежными.
Наряду с этими, наиболее типичными, в язык поисковых запросов могут входить и другие операторы.
В разных поисковых машинах каждому из этих операторов соответствуют свои обозначения. Обычно детальнее узнать о них можно на странице помощи. Ниже я расскажу о некоторых элементах языка поисковых запросов самых популярных поисковых машин. Работу операторов сложного поиска рассмотрим на примерах решения наиболее типичных задач.
• Найденные ссылки должны содержать точную фразу поискового запроса.
Такую фразу следует заключить в кавычки. Это правило справедливо для всех поисковых машин.
• В найденных документах должно быть несколько слов из поискового запроса.
В этом случае удобно применить логический оператор AND (и), использование которого означает одновременный поиск нескольких слов, вошедших в запрос. В «Яндекс» и Rambler этому оператору соответствует знак &, в Google эту функцию выполняет обычный символ +. Таким образом, запись книжный & магазин в строке поиска «Яндекс» или Rambler будет означать поиск сайтов, страницы которых содержат оба слова поискового запроса. В Google вам для этого нужно будет написать книжный + магазин.
• В документе должно быть хотя бы одно слово поискового запроса.
В этом случае необходимо использовать оператор OR (ИЛИ). В поисковых системах Rambler и «Яндекс» ему соответствует символ |, а в Google следует применять знак ~. Запрос аэроплан |самолет|планер|дирижабль|аэростат|вертолет|пепелац, заданный в «Яндекс» или Rambler, позволит найти страницы, где встречается хоть одно из этих слов. При поиске с помощью Google запрос задается так: аэроплан-самолет-планер.
• Одно слово поискового запроса должно обязательно входить в результирующие ссылки.
При работе с «Яндекс» и Rambler перед такими словами нужно поставить знак +. Обратите внимание, что перед этим символом необходимо ставить пробел, а после него – нет. Например, для поиска известной цитаты из «Гамлета» нужно набрать быть +или +не быть.
• Из итогового списка ссылок необходимо исключить документы с определенными словами.
Для этого следует применить логический оператор NOT (НЕ). В «Яндекс» и Google такие слова помечают символом —, в Rambler для этого предназначен знак!. Данный оператор нужно вводить после ключевого слова через пробел и слитно с необязательным словом. Например, запрос карта Парижа – (агентство | тур) позволит найти карту, а не агентства и туры по Франции.
• Слова поискового запроса должны располагаться на определенном расстоянии друг от друга.
В этом случае синтаксис каждой поисковой машины индивидуален. В некоторых поисковых задачах термины могут идти в разном порядке, причем между ними может быть установлен произвольный интервал. Добавив между словами запроса оператор / (n т), вы получите интересующие вас страницы. Если при работе с Яндекс вы введете запрос справочная / (2 4) литература, то будут найдены документы, в которых слово «справочная» удалено от «литература» на два слова влево и на четыре вправо.
Если вы точно знаете не только расстояние, но и порядок слов запроса, в котором они должны идти в тексте интересующих вас страниц, укажите между символом / и числом-расстоянием символ + для прямого порядка слов или – для обратного.
Если вы хотите найти отчество Тургенева, то введите запрос Иван /+2 Тургенев. Будут найдены страницы, где между словами «Иван» и «Тургенев» есть ровно одно слово.
В поисковой машине Rambler значение ограничения контекста можно изменять конструкцией (число, запрос), где число – любое положительное число. Таким образом, по запросу (2, красная армия) будут найдены только те документы, в которых между словами «красная» и «армия» хотя бы раз не стоит ни одного слова (поскольку лишь в случае их непосредственного соседства разница в порядковых номерах меньше двух, то есть равна единице).
Помните, что при построении сложных запросов вас выручат скобки. Например, если вы ищете описание мумие, но не хотите наталкиваться на прайсы интернет-магазинов, можете задать такой запрос: мумие && (лечение | лечебный | болезни)~~(цена | прайс | рубли доллар | фирма | магазин). Будут найдены все страницы, где есть слово «мумие», а также любое из слов «лечение», «лечебный» или «болезни» и нет ни одного из слов, перечисленных после оператора —.
Все слова, которые вы приводите в запросе, по умолчанию ищутся с учетом морфологии. Чтобы отключить ее, введите оператор! перед словом (без пробела).
Например, на запрос! день будут найдены страницы, где слово день встречается только в такой форме.
Если одна или несколько форм слова совпадает с другими словами, могут найдены лишние страницы. Указав нормальную форму слова с помощью оператора!! вы уберете из списка ненужное.
С подробностями использования поискового движка Google можно ознакомиться по адресу http://www.google.com.ua/intl/uk/help/refinesearch.html. Страница помощи «Яндекс» размещена по адресу http://www.yandex.ru/info/index.html, а поисковую помощь системы Rambler вы найдете здесь: http://www.rambler.ru/doc/help.html.
Дополнительной возможностью является поиск среди обнаруженных страниц. Если ссылок найдено слишком много, то всегда можно добавить к запросу еще одно ключевое слово и повторить поиск.
Данный текст является ознакомительным фрагментом.