5.3. Поиск в Интернете

5.3. Поиск в Интернете

Поиск информации в Интернете считается наиболее сложным типом поиска. Особенно сильно это чувствуется, если нужно найти что-то конкретное. Причина сложности заключается даже не в том, что в Интернете существуют миллиарды страниц, а вам нужно найти лишь одну из них, самую полезную. Причина сложности заключается в релевантности страниц.

Каждый веб-мастер хочет, чтобы его страница была самой посещаемой на просторах Интернета. Как правило, для реализации этой мечты необходимо только одно – чтобы на как можно большее количество запросов поисковые системы выдавали в первой десятке результатов адрес этой страницы. А как это можно сделать?

Создатели поисковых систем решили, что это можно сделать только постоянным трудом и как можно более качественным материалом на странице.

Однако это очень сложный и долгий путь, который не подходит для большинства веб-мастеров. Вместо этого они идут другим путем – пытаются создать такую страницу, которая бы удовлетворяла всем условиям поисковой системы и в результате появилась в первой десятке результатов. Для этого они вставляют в страницу как можно больше ключевых слов и пользуются другими методами, обманывающими поисковые системы.

В итоге получается такая ситуация, когда в результатах поисках находится множество вроде бы очень интересных и нужных страниц, а при открытии этих страниц выясняется, что там практически нет никакой нужной информации, кроме двух-трех известных всем предложений. Причем, как правило, эти предложения на всех страницах одинаковые. Иначе говоря, веб-мастер ничего не предпринимал, чтобы написать нужную вам статью, а просто взял все с какой-то другой страницы.

В общем, процесс поиска в Интернете – дело неоднозначное, положительный результат которого не гарантирован, и вам нужно сразу же готовиться к тому, что полной удовлетворенности от найденной в результате информации не будет.

Поисковые системы. Для поиска в Интернете предназначены специальные сайты, называемые поисковыми системами. Таких систем существует огромное множество. Все они делятся на два типа: поисковые системы для общего поиска и специализированные поисковые системы. Поисковые системы для общего поиска хранят сведения обо всех страницах Интернета, независимо от их содержания или назначения. Специализированные же поисковые системы собирают сведения лишь о тех сайтах и страницах, которые посвящены отдельному направлению развития человечества либо отдельному продукту. Например, существуют специализированные поисковые системы, которые содержат ссылки на описания различных медицинских препаратов.

Работа всех поисковых систем основана на так называемых поисковых роботах. Поисковым роботом называется сценарий, который индексирует содержимое страниц Интернета. Делается это очень просто: как только поисковый робот загружает какую-либо страницу, он по каким-то определенным правилам, которые знают лишь создатели конкретной поисковой системы, индексирует ее содержимое, выставляя ему уровни релевантности при поиске с помощью различных запросов. После того как он проиндексирует содержимое страницы, он ищет ссылки, которые есть на этой странице, и переходит по ним на другие страницы (предпочтение отдается тем ссылкам, по которым находятся еще никогда не индексированные роботом страницы). В результате получается, что, однажды запустив поискового робота (указав ему первый адрес для индексации), можно больше и не заботиться о нем.

ПРИМЕЧАНИЕ

Как правило, индексация содержимого тегов <SCRIPT> не выполняется.

Но что же такое релевантность? Релевантность – это процент соответствия страницы поисковому запросу. Правила, по которым определяется релевантность страницы, индивидуальны для каждой поисковой системы. Некоторые поисковые системы держат эти правила в секрете, некоторые же публикуют правила релевантности на своих сайтах.

В целом релевантность документа зависит от ряда факторов, в том числе от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и т. д.

Теперь рассмотрим основные популярные поисковые системы, которые доступны русскоязычному пользователю.

Google

Дата создания: сентябрь 1998 года.

Адрес: http://www.google.com.ua (украинский сайт), http://www.google.ru (русский сайт), http://www.google.com/intl/xx-hacker/ (хакерский) и многие другие.

Данная поисковая система предназначена для поиска информации на любых языках, однако в первую очередь специализируется на поиске веб-страниц на английском языке.

Большинство старых и уважаемых поисковых систем со временем превращаются в настоящие порталы. Не миновало это и поисковую систему Google. Помимо поиска, она предоставляет следующие возможности.

? Desktop – программа Google Desktop, которую мы уже рассматривали при описании программ для локального поиска.

? «Блокнот» – позволяет быстро сохранять нужную информацию при просмотре веб-страниц.

? «Картинки» – дает возможность поиска изображений в Интернете.

? «Каталог» – позволяет выполнять поиск страниц по разделам каталога поисковой системы Google.

? «Новости» – свежие новости из многочисленных источников.

? «Панель инструментов» – позволяет установить в браузере панель инструментов для быстрого доступа к возможностям поисковой системы Google.

? «Поиск по блогам» – позволяет выполнять поиск по блогам поисковой системы Google.

? Blogger – с помощью данного проекта вы сами можете создать свой блог для изложения всех своих мыслей и переживаний.

? Gmail – почтовая система, возможности которой мы уже рассматривали.

? Picasa – позволяет организовывать, редактировать и размещать фотографии в сети.

? Talk – дает возможность общаться в чате и звонить друзьям через Интернет.

? «Группы» – различные форумы и списки рассылок поисковой системы Google.

? «Документы» – позволяет создавать документы и вести совместные проекты.

? «Календарь» – сетевой календарь. Доступ к данному календарю можете получить не только вы, но и ваши друзья. Иными словами, они всегда будут в курсе того, что вы делаете сегодня и где вас можно найти.

? «Переводчик» – позволяет переводить веб-страницы.

? Google Page Creator – дает возможность за считанные минуты создать и опубликовать в Интернете свою собственную страницу. Данный сервис доступен на странице http://pages.google.com.

Казалось бы, такое количество дополнительных возможностей должно было существенно ухудшить процесс поиска, повысив размер главной страницы поисковой системы до невероятных размеров. Однако это не так – основная страница сайта поисковой системы содержит лишь поле для поиска, а также ссылки на основные сервисы поисковой системы. Весь же список сервисов поисковой системы Google представлен на странице http://www.google.com.ua/intl/ru/options/.

Правила поиска

Но перейдем к теме данной главы. Как же правильно искать страницы при помощи Google? Как и в других системах, необходимо ввести слово либо фразу, по которой поисковая система будет выполнять поиск.

Знаки препинания. Прежде всего, следует понимать, что поисковая система Google не распознает знаки препинания, а также пропускает такие символы, как восклицательные, вопросительные знаки или знак @. Это сделано для того, чтобы поиск проходил как можно быстрее, а результаты были наиболее полными.

ПРИМЕЧАНИЕ

Из этого правила есть несколько исключений. Например, поисковая система Google может обрабатывать запросы C++ и $10. В будущем исключений будет больше, так как уже сейчас разработчики этой поисковой системы ищут пути включения в поиск различных терминов вроде C/net.

Логические операции. Между двумя и более словами искомой фразы можно устанавливать логические связи. Это делается при помощи специальных операторов, большинство из которых должны быть вам известны из школьного курса информатики.

Например, OR позволяет установить логическую связь ИЛИ, то есть указать, что нужно найти страницы, содержащие либо то, либо другое слово. Проще всего это понять на примере. Так, по поисковому запросу отпуск Лондон OR Париж будут отображены все страницы, в которых встречаются слова отпуск Лондон или отпуск Париж.

Одиночные цифра, буквы и отдельные слова. По умолчанию поисковая система Google игнорирует отдельные буквы, цифры, а также незначащие слова (например, где, как, the, who, and), которые указываются в запросах. В качестве примера рассмотрим несколько поисковых фраз и то, как они будут обработаны поисковой системой.

? The Sound and the Fury – фраза состоит всего из двух слов, поиск которых будет выполняться. Это слова Sound и Fury. Остальные слова данного запроса будут проигнорированы.

? Звездные войны эпизод I – в данном случае будет проигнорирован только символ I, то есть поиск будет вестись только по фразе Звездные войны эпизод.

? The Who – поскольку данный запрос состоит только из незначащих слов, он будет выполнен «как есть». Иными словами, поисковая система выполнит поиск всей фразы.

Понимая то, что в некоторых случаях поиск по незначащим словам может быть просто необходим, разработчики поисковой системы включили возможность обхода игнорирования незначащих слов и отдельных символов. Это можно сделать двумя способами: либо поставить перед незначащим словом знак + (например, Звездные войны эпизод либо взять всю поисковую фразу в кавычки (например, «The Sound and the Fury»).

Знак + говорит о том, что слово либо символ, перед которым стоит данный знак, обязательно должны быть включены в поисковый запрос.

Ограничение поисковой фразы кавычками используется для того, чтобы найти страницы с точным соответствием введенной фразе. Например, такой способ часто применяется для поиска человека по его имени и фамилии.

Диапазон чисел. Поисковая система Google поддерживает возможность поиска на страницах не только определенного числа, но и чисел, находящихся в определенном диапазоне. Для этого достаточно поставить между двумя числами, определяющими нижний и верхний порог диапазона, две точки без пробелов. Например, автомобиль вес 1000..3000 кг.

Знак подстановки. При выполнении поиска в Google можно использовать знак подстановки *. Он применяется для указания того, что между двумя искомыми словами может находиться любое другое слово (либо несколько слов). Например, поисковый запрос витамин * полезный для * диабет выполнит поиск всех страниц, на которых имеется слово витамин, за которым идет фраза полезный для, а после нее встречается слово диабет.

Калькулятор. Одной из особенностей поисковой системы Google является встроенный в нее калькулятор. Иначе говоря, вы можете ввести в поля для поиска выражение, которое поисковая система самостоятельно посчитает, после чего отобразит результаты по вычисленному выражению. Как правило, поисковая система автоматически определяет выражения, которые нужно подсчитать. Однако вы можете и вручную указать выражение для вычисления. Для этого достаточно поставить после выражения знак =.

Встроенный калькулятор Google поддерживает следующие операторы.

? + – сложение двух чисел.

? – вычитание одного числа из другого.

? * – умножение одного числа на другое.

? / – деление одного числа на другое.

? ^ – возведение одного числа в степень, указанную другим числом. Например, 8 во второй степени записывается как 8^2. Более того, для вычисления степени можно использовать выражения, подобные следующему: кв. корень из 2.

? % – остаток от деления одного числа на другое.

? Choose – количество вхождений одного элемента в другой. Например, 18 choose 4.

? th root of – n-ный корень числа. Например, 5th root of 32.

? % of – количество процентов от числа. Например, 20 % of 150.

? Sqrt(число) – возведение числа в квадрат.

? Sin(число), cos(число), tan(число) и т. д. – синус, косинус, тангенс и другие стандартные тригонометрические функции от числа.

? ln(число) – логарифм числа по основанию e.

? log(число) – логарифм числа по основанию 10.

? ! – факториал числа. Например, 5!.

? In – преобразование числа в одной системе в другую систему. Например, 5 kilometers in miles или даже 160 лошадиных сил * минуту в калориях. Калькулятор понимает множество систем счисления, причем может распознавать как полные формы названия системы, так и сокращенные. Например, он способен понимать следующие системы: kilometer, kilometers, km, mph, GW, miles, degrees, kg, in roman numerals.

При использовании функций калькулятора число можно указывать как в десятичной системе счисления, так и в других системах. По умолчанию число считается десятичным, однако вы можете самостоятельно добавить к нему один из префиксов, определяющих его систему счисления: 0x (шестнадцатеричная система счисления), 0o (восьмеричная система счисления), 0b (двоичная система счисления). Например, калькулятор способен вычислять подобные выражения: 0x7f + 0b10010101.

Конвертер валют. Помимо калькулятора, в поисковую систему Google встроен и конвертер валют, позволяющий автоматически выполнять их конвертацию. Для этого достаточно воспользоваться запросом, подобным следующим:

? 3,5 USD в RUB по курсу ЦБ;

? российская валюта в украинских деньгах;

? 5 российских рублей в валюте Великобритании;

? 5 фунтов стерлингов в рублях по курсу ЦБ;

? 3,2 доллара/галлон в рублях/литр.

Поиск специальных номеров. Поисковый механизм Google позволяет выполнять поиск по специальным номерам, относящимся к различным гражданским системам, организациям и услугам. Так, с ее помощью можно выполнить поиск следующих номеров:

? номера отслеживания UPS – для этого нужно воспользоваться запросом вида 1Z9999W99999999999;

? номера отслеживания FedEx – воспользуйтесь запросом вида 999999999999;

? номера отслеживания USPS– укажите запрос вида 9999 9999 9999 9999 9999 99;

? идентификационные номера транспортных средств (VIN) – для этого нужно воспользоваться запросом вида AAAAA999A9AA99999;

? коды UPC – воспользуйтесь запросом вида 073333531084;

? номера патентов– укажите запрос вида («patent 5123123»).

Поисковые команды

Помимо обычного поиска в содержимом страниц, с помощью Google можно выполнять специальный поиск. Для этого предназначены специальные команды, которые тем или иным образом ограничивают круг результатов поиска. Эти команды имеют следующий формат: <команда>:<искомое слово>. Как правило, команды используются совместно с самой искомой строкой. Другими словами, сначала вы вводите слово, которое нужно искать, а потом уже команду, ограничивающую результаты поиска.

Поисковая система Google поддерживает следующие команды.

? define:<слово или фраза> – поиск определения слова (страницы, которые, как предполагает поисковая система, содержат определение данного слова, будут отображаться первыми в результатах).

? allintext:<слова через пробел> – отобразить только те страницы, в содержимом которых встречаются указанные слова (поиск в заголовке страницы и ссылках, которые расположены на странице, вестись не будет).

? intext:<слово> – показать только те страницы, в содержимом которых встречается указанное слово (поиск данного слова в заголовке страницы и ссылках, которые расположены на странице, вестись не будет). При использовании данной команды указывается только одно искомое слово – на остальные указанные слова действие команды распространяться не будет.

Например, при запросе intext: style one design поисковая система отобразит все страницы, в содержимом которых встречается слово style, а также в заголовке, содержимом или в гиперссылках которой встречаются слова one и design.

? site:<адрес сайта> – указать поисковой системе, что введенную фразу нужно искать только на страницах, принадлежащих указанному в команде сайту.

Например, запрос поисковые системы site: www.onestyle.com.ua отобразит все страницы сайта www.onestyle.com.ua, на которых встречается фраза поисковые системы.

Помимо адреса сайта, в данной команде можно указывать только домен. Например, site: com.

? allintitle:<список слов через пробел> – поиск сайтов, в заголовке которых встречаются указанные в команде слова.

Например, по запросу allintitle: дизайн программирование будут найдены все страницы, в заголовке которых присутствуют слова дизайн и программирование.

? intitle:<слово> – поиск сайтов, в заголовке которых встречается указанное в команде слово. От команды allintitle: она отличается тем, что вместе с ней можно указывать слово или фразу, поиск которой будет выполняться в содержимом документа.

Например, по запросу alltitle: дизайн программирование будут найдены все страницы, в заголовке которых присутствует слово дизайн, а в содержимом – слово программирование.

? allinURL:<список слов через пробел> – поиск сайтов, адреса которых содержат указанные слова. Например, команда allinURL: one style отобразит все сайты, в адресе которых встречаются слова one и style.

? inURL:<слово> – поиск сайтов, адреса которых включают в себя указанное слово. Вместе с данной командой можно указывать и слова для поиска в содержимом документа.

Например, команда inURL: one style покажет все страницы, в адресе которых встречается слово one, а в содержимом – слово style.

? cache:<адрес страницы> – будет отображена указанная страница, хранящаяся в кэше поисковой системы Google. Над выведенной страницей будет указана последняя дата ее индексации.

Данную команду можно использовать в том случае, если вы хотите получить доступ к документу, который уже был удален с сайта, однако остался в базе данных Google (был проиндексирован).

Например, команда cache: www.onestyle.com.ua дизайн отобразит указанную страницу www.onestyle.com.ua и выделит на ней все слова дизайн.

? аll inlinks:<слова через пробел> – отобразить только те страницы, в именах которых встречаются указанные слова.

? link:<адрес страницы> – показать все страницы, на которых встречается ссылка на сайт с указанным адресом.

? related:<адрес страницы> – отобразить все страницы, которые похожи на указанную (то есть содержат такой же или похожий текст).

? info:<адрес сайта> – может использоваться как заменитель команд related:, cache:, link:. Она отображает ссылку на указанную страницу, под которой будут находиться ссылки, с чьей помощью можно выполнить следующие действия:

• показать сохраненную в Google версию;

• найти похожие страницы;

• найти страницы, ссылающиеся на данную;

• найти страницы на данном сайте;

• найти страницы, упоминающие данную.

? filetype:<расширение>– в качестве результатов поиска отображать только файлы с заданным расширением. Поисковая система Google индексирует файлы со следующими расширениями:

• веб-страницы (HTM и HTML);

• Adobe Portable Document Format (PDF);

• Adobe PostScript (PS);

• Lotus 1-2-3 (WK1, WK2, WK3, WK4, WK5, WKI, WKS, WKU);

• Lotus WordPro (LWP);

• MacWrite (MW);

• Microsoft Excel (XLS);

• Microsoft Word (DOC);

• Microsoft PowerPoint (PPT);

• Microsoft Works (WKS, WPS, WDB);

• Microsoft Write (WRI);

• Rich Text Format (RTF);

• Shockwave Flash (SWF);

• Text (ANS, TXT).

Например, команда filetype: doc inurl: www.microsoft.com Vista выведет список всех файлов с расширением DOC, найденных на сайте www.microsoft.com и содержащих слово Vista.

Обратите внимание на ссылку В виде HTML, отображаемую напротив некоторых результатов поиска в поисковой системе Google. C ее помощью можно будет просмотреть содержимое найденного файла в виде HTML-страницы.

Результаты поиска

Итак, перед вами отобразились результаты поиска (рис. 5.19). Если вы искали по каким-то популярным фразам, то, скорее всего, количество результатов будет достигать миллиона. Сразу хочется сказать, что весь миллион результатов поиска вы просмотреть не сможете (хотя это, конечно, никому и не нужно) – разработчики поисковой системы Google ввели ограничение, по которому пользователи могут просматривать только первую тысячу результатов поиска.

Рис. 5.19. Один из результатов поиска

Предупреждение безопасности. При открытии некоторых страниц из результатов поиска может появиться сообщение о том, что данные страницы представляют угрозу для вашего компьютера. Оно появляется при попытке открытия страницы сайта, который определен поисковой системой как содержащий вредоносный код. Поэтому следует внимательно относиться к таким предупреждениям и трижды подумать перед тем, как открыть страницу, для которой отображается предупреждение.

Проверка орфографии. Поисковая система Google автоматически проверяет орфографию во фразе, которую вы ищете. Это проявляется в результатах поиска. Так, если вы неправильно ввели какое-либо слово для поиска, то над результатами отобразится ссылка Возможно, вы имели в виду: <правильный запрос>. Щелкнув кнопкой мыши на этой ссылке, вы сможете выполнить поиск по скорректированному запросу.

Элементы поиска на главной странице. И напоследок рассмотрим элементы поиска, отображаемые на главной странице поисковой системы (рис. 5.20). Например, на странице www.google.com.ua.

? Мне повезет! – наверное, вы уже обратили внимание на то, что напротив кнопки для обычного поиска расположена еще одна кнопка – Мне повезет!. Она ведет вас прямо на первую страницу результатов, которые поисковая система Google найдет по указанному запросу.

Рис. 5.20. Главная страница поисковой системы

? Языковые инструменты – с помощью данной ссылки можно перевести нужную страницу на один из множества языков, а также перейти на главную страницу поисковой системы, созданную специально для вашей страны либо созданную под определенный стиль (например, специально для хакеров).

? Настройки – используя эту ссылку, можно определить языки, на которых написаны страницы, отображаемые в результатах поиска; определить количество результатов, отображаемых на одной странице (но не больше 100); указать, будет ли при отображении результатов выводиться ссылка Возможно, вы имели в виду: <правильный запрос> и т. д. Кроме того, с помощью данной ссылки можно установить режим безопасного поиска. При использовании данного режима из результатов поиска будут исключаться все страницы, содержащие порнографию и материалы явно выраженного сексуального характера.

? Расширенный поиск – с помощью этой ссылки можно определить язык, регион, домен, формат искомых файлов, дату изменения и т. д. Другими словами, при помощи данной ссылки можно активизировать использование по умолчанию основных команд поисковой системы Google, которые мы уже рассмотрели.

Программа Google Desktop

Теперь ненадолго вернемся к программе, работу которой мы разобрали при рассмотрении возможностей локального поиска. С помощью данной программы можно выполнять поиск не только на локальном компьютере, но и в Интернете. Поиск в Интернете выполняется аналогично обычному поиску, поэтому описывать его я не буду. Однако хотелось бы обратить ваше внимание на две настройки данной программы.

? Поиск Google Desktop– эта вкладка окна настройки программы позволяет определить адреса сайтов, на которых поиск выполняться не будет.

? Другие – на этой вкладке того же окна присутствует флажок Включить безопасный просмотр. С его помощью можно установить режим, при котором программа будет выдавать сообщение, если просматриваемый сайт является мошенническим или небезопасным для компьютера.

ICQ бот 56544550

Вы еще не забыли, что выполнять поиск в поисковой системе Google можно и при помощи ICQ бота с номером 56544550? Для этого достаточно отправить данному боту команду Google <поисковый запрос>.

«Яндекс»

Дата создания: 1997 год.

Адрес: http://www.yandex.ru (полная версия), http://www.ya.ru/ (только поле поиска), http://dzen.yandex.ru/ (только кнопка поиска, для случайного поиска) и т. д.

Если вам нужно выполнить поиск страниц на русском языке, то лучше всего воспользоваться поисковой системой «Яндекс». Уже сейчас эта поисковая система считается одной из лучших систем для поиска страниц на русском и английском языках.

Особенностью «Яндекса» является полная поддержка всех правил морфологии русского языка (она и у поисковой системы Google, однако на данный момент не может похвастаться полнотой и правильностью работы). Таким образом, вам не нужно задумываться над тем, в какой форме или падеже указывать искомое слово. Например, если вы выполните поиск по слову компьютер, то поисковая система отобразит перед вами все страницы, на которых встречаются слова компьютер, компьютера, компьютеры и т. д.

С технической точки зрения данная поисковая система работает следующим образом. Поисковый робот просматривает страницу и составляет предварительный индекс ее содержимого. После этого все русские слова приводятся в нормальную форму (например, для существительных это именительный падеж единственного числа, а для глаголов – неопределенная форма), определяется их расположение на странице и характеристики. Все полученные таким образом сведения заносятся в базу данных индексированных страниц. Благодаря тому что перед индексацией слова переводятся в нормальную форму, достигается сокращение размера базы данных индекса на 30 %.

Правила поиска

По умолчанию запрос, состоящий из нескольких слов, трактуется следующим образом: найти все страницы, которые содержат слова запроса, расположенные недалеко друг от друга. При этом не учитывается фактическое расположение слов поискового запроса. Например, запрос красная шапочка приведет к отображению всех страниц, в которых слово красная и слово шапочка находятся в пределах нескольких предложений, причем совершенно не важно, какое из этих слов будет идти первым.

Расстояние между словами. Если же нужно еще больше расширить область поиска и выполнить поиск страниц, в которых введенные слова встречаются в пределах всей страницы, то следует поставить между словами искомой фразы символы &&.

Вместо оператора && можно воспользоваться оператором <<. Он также расширяет область поиска и выполняет поиск страниц, в которых введенные слова встречаются в пределах всей страницы. Однако при этом слово, которое находится справа от оператора <<, не будет влиять на ранжирование страниц результатов запроса.

Вы можете точно определить максимальное количество предложений, которые будут отделять одно искомое слово от другого. Для этого между словами запроса нужно поставить структуру вида &&/<максимальное количество слов>. Например, по запросу культура &&/2 Россия отобразятся все страницы, в которых слово Россия отделяется от слова культура не более чем двумя предложениями.

Кроме того, поисковая система позволяет искать страницы, в которых введенные слова встречаются в одном предложении. Для этого достаточно поставить между словами искомой фразы символы &. Например, по запросу культура & Россия отобразятся все страницы, содержащие в одном предложении и слово культура, и слово Россия.

Более того, вы можете точно определить максимальное количество слов, которые будут отделять одно искомое слово от другого. Для этого между словами вашего запроса нужно поставить оператор /<максимальное количество слов>. Например, по запросу культура /2 Россия отобразятся все страницы, в которых слово Россия отделяется от слова культура не более чем одним словом.

Усложняя задачу, можно прийти к еще одному виду операторов поисковой системы «Яндекс»: /(<минимальное количество слов> <максимальное количество слов>). С помощью такого оператора выполняется поиск фраз, в которых между словами может находиться не более определенного количества слов и не менее другого такого же определенного количества слов. Например, запрос космическая /(2 3) станция найдет страницы, на которых могут присутствовать фразы вида космическая орбитальная станция, космическая российская орбитальная станция, но при этом не будут найдены страницы, на которых есть фразы вида космическая станция.

Если же вы хотите выполнить поиск по жесткой фразе (то есть найти страницы, содержащие точную фразу, которая совпадает с введенной), то следует взять искомую фразу в кавычки. Например, «красная шапочка».

Порядок слов. Если для вашего запроса важен порядок расположения слов искомой фразы, то при его создании следует воспользоваться несколькими дополнительными возможностями поисковой системы «Яндекс».

Так, чтобы найти слова, которые идут в определенном порядке, достаточно поставить между ними знак + (в прямом порядке) или – (в обратном порядке). Например, при запросе Иван + Тургенев будут найдены все страницы, содержащие фразы вида Иван Тургенев и ни одной страницы с фразами вида Тургенев Иван.

Одной из особенностей поисковой системы «Яндекс» является возможность объединения операторов изменения расстояния между словами и операторов изменения порядка слов. Для этого достаточно поставить оператор порядка слов после знака / операторов изменения расстояния между словами. Например, немного усложним предыдущий запрос: Иван / + 2 Тургенев. С его помощью будут найдены все страницы, в которых между словами Иван и Тургенев находится одно слово. Причем, слово Иван всегда должно стоять перед словом Тургенев.

Теперь взгляните на еще один запрос: Васисуалий /(-1 +2) Лоханкин. Данный запрос отобразит перед вами только те страницы, которые содержат одну из фраз следующего вида:

? Лоханкин Васисуалий;

? Васисуалий Лоханкин;

? Васисуалий <слово> Лоханкин.

Логические операторы. Поисковая система «Яндекс» способна обрабатывать логические операторы типа ИЛИ и НЕ.

Так, для того чтобы выполнить поиск или слова 1, или слова 2, нужно поставить между ними знак |. Например, по поисковому запросу отпуск Лондон | Париж будут отображены все страницы, в которых встречаются слова отпуск Лондон или отпуск Париж.

Если же нужно найти все страницы, на которых нет определенного слова, то следует перед этим словом поставить оператор ~~. Например, запрос компьютерный журнал – CHIP отобразит все страницы, на которых встречаются слова компьютерный и журнал, но нет слова CHIP.

Кроме того, поисковая система «Яндекс» поддерживает еще одну разновидность логического оператора НЕ. Вы можете выполнить поиск страниц, на которых определенное слово не встречается рядом с другими словами поискового запроса (в пределах одного предложения). Иными словами, данное слово может встречаться на странице, однако оно не должно находиться рядом с одним из других слов поискового запроса. Для выполнения такого поиска применяется оператор ~. Например, команда дизайн уроки – услуги выполнит поиск всех страниц, на которых встречаются слова дизайн, уроки или услуги и при этом слово услуги не встречается рядом со словами дизайн или уроки.

Настройка морфологии. По умолчанию поиск всех слов, которые вы указываете, выполняется с учетом морфологии. Если же необходимо выполнить поиск без использования морфологии, то следует поставить перед искомым словом символ !. Например, поиск по фразе ! день отобразит все страницы, на которых присутствует слово день. Такие же страницы, на которых встречаются слова дня, дней, дни (а также деть, денешь и т. д., ведь слово день является и одной из форм слова деть) в результаты поиска не попадут.

Одной из проблем поиска с учетом морфологии является то, что формы некоторых слов могут совпадать. Например, форма день слова день и форма день слова деть. Чтобы решить эту проблему, достаточно указать поиск по слову в нормальной форме. Для этого нужно поставить оператор !! перед словом, расположенным в нормальной форме. Например, запрос !!день найдет все формы данного слова (дня, дню, днем и т. д.) и не найдет форм слова деть.

Зависимости между фразами. Мы рассмотрели способы установления зависимостей между отдельными словами, однако, помимо этого, можно определять зависимости между целыми фразами либо даже между зависимостями слов. Это несложно – достаточно взять отдельную фразу в круглые скобки.

В качестве примера рассмотрим такой запрос: мумие && (лечение | лечебный | болезни)—(цена | прайс | рубли | доллар | фирма | магазин). По данному запросу будут найдены все страницы, на которых присутствует слово мумие, а также одно из слов, символизирующих его лечебные качества. При этом на страницах не должно быть слов, связанных с покупкой этого предмета.

Изменение правил релевантности. Еще одной интересной особенностью поисковой системы «Яндекс» является возможность изменения релевантности отдельных слов в поисковом запросе.

Так, чтобы изменить вес отдельного слова, нужно поставить после него оператор :<вес>. Например, запрос поисковые механизмы:5 говорит о том, что на результирующих страницах более важно слово механизмы, а не слово поисковые.

Кроме того, поисковая система позволяет определить уровень нестрогого поиска (коэффициент «мягкости»). Иными словами, вы можете определить, будут ли в результаты поиска включаться страницы, которые содержат не все из тех слов, что вы указали в запросе (пассажи). Для этого предназначены запросы вида (слова через пробел)//<число от 1 до 100>. По умолчанию поиск ведется с коэффициентом мягкости, равным 6.

При коэффициенте мягкости, равном 50, количество найденных документов должно быть примерно равно среднему геометрическому чисел найденных документов при поиске всех возможных неполных пассажей. Подробнее о коэффициенте мягкости можно прочитать на странице http://company.yandex.ru/articles/romip2004.xml.

Команды поиска

Помимо обычных запросов, поисковая система «Яндекс» может обрабатывать и специальные, сформированные при помощи особых команд. Рассмотрим основные команды.

? $title (искомые слова) – искать указанные слова только в заголовке страниц. Например, взгляните на такой сложный запрос: Максвелл << $title (биография).

? $anchor (искомые слова) – выполнить поиск указанных слов только в именах страниц. Например, запрос $anchor (one style) отобразит только те страницы, в имени которых встречаются слова one и style.

? #keywords=(искомые слова) – искать указанные слова только в ключевых словах страниц (то есть внутри тега <meta name="keywords" content=""> страницы).

? #abstract=(искомые слова) – выполнить поиск указанных слов только в описании страниц (то есть внутри тега <meta name="description" content=""> страницы).

? #image="название" – искать только изображения, имеющие указанное название.

? #hint=(искомые слова) – искать только изображения, в подписях к которым встречаются указанные слова.

? #url="имя сайта" – выполнить поиск только на данном сайте. Например, запрос поисковые системы #url = «www.onestyle.com.ua» отобразит все страницы сайта www.onestyle.com.ua, на которых встречается фраза поисковые системы.

? host="имя сайта" – выполнить поиск только на данном сайте, а также на всех его зеркалах.

Помимо оператора host, можно использовать оператор rhost. Он аналогичен оператору host во всем, кроме записи имени сайта, – имя сайта при его использовании записывается в обратном порядке. Например, rhost="ru.yandex.*".

? #link="имя сайта" – выполнить поиск ссылок на указанный сайт.

? #mime="тип файла" – в качестве результатов поиска отображать только файлы с заданным расширением. Например, команда Vista #mime="doc" отобразит список всех файлов с расширением DOC, содержащих слово Vista. При поиске страниц с несколькими расширениями правильнее было бы использовать запрос следующего вида: (инструкция && микроволновая печь) << (mime="pdf" | mime="rtf"), то есть запретить ранжирование страниц результата запроса по расширениям.

Поисковая система «Яндекс» индексирует содержимое файлов со следующими расширениями: HTML, PDF (Adobe Portable Document Format), DOC (Microsoft Word), PPT (Microsoft PowerPoint), XLS (Microsoft Excel), RTF (Rich Text Format), SWF (Macromedia Flash).

? lang="язык" – выполнить поиск только среди страниц, написанных на указанном языке. Например, вы можете искать на страницах со следующими языками: ru (русском), uk (украинском), be (белорусском), en (английском), fr (французском), de (немецком).

? like="имя страницы" – искать на страницах, похожих на указанную.

? domain="домен" – выполнить поиск на страницах, которые принадлежат данному домену. Например, Vista domain="ru".

? date="ГГГГММДД" – искать на страницах, дата изменения которых удовлетворяет заданной дате. Помимо конкретного дня, года или месяца, можно указывать знак *. В этом случае день, год или месяц учитываться не будут.

Вместо знака = в данной команде можно использовать следующие знаки: >, <, >=, <=.

? cat=(ID региона или темы) – выполнить поиск только среди страниц, зарегистрированных в «Яндекс. Каталоге», тематическая рубрика или регион которых совпадают с указанными.

Идентификатор региона можно получить, прибавив к коду региона смещение 11 000 000. Идентификатор тематической рубрики получается прибавлением к коду темы смещения 9 000 000.

Например, зяблик << cat=(11000051).

Настройка поиска

Вместо специальных команд поиска вы можете воспользоваться специальными формами для настройки и формирования запроса поиска. Таких форм всего две: это страница Расширенный поиск (http://www.yandex.ru/advanced.html) и Настройка результатов поиска (http://www.yandex.ru/cgi-bin/customize.pl).

Расширенный поиск. С помощью данной страницы можно определить следующие параметры поиска:

? область поиска (везде либо только в заголовке страницы);

? указать, будет ли использоваться механизм проверки морфологии (или будет выполнен поиск слова/фразы только в той форме, которую вы ввели);

? задать, как будет интерпретироваться расположение искомых слов друг от друга (слова идут подряд; должны встречаться в одном предложении; должны находиться недалеко друг от друга; должны находиться на одной странице);

? указать, на каких языках должны быть написаны страницы, отображаемые в результатах поиска;

? дата изменения страниц, отображаемых в результатах поиска;

? страница, на которую должны быть похожи файлы, отображаемые в результатах поиска;

? страна, в которой должны находиться сайты, страницы которых будут выводиться в результатах поиска;

? сайт, страницы которого будут отображаться в результатах поиска;

? указать, файлы каких типов должны отображаться в качестве результатов поиска;

? максимальное количество результатов, отображаемых на одной странице (но не больше 50).

Настройка результатов поиска. С помощью данной страницы можно настроить формат отображения результатов поиска (количество результатов на странице, будут ли выводиться пиктограммы сайтов и картинки, будет ли поисковая форма отображаться внизу страницы и т. д.), а также определить язык, на котором будет выполняться поиск страниц. Кроме того, на этой странице можно включить использование семейного фильтра (из результатов поиска будут исключаться все страницы, содержащие порнографию и материалы явно выраженного сексуального характера).

Другие проекты

Проекты. Помимо поиска в Интернете, портал «Яндекс» поддерживает работу ряда других проектов. Рассмотрим некоторые из них.

? «Яндекс. WiFi» – список бесплатных точек беспроводного доступа, поддерживаемых «Яндексом».

? «Рефераты» (http://referats.yandex.ru/) – довольно занимательный проект, который позволяет самостоятельно создать реферат по одной из предопределенных дисциплин путем нажатия всего нескольких кнопок.

? «Кубки» – турниры по поиску в Интернете, придуманные «Яндексом».

? «Яндекс. Директ» (http://direct.yandex.ru/) – размещение рекламы в результатах поиска.

? «Яндекс. Почта» (http://mail.yandex.ru/) – мы уже рассматривали возможности данного почтового сервера.

? «Яндекс. Деньги» (http://money.yandex.ru/) – одна из лучших на Российской территории платежных систем. О ее использовании и возможностях мы поговорим в гл. 6.

? «Народ. Ру» (http://narod.yandex.ru/) – предоставляет бесплатный хостинг. Иными словами, с его помощью вы бесплатно сможете разместить в Интернете свою собственную страницу. Адрес созданной таким образом страницы будет иметь вид <ваше имя>.narod.ru. Приятной особенностью данного хостинга является то, что объем дискового пространства, которое вы можете использовать, неограничен.

? «Мой Круг» (http://www.moikrug.ru/) – предназначен для поиска одноклассников, коллег и знакомых. Он также поможет упорядочить ваши контакты, предоставив вам доступ к своей адресной книжке из любого места, где возможен доступ к Интернету.

? «Закладки» (http://zakladki.yandex.ru/) – позволяет создавать закладки на любимые страницы Интернета. При этом созданные закладки будут автоматически периодически проверяться на работоспособность. Еще одной особенностью данного проекта является его интеграция с программой «Яндекс. Бар», благодаря чему доступ к вашим закладкам будет возможен из данной панели инструментов.

? «Яндекс. Лента» (http://lenta.yandex.ru/) – дает возможность объединять RSS-потоки в одну ленту и читать их в виде одной-единственной страницы (вместо того чтобы постоянно заходить на разные сайты).

? «Фотки» (http://fotki.yandex.ru/) – позволяет публиковать свои фотографии, участвовать в конкурсах, а также смотреть, комментировать и выбирать лучшие фотографии других пользователей.

? «Находки» (http://nahodki.yandex.ru/) – дает возможность быстро сохранять поисковые запросы и просмотренные результаты.

? «Города» (http://goroda.yandex.ru/) – формирует интернет-индексы городов (на основе сотрудничества этих городов с компанией «Яндекс»).

? «Новости» (http://news.yandex.ru/podpiska/login.pl) – показывает местные новости (ваше местоположение определяется по IP-адресу), а также позволяет подписаться на свежие новости.

? «Маркет» – ряд магазинов для покупок в режиме on-line.

Программы. Поисковая система «Яндекс» также предоставляет ряд созданных ею продуктов, которые непосредственно касаются темы, рассматриваемой в книге.

? Яndex.Server (http://company.yandex.ru/technology/products/yandex-server.xml) – приложение для поиска по веб-сайту или локальной сети с учетом морфологии русского языка (рис. 5.21).

Рис. 5.21. Страница Яndex.Server

? «Персональный поиск Яндекса» (http://desktop.yandex.ru/) – программа, предназначенная для полнотекстового поиска с учетом морфологии русского языка в файлах локального компьютера (по файлам, письмам и кэшам браузеров). Как вы помните, возможности этой программы мы уже рассмотрели ранее.

? «Яндекс. Бар» – панель инструментов для различных браузеров, с помощью которой можно быстро получить доступ к основным сервисам поисковой системы «Яндекс».

? «Яндекс. Спамооборона» (http://so.yandex.ru/) – серверное приложение для фильтрации спама, предназначенное для корпоративных пользователей. Загрузить пробную версию данного приложения можно по адресу http://so.yandex.ru/companies/download.xml#new.

«Рамблер»

Дата создания: сентябрь 1996 года.

Адрес: http://www.rambler.ru (главная страница), http://www.r0.ru/ (только форма для поиска), http://pda.rambler.ru/index.jspx (главная страница для карманных компьютеров).

Данная поисковая система была создана фирмой «Стек» для реализации поиска по русскоязычным сайтам, находящимся в домене ru, а также в доменах некоторых стран СНГ. Она считается третьей в тройке лидеров русскоязычных поисковых систем (Google, «Яндекс», «Рамблер»).

Особенность данной поисковой системы в том, что она индексирует только содержимое страниц, находящихся в доменах ru, su, ua, by, kz, kg, uz, ge. Другими словами, она индексирует только содержимое русскоязычных страниц, игнорируя страницы с других доменов.

Следует также учитывать, что индексации подлежит только «видимое» содержимое страниц. Например, содержимое комментариев и тегов <meta> не индексируется. Не индексируется и текстовая информация из флэш-объектов.

Правила поиска

Прежде всего, следует заметить, что, в отличие от предыдущих поисковых систем, «Рамблер» может обрабатывать знаки препинания. А вот стоп-слова (незначащие слова, например предлоги, частицы и артикли) по умолчанию игнорируются. Если же вы хотите выполнить поиск с учетом какого-либо незначащего слова, то поисковую фразу нужно взять в двойные кавычки.

Если слово или фраза взяты в двойные кавычки, то поисковая система ищет их как есть, то есть для такой фразы морфологический поиск не выполняется. Кстати, «Рамблер» может выполнять поиск с учетом морфологии только для русского и английского языков.

Расстояние между словами. По умолчанию поисковая система игнорирует регистр слов поискового запроса. Однако из этого правила есть одно исключение. Если поисковый запрос состоит из 2–4 слов, каждое из которых начинается с прописной буквы, то для такого запроса автоматически изменяется максимально возможное расстояние между словами запроса (это расстояние становится равным (n-1)*2, где n – количество слов в запросе). Другими словами, такой запрос позволяет найти страницы, на которых между словами запроса находится не более одного лишнего слова.

В остальных случаях поисковая система ищет страницы, в которых между словами запроса находится не более 40 слов. Чтобы изменить это правило, достаточно воспользоваться запросом вида (число, запрос), где число определяет максимальное количество лишних слов, которые могут находиться между словами запроса.

Логические операторы. Поисковая система «Рамблер» способна обрабатывать три основных логических оператора: И, ИЛИ и НЕ.

Поиск сразу всех слов (логическое И) выполняется при помощи оператора AND (либо оператора &, являющегося его аналогом), который нужно поместить между словами. Например, по запросу собака AND кошка найдутся только те документы, которые содержат и слово собака, и слово кошка. Оператор AND используется поисковой системой по умолчанию, поэтому его можно не указывать.

Поиск одного из нескольких слов (логическое ИЛИ) выполняется при помощи оператора OR (либо оператора |, являющегося его аналогом), который также нужно поместить между словами. Например, по запросу собака OR кошка найдутся все документы, в которых встречается либо слово собака, либо слово кошка.

Поиск документов, которые не содержат определенное слово (логическое НЕ), выполняется при помощи оператора NOT. Его нужно поместить перед словом, которое не должно присутствовать в документе.

Данный текст является ознакомительным фрагментом.