Примеры поведения поисковой машины при посещении страницы в Интернете
Примеры поведения поисковой машины при посещении страницы в Интернете
Придя на страницу, паук первым делом определяет, есть ли на сайте что-либо, что его владелец запрещает индексировать.
Подобный запрет может быть реализован двумя способами. Первый заключается в том, что на сайте создается специальный файл robots.txt либо используется особый тег – так называемый, метатег <noindex>. В этот файл или под метатег «прячут» содержимое страницы, которое, по мнению владельца контента, не должно индексироваться поисковыми машинами.
Единственное отличие между ними состоит в том, что <noindex> работает на той странице, на которой он расположен, тогда как robots.txt может быть использован с целью предотвращения индексации любых отдельных страниц, групп файлов или даже всего веб-сайта.
По своей сути, никаких технических препятствий для индексирования содержимого ресурса этот способ не создает. Однако большинство поисковых машин с уважением относится к подобному способу защиты контента, который, как правило, не попадает в информационные системы. Наиболее близким аналогом столь действенного ограничения доступа в реальном мире можно считать таблички «м» и «ж» на дверях общественных уборных.
На наш взгляд, метод ограничения индексирования с помощью файла robots. txt или метатега <noindex> потому получил столь большое распространение, что он препятствует работе пауков, но не мешает людям просматривать содержимое страниц без каких-либо ограничений.
Второй способ охраны контента значительно надежнее первого и заключается в том, что страница защищается паролем. Паук технически неспособен вводить пароль. Однако и человек, прежде всего, должен этот пароль знать, а кроме того, ему необходимо потратить время и приложить усилия для того, чтобы его ввести. При такой защите ресурса работает уже не этический, а технический способ ограничения индексирования.
После того, как паук попал на страницу, которая не защищена паролем и не внесена в список запрещенных, события развиваются по-разному, в зависимости от того, что на этой странице находится. Рассмотрим возможные их варианты, а также попытаемся понять, к видимому или к невидимому Интернету эти варианты относятся (по Крису Шерману и Гэри Прайсу).
Вариант 1. Паук обнаруживает страницу, написанную в HTML и содержащую графические элементы.
В таком случае паук может проиндексировать лишь название графического файла, и тогда такой документ будет найден при поиске картинок по ключевому слову, совпадающему с тем, которое есть в названии. Если имя файла не имеет ничего общего с его наполнением, он не сможет быть найден поисковой машиной, даже если будет содержать фотографию с изображением ключевого слова.
Вариант 2. Паук внутри сайта столкнулся со страницей, которая написана на HTML, но содержит поля, требующие заполнения пользователем – например, ввода логина и пароля.
В этом случае есть техническая возможность индексирования содержимого, но только того, к которому имеется доступ. Спрятанная под пароль часть страницы не может быть просмотрена и, как следствие, не может быть проиндексирована спайдером.
Здесь наиболее часто встречаются два варианта. Первый: допустим, на сайте лежат готовые к просмотру страницы, на которые существуют ссылки в Интернете (например, фраза: «Я недавно интересную статью прочитал, она находится здесь:» – и далее следует прямой адрес статьи). В этом случае страница с формой, требующей заполнения, создана лишь для того, чтобы пользователь мог выбрать нужный ресурс из имеющихся. Текст на странице с формой будет виден пауку и проиндексируется, а сами страницы, на которые ведет форма, индексируются «в обход» процедуры ее заполнения, в другое время и, возможно, другим пауком, за счет ссылок на внутренние страницы сайта из других источников. В таком случае и страница с формой, и внутренние страницы будут относиться к видимому Интернету.
Во втором варианте форма собирает информацию, на основании которой впоследствии создается необходимая пользователю страница. То есть, никакой внутренней страницы просто не существует до тех пор, пока форма не будет заполнена. Паук этого сделать не может. Данные, которые находятся внутри такого сайта, не могут быть получены никаким иным путем, кроме как посредством заполнения формы, а потому всегда относятся к невидимому Интернету.
Вариант 3. Паук приходит на сайт, содержащий динамические данные, меняющиеся в реальном масштабе времени.
К таким сайтам относится биржевая информация или, скажем, сведения о прибытии авиарейсов (рис. 2). Эти ресурсы обычно причисляют к невидимому Интернету, но не потому, что их технически нельзя проиндексировать, а потому, что их индексация не имеет практического смысла.
Рис. 2. Пример мониторинга движения рейсов на сайте www.airagency.ru
Вариант 4. Паук попадает на страницу, которая содержит текст в формате, не поддерживаемом данной поисковой машиной.
Например, Рамблер, как мы уже говорили, не поддерживает документы Power Point (.ppt). Ряд поисковых машин не индексируют документы в Postscript-файлах (это формат, в котором могут сохраняться для передачи в типографию файлы, созданные в программе Microsoft Publisher). До недавнего времени к таким форматам относился и PDF, однако сначала Гугл, а за ним и остальные поисковые машины стали индексировать подобные документы. Первоначально ограничение в работе с PDF-файлами было обусловлено тем, что на каждый новый формат приходилось расходовать дополнительные средства, распространенность же PDF-файлов вначале была невелика. Однако, по мере того, как правительственные организации многих стран стали выкладывать в Интернет документы именно в этом формате, поисковые машины начали с ним работать.
Вариант 5. Паук находит базу данных, запрос в которую выполняется через веб-интерфейс.
Причины, по которым такая база не может быть проиндексирована спайдером, следующие:
– страницы генерируются динамически, в ответ на запрос;
– протокол базы данных может не стыковаться с протоколом поисковой машины;
– доступ к базе требует введения логина и пароля (особенно, если дело касается платных ресурсов).
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
Настройка виртуальной машины для работы в Интернете
Настройка виртуальной машины для работы в Интернете Возможны три варианта подключения ВМ к Интернету:? через последовательный порт COM1, сопоставленный СОМ-порту хост-компьютера, к которому подключен модем;? посредством подключения ВМ к хостовой ОС с параметром Shared
(6.10) Имеется смешанная сеть, netware и NT, клиенты W2kPro и W98. Машины с W98 не могут войти на машины с W2k.
(6.10) Имеется смешанная сеть, netware и NT, клиенты W2kPro и W98. Машины с W98 не могут войти на машины с W2k. Для решения этой проблемы необходимо сделать привязку по протоколам, IPX/SPX только к клиент Novell, TCP/IP только к клиенту Microsoft. Сделать это можно в свойствах сетевых подключений меню
Урок 4 Правила поведения в Интернете
Урок 4 Правила поведения в Интернете Помните, что щелкать на ссылках нужно левой кнопкой мыши, а вызывать контекстное меню – правой (если, конечно, ваша мышка – правша). Из путеводителя по Интернету Как я уже говорил, все хорошее и плохое, что встречается в реальной жизни,
Делаем запрос в поисковой системе
Делаем запрос в поисковой системе Начнем с простого примера. Откроем http://www.yandex.ru и в поисковой строке введем любой запрос, например новости пенсионной реформы, нажмем кнопку Найти, которая располагается справа от поисковой строки (рис. 3.20). Рис. 3.20. Поисковая система
Уточняем запрос в поисковой системе
Уточняем запрос в поисковой системе Скажем, вы решили приобрести мультиварку, о которой много уже наслышаны и о которой давно мечтали. Если указать в поисковой строке только одно слово мультиварка, то в выдаче окажется 13 миллионов ответов, где будут присутствовать ссылки
Проверьте эффективность домашней страницы с помощью модели покупательского поведения
Проверьте эффективность домашней страницы с помощью модели покупательского поведения Как мы уже не раз упоминали, каждая успешная продажа включает в себя элементы модели покупательского поведения – внимание, интерес, потребность, желание действовать, удовлетворение.
Правила работы и поведения в Интернете
Правила работы и поведения в Интернете Каждый пользователь Интернета должен четко осознавать, что Интернет может не только принести пользу, но и причинить немалый вред. Чтобы избежать неприятностей, строго соблюдайте перечисленные ниже рекомендации и правила.• Для
Глава 6. Займитесь поисковой оптимизацией своего сайта (SEO)
Глава 6. Займитесь поисковой оптимизацией своего сайта (SEO) Seo-продвижение, или, как его по-другому называют, поисковая оптимизация, – это один из самых многогранных и самых действенных видов интернет-рекламы, который способен привести на ваш сайт большое количество
Что входит в медиаплан по поисковой оптимизации
Что входит в медиаплан по поисковой оптимизации Для того чтобы убедиться в правильном выборе сотрудника, попросите рассчитать его медиаплан. В нем должны быть отражены следующие показатели:1. Стоимость продвижения по каждому ключевому запросу.2. Примерная стоимость
С чего начать работу по поисковой оптимизации
С чего начать работу по поисковой оптимизации Начиная работу по поисковой оптимизации, следуйте следующим принципам:1. Заключите с подрядчиком договор, где будут прописаны: ключевые слова, срок их вывода, условия оплаты и обязанности специалиста по
7.3. Некоторые правила поведения пользователя в Интернете
7.3. Некоторые правила поведения пользователя в Интернете Популярность веб-форумов, онлайн-дневников (блогов) и различных средств общения вроде электронной почты, групп новостей, различных чатов сегодня велика. Кроме добропорядочных пользователей эти сервисы привлекают
Андрей Плахов («Яндекс») о поисковой технологии «Спектр» Юрий Ильин
Андрей Плахов («Яндекс») о поисковой технологии «Спектр» Юрий Ильин Опубликовано 07 октября 2011 года - Расскажите, пожалуйста, как появилась технология «Спектр» и для чего предназначена? На кого в первую очередь она ориентирована? - Как