Индексация

Индексация

Проверка индексации каждой страницы сайта. Индексация особенно важна для больших проектов. Если в индекс попадают мусорные страницы (дубликаты, страницы с ошибками, пустые страницы), важные страницы (продвигаемые) получают меньше статического веса. Если в индекс не попадают важные страницы, сайт недополучает трафик. Проверка включает в себя:

? составление списка всех важных страниц сайта (выгрузкой из БД, вручную);

? составление списка всех страниц сайта (с помощью программы Page-weight или Xenu);

? проверку всех ссылок с помощью запросов url:http://www.site.ru/page/ и url:http://site.ru/page/, используя автоматический парсер ПС (программа A-Parser);

? составление четырех списков:

? всех проиндексированных важных страниц;

? всех проиндексированных мусорных страниц;

? всех непроиндексированных важных страниц;

? всех непроиндексированных мусорных страниц.

Составление списка непроиндексированных страниц, посещенных роботом. В некоторых случаях после посещения роботом страница не попадает в индекс. Важно отличать такие страницы от тех, которые не в индексе и робот их не посещал, поскольку технология индексации таких страниц различается. Выполните следующие действия:

? при помощи анализа логов составьте список страниц, которые посещал робот;

? получите списки важных непроиндексированных страниц, не посещенных и посещенных роботом;

? изучите список непроиндексированных страниц, которые не посещал робот ПС. На эти страницы необходимо привести робота, чтобы они попали в индекс;

? изучите список непроиндексированных страниц, которые посетил робот ПС. Это страницы, которые имеют проблемы с дублями или статическим весом.

Проверка возможности индексации важных областей на Flash– и Ajax-сайтах. При продвижении творческих проектов важно изучить индексацию областей, при написании которых использовались технологии Flash, Ajax или другие, с индексацией которых могут возникнуть проблемы.

? Необходимо по матрице сайта открыть текстовые сохраненные копии страниц всех типов и найти тексты, выложенные с помощью этих технологий. Если текст найти удалось – значит, блок индексируется.

? В редких случаях даже при отсутствии Flash и Ajax на сайте может быть настолько «кривая» верстка, что текст не попадет в текстовый индекс.

Проверка возможности индексации всех страниц сайта при текущих инструкциях robots·txt. После корректировки robots.txt необходимо проверить, что все важные страницы доступны для индексации. Проверка осуществляется сервисом http://webmaster.yandex.ru/robots.xml.

Проверка целесообразности использования <noindex>, nofollow, meta noindex, meta nofollow, SEOHide. Ошибки в инструкциях индексации могут привести к выпадению важных страниц из индекса и существенным потерям трафика. Чтобы выявить эти ошибки, необходимо:

? сделать проверку по матрице сайта (сервисы RDS-bar, «СайтРепорт»);

? найти незакрытые <noindex>;

? изучить, какие внутренние ссылки закрыты в nofollow;

? изучить, какие внешние ссылки закрыты в nofollow;

? изучить, какие страницы закрыты в meta noindex;

? изучить, какие страницы закрыты в meta nofollow;

? изучить, есть ли на сайте SEOHide и корректно ли он внедрен.

Проверка корректности использования <noindex>, nofollow, SEOHide. После составления списка страниц, на которых используются инструкции по скрытию индексации, необходимо изучить списки на предмет ошибок. Контрольные точки:

? незакрытый <noindex>;

? индексируемый SEOHide;

? проверка корректности SEOHide с помощью плагина WebDeveloper;

? важные страницы с meta nofollow, meta noindex;

? nofollow на внутренних ссылках.

Поиск ошибок (сравнение индексов по категориям и типам страниц). Необходимо подробно изучить сайт на предмет наличия ошибок. Один из способов сделать это – сравнение списков проиндексированных в разных поисковых системах страниц по тем разделам и типам страниц, где их количество в индексе различается.

? Изучаются области сайта, где в одной ПС страниц меньше, чем в другой (табл. 10.1).

? Страницы из списка проиндексированных открываются и изучаются.

? Изучаются те страницы, которые отсутствуют в индексе одной ПС, но есть в индексе другой.

? Изучаются страницы, помеченные в Google как supplemental.

Таблица 10.1. Сравнение индексов

Поиск в индексе технических страниц. Далее приведены популярные типы технических страниц, которые рекомендуется закрывать от индексации, а также некоторые варианты идентификации их через оператор inurl:

? файлы статистики – /*_openstat;

? страницы контекстной рекламы или меток – /*from=adwords, /*utm_source=, /*utm_campaign=, /*utm_content=, /*utm_term=, /*utm_medium=;

? корзина – /cart/, /order/;

? страницы сортировки – /*sort, asc, desc, list=*;

? страницы поиска – /search/;

? страницы авторизации – /auth/;

? версия для печати – /*printable, /print;

? напоминание пароля – /remind_password/;

? регистрация – /register/;

? административный раздел – /administrator/;

? кэш страниц – /cache/;

? модули, подгружаемые на страницы, – /components/, /plugins/;

? файлы инсталяции CMS – /installation/, /installer/;

? логи – /logs/;

? файлы – /files/;

? скрипты, таблицы стилей – /ajax/, /java/, /ess/;

? аккаунты пользователей – /user/ и др.

Анализ динамики индексации сайта. Динамика индексации сайта может указать на слабые места и проблемы проекта.

Статистика по списку проиндексированных страниц, собранных с параметром &how=tm, позволяет узнать возраст страниц и изучить динамику индексации сайта.

Проверка robots.txt на ошибки. Из-за ошибки в robots.txt весь сайт может быть исключен из индекса. Чтобы избежать этого, следует:

? с помощью сервиса http://webmaster.yandex.ru/robots.xmL проверить, закрывает ли robots.txt все ненужные страницы и не находит ли валидатор ошибок;

? проверить соответствие robots.txt правилам http://help.yandex.ru/webmaster/?id=996567.

Проверка robots.txt на наличие директив для всех поисковых систем. «Яндекс» и Google используют различные директивы в robots.txt, и инструкции для них следует писать разные. В robots.txt писать User-Agent: «Яндекс» + User-Agent: * обязательно, опционально писать еще User-Agent: Google.

Проверка sitemap.xml на ошибки. С помощью sitemap.xml можно управлять индексацией своего сайта. Для того чтобы поисковые системы доверяли рекомендациям и корректно обрабатывали их, необходимо исправить ошибки. Нужно проверить следующее:

? ссылка на sitemap.xml должна быть в robots.txt;

? атрибуты дат страниц расставлены корректно;

? приоритеты расставлены правильно;

? исключены уже проиндексированные страницы;

? нет страниц, закрытых от индексации в robots.txt;

? нет нарушений валидности составления sitemap.xml (сервис http://webmaster.yandex.ru/sitemaptest.xmL).

Дополнительная информация о sitemap.xml – на http://www.sitemaps.org/ru/faq.html#faq_xml_schema.

Данный текст является ознакомительным фрагментом.