SEO и алгоритмы поисковых систем: ключи, отмычки, кувалды
SEO и алгоритмы поисковых систем: ключи, отмычки, кувалды
Их служба и опасна, и трудна, и бессонна. SEO-аналитики – белая кость и красные глаза оптимизации. Вопреки расхожему мнению, они не «взламывают “Яндекс”», а пробуют разгадать механизмы его работы, его «предпочтения». Они не пифии — предсказательницы, а кадровые разведчики, занимающиеся тяжелой исследовательской работой в поле чистой эмпирики. Из скудных данных им нужно выцедить ответы на тьму вопросов: какие факторы ранжирования сайтов доминируют сегодня и в какой пропорции, могут ли алгоритмы «Яндекса» выйти из — под контроля, что происходит с технологией машинного обучения MatrixNet, противоречат ли отдельные требования «Яндекса» и Google друг другу? Свою точку зрения на эти и прочие вопросы в дискуссии с авторами книги высказал Сергей Людкевич, начальник отдела аналитики системы WebEffector.
Как продвигать сайты при ныне действующем алгоритме «Яндекса» MatrixNet? Ведь если степень влияния того или иного фактора меняется в зависимости от региона и запроса, нельзя точно знать, как действовать. Неужели только методом проб и ошибок?
Сергей Людкевич: Нужно учитывать следующие свойства запроса:
• коммерческий или некоммерческий характер;
• регион;
• геозависимость или геонезависимость.
Именно по перечисленным параметрам алгоритмы существенно разнятся. Например, для коммерческих запросов все еще вполне неплохо работают коммерческие ссылки. Для некоммерческих они практически бесполезны. Но сайты все — таки, как правило, продвигаются именно по коммерческим запросам.
Гораздо острее ситуация в случае с региональностью запросов. В разных регионах
– различные алгоритмы (формулы) для геозависимых запросов. Отдельно для Москвы, отдельно для Санкт — Петербурга, отдельно для каждого из городов релиза «Арзамас+16», отдельно для всех остальных – так называемая общероссийская выдача с бонусом для сайтов из данного региона. А все геонезависимые запросы ранжируются общероссийским алгоритмом. Он очень сильно отличается от алгоритма для Москвы и от алгоритмов для городов релиза «Арзамас+16». Все это, естественно, вносит дополнительные сложности в продвижение. Ну а метод проб и ошибок всегда был на вооружении у оптимизаторов.
Формула для остальных регионов не учитывает множества факторов или их значимость очень мала, правильно? Это сделано скорее потому, что в регионах еще не настолько сильная конкуренция и сами сайты недостаточно хороши или же просто невозможно за всеми уследить?
С. Л.: Я не думаю, что формулы для регионов не учитывают каких — то факторов, которые, к примеру, есть в формуле для Москвы. Скорее всего, они строятся по другой обучающей выборке с преобладанием сайтов данного региона.
За несколько лет существования в MatrixNe добавилось множество новых факторов. А поменялся ли сам алгоритм? Если да, то как?
С. Л.: Суть текущего подхода «Яндекса» к построению алгоритма ранжирования – машинное обучение. MatrixNe был революционным в том смысле, что позволил без больших вычислительных затрат учитывать в ранжировании существенно больше факторов, чем предыдущий алгоритм машинного обучения. Вместе с тем факторы добавляются, но машинное обучение как таковое остается. Гораздо более значимая революция совершилась во времена релиза «Магадан» (или чуть раньше), когда произошел переход от аналитической формулы к машинному обучению.
Но, кроме построения формулы с помощью машинного обучения, есть куча предфильтров и постштрафов: создаются новые, модифицируются старые. Развитие алгоритма на текущий момент, с моей точки зрения, заключается преимущественно в создании «костылей» и «подпорок» к тому, что выдало машинное обучение. Дело в том, что в результате машинного обучения получается формула, не имеющая физического смысла. И трудно понять, что нужно подправить на входе, чтобы на выходе получались осмысленные результаты. Поэтому кое — что приходится править с помощью надстроек – фильтров и штрафов.
Оптимизаторы часто слышат о появлении новых факторов ранжирования сайтов. А какие факторы ушли в прошлое? На что «Яндекс» перестал обращать внимание?
С. Л.: Например, на содержимое метатега keywords, учет которого имел место в начале 2000 — х. А если серьезно, дело в том, что алгоритм машинного обучения может счесть часть факторов незначащими и присвоить им в конечной формуле нулевые веса. Сегодня набор незначащих факторов будет одним, завтра, после пересчета формулы по новой обучающей коллекции, другим. Наверняка разработчики отслеживают, какие факторы остаются незначащими на протяжении нескольких пересчетов, и впоследствии принимается решение об их физическом исключении из алгоритма. Но извне достоверно определить, с каким весом тот или иной фактор участвует в формуле, практически невозможно.
Предположим, наша задача – проверить влияние того или иного фактора. Как правильно поставить эксперимент, чтобы не принять совпадение за тенденцию? Каким должен быть объем выборки?
С. Л.: Многое зависит от того, какой именно фактор вы собираетесь исследовать. И есть ли вообще он в алгоритме. Увы, сейчас проверить влияние большинства факторов нельзя ввиду невозможности убрать шум, даже если вы наверняка знаете, что представляет собой тот или иной фактор. Дело в том, что для чистой проверки работы одного фактора необходимо зафиксировать все остальные, включая временные. Иначе говоря, создать достаточное количество одинаковых тестовых страниц, которые будут различаться между собой значением одного — единственного изучаемого фактора, практически полных копий. Но зачастую и этого мало, так как результат может зависеть от комбинации искомого фактора с каким — то другим, причем вам неизвестно каким. И при разных значениях второго фактора исследуемый будет вести себя по — разному. Также нужно понимать, что, изменяя значение проверяемого фактора, вы можете изменить значение других факторов, которые вы обязаны зафиксировать. Все это сильно зашумляет эксперимент, обычно приводя к недостоверности результатов. Те же факторы, которые поддаются проверке с достаточной степенью достоверности, должны быть настолько мощными, чтобы шум не мешал их анализу. Пример – кликовые факторы.
Значит, по вашим наблюдениям, кликовые факторы играют значительно большую роль, чем многие другие? А не преувеличивает ли «Яндекс» степень их влияния?
С. Л.: Да, они играют колоссальную роль по сравнению с прочими. По крайней мере, я не знаю другой группы факторов, которая в одиночку позволяла бы, несмотря на значения всех остальных, довольно быстро выводить сайты в топ из ниоткуда. И, на мой взгляд, здесь налицо явный дисбаланс, да еще эти факторы имеют положительную обратную связь. Происходит «консервация» топов, и это еще не худшее. Худшее – то, что кликовые факторы весьма уязвимы по отношению к внешнему искусственному влиянию.
Должен ли «Яндекс» использовать только действительно нужные факторы, или можно добавлять бесконечное количество даже, казалось бы, бесполезных метрик (условно говоря, «количество гласных букв в слове»). Может ли из — за этого алгоритм выйти из — под контроля?
С. Л.: Мне трудно судить, что «Яндекс» должен, а что не должен. Я не вижу их метрик, мне неизвестно, что с ними происходит при добавлении абсурдных факторов. Но мне представляется, что безграничная вера в машинное обучение, в то, что чем больше факторов, пусть самых нелепых, тем лучше, – это не совсем правильно. Как сказал сотрудник Google Владимир Офицеров, «если формулу понять нельзя, то ее нельзя и улучшить». Эта позиция мне больше импонирует. Получается, что сотрудники «Яндекса» пытаются улучшить свою формулу, жонглируя факторами, придумывая их новые комбинации, в надежде на то, что умный алгоритм обучения сам все разложит по полочкам. Но не всегда выходит так. Вообще, машинное обучение создает опасную иллюзию, что любую проблему можно решить легко и быстро, особо не вникая в физический смысл. Нужно только придумать побольше разнообразных факторов, собрать достаточно широкую обучающую выборку и засунуть все это в MatrixNet. Получили неважный результат? Надо поколдовать с факторами. Помножить количество латинских букв в тексте документа на количество запятых на сайте и засунуть внутрь. Ого, значение метрики увеличилось на две миллионные. Хороший фактор, оставляем. Пусть будет «фактор имени меня». Так, что бы нам еще эдакое придумать?
Развитие службы асессоров «Яндекса», расширение ее штата тоже следствие необходимости постоянно корректировать алгоритм? Убери сейчас асессоров, и выдача превратится в кромешный ад или не все так страшно?
С. Л.: Асессоры – это люди, которые размечают обучающую выборку для алгоритма ранжирования. Это неотъемлемая часть машинного обучения. Не будет асессоров – не будет обучающей выборки. Не будет обучения – не будет выдачи вообще. Часто асессоров путают с сотрудниками отдела анти — SEO, с теми, кто вручную накладывает санкции на сайты. Да, есть такие специалисты, которые глазами просматривают кучу сайтов и решают, для людей те или нет, учитывать ли с них ссылки и т. д. И они уже в том числе составляют обучающие выборки для антиспам — алгоритмов.
Нужны ли вообще «Яндексу» фильтры, если теоретически MatrixNe должен сам не пускать в топ «плохие» сайты?
С. Л.: Вот — вот, только теоретически. Но возрастающее количество штрафов и фильтров свидетельствует о том, что результат далек от идеала. И итог деятельности хитрого механизма приходится по старинке править кувалдой. Не исключено, что со временем все фильтры и штрафы сольются в настолько мощную надстройку над результатом машинного обучения, что тот не будет оказывать заметного влияния на конечную выдачу. И в итоге мы опять получим вместо машинного обучения аналитическую формулу.
С чем, по — вашему, связана разница в политике поисковых систем относительно апдейтов: у Google корректировки выдачи происходят ежедневно, а у «Яндекса» – раз в пятьдесять дней?
С. Л.: Может быть, дело в мощностях?
Кстати, а что с Google? Каков общий принцип работы его алгоритма?
С. Л.: Google более закрытый, чем «Яндекс», в плане освещения особенностей алгоритма ранжирования, но, судя по тем скудным обрывкам информации, что доходят до нас от его сотрудников, там имеет место аналитическая формула ранжирования. Какие — то ее параметры могут рассчитываться с помощью машинного обучения, но не вся формула, как это происходит в «Яндексе». Может быть, Google уже прошел путь обратной эволюции от полностью машинного обучения назад к аналитической формуле?
Есть ли у «Яндекса» и Google явно противоречащие факторы? Такие, что из — за них, делая страницу «хорошей» для одной поисковой системы (ПС), мы ухудшаем показатели для другой. Как тогда быть?
С. Л.: Возьмем, к примеру, один из последних штрафов «Яндекса» – за переоптимизацию. Штрафуются документы, которые имеют достаточно большое количество подзаголовков (h1)… (h6) и тегов логической и физической разметки (b), (strong), (i), (em). В Google за такое не штрафуют. Наоборот, это может сработать в плюс.
И как же поступить несчастному оптимизатору, чтобы угодить всем? Ведь не секрет, что среднестатистический сайт гораздо быстрее может оказаться в топе Google, но в перспективе «Яндекс» способен обеспечить больший трафик.
С. Л.: В русскоязычном поиске осталось всего два поисковых движка. Ситуация еще не самая плохая. Конечно, как и вообще в жизни, приходится искать разумные компромиссы.
Чего сейчас больше в SEO – математики или маркетинга? Ведь, с одной стороны, сами ПС действуют по математическим формулам и хорошо бы их разгадать, с другой же – по мнению ряда специалистов, если делать сайты для людей (полезные, интересные, юзабельные), ни к чему думать о формулах, сайт поднимется и так.
С. Л.: Без математики пока никуда. Полезные и интересные сайты, может, и поднимутся без специальных технических действий, но не очень быстро. Если вообще когданибудь поднимутся.
После того как оптимизаторы «разгадывают» какой-то фактор и начинают им злоупотреблять (поведенческие факторы, например), «Яндекс» усложняет его алгоритм. А усложняет ли он себе тем самым жизнь? Получается, вместо учета большого объема данных ему приходится отсеивать шум. С другой стороны, если бы не было оптимизаторов, алгоритмы ПС развивались бы значительно медленнее? Можно ли сказать, что SEO – двигатель прогресса в поиске?
С. Л.: Если бы не было оптимизаторов, поисковикам жилось бы много проще. Не нужно было бы расходовать колоссальное количество энергии на противодействие попыткам манипулировать результатами поиска. Так что двигателем прогресса я бы SEO не назвал. Впрочем, SEO – это не что иное, как поиск экстремума той формулы, которую создают поисковики. И SEO в конечном счете способствует тому, чтобы оптимальное решение не выглядело уродливым. Хотя, по идее, поисковикам следовало бы об этом заботиться загодя, а не после того, как оптимизаторы наглядно продемонстрируют уродливость оптимального решения для текущей формулы. У меня складывается впечатление, что разработчики поисковых систем заранее практически не учитывают возможности искусственного влияния на тот или иной фактор, не просчитывают ситуаций, к которым такое влияние способно привести, и в итоге мы получаем линкбомбинг, текстовые «портянки» или кликерские клубы.
Ну и напоследок: нужно ли «пить водку с “яндексоидами”», чтобы успешно продвигать сайты?
С. Л.: Питие водки с «яндексоидами», к сожалению, не является фактором ранжирования.
Данный текст является ознакомительным фрагментом.