SeoPult: математика под капотом

SeoPult: математика под капотом

Значительную часть конкурентных преимуществ системы SeoPul обеспечивает направление -. «Конструкторская» ветвь укрыта внутри самого холдинга, а научноисследовательская частично представлена собственными специалистами, частично – лучшими умами извне. Интеллектуально емкие алгоритмы сервиса рождались не только из опыта его разработчиков, но и из сложных математических моделей. Как математика встречается с SEO, как смелые гипотезы трансформируются в действенные модули для коммерческого продвижения, трудно ли воспроизвести «мозг» SeoPult, мы обсудили с Ильей Зябревым, гендиректором компании AlterTrade Research, чьими силами была создана беспрецедентная технология SeoPul MAX.

Что представляет собой лаборатория AlterTrader Research? Кто в ней работает?

Илья Зябрев: Это научно — исследовательская лаборатория, небольшой коллектив единомышленников из разных стран, объединившихся на почве изысканий в финансовой математике. Костяк коллектива сегодня – семь человек, над отдельными проектами может работать от трех до двадцати специалистов. Сейчас в сферу наших интересов входят не только финансовая математика, но и, например, задачи в области информационного поиска.

Какое место у вас занимают SEO — исследования по уделяемому им времени и по приоритетности?

И. З.: В нашей компании сотрудники уже несколько лет могут себе позволить заниматься только тем, что им интересно. Приоритеты каждый для себя расставляет самостоятельно. Информационным поиском занимаются три человека. Они же проводят SEO — исследования, если имеются достойные задачи. На такие исследования уходит от 0 до 100 % рабочего времени, но в среднем немного.

Опишите схему вашей работы – от гипотезы до работающего алгоритма.

И. З.: Гипотезы неизменно возникают случайно – в ходе исследования свойств объектов. Хотя само исследование часто проводится намеренно, по заказу. Если гипотеза показалась интересной, она может быть подвергнута дальнейшему изучению. Это происходит далеко не всегда, так как гипотез, как правило, слишком много. Методы проверки гипотез зависят от того, что проверяется. В результате могут быть найдены некие новые свойства, даже если гипотеза не подтвердится. Многие наши исследования на том и заканчиваются: разработка готовых алгоритмов не наш профиль, профессиональным кодингом мы стараемся не заниматься.

Какие математические дисциплины являются определяющими для вашей работы в SEO?

И. З.: Многие. Дело скорее не в знании математических дисциплин, за начальный список которых можно взять, например, двухлетнюю программу «Школы анализа данных “Яндекса”»23, а в умении их применять в конкретных задачах.

Пытались ли вас перекупить или переманить сами поисковые системы? Они обращались к вам с предложениями о сотрудничестве?

И. З.: Мы заработали достаточно денег для того, чтобы никогда не работать на окладах, какими бы они ни были. Представители поисковых систем об этом знают, поэтому переманивать нас никогда не пытались. Официальных договоров с поисковыми системами у нас нет, но на неофициальном уровне мы сотрудничаем активно, делимся в одностороннем порядке своими наработками, иногда просим что — то просчитать на больших индексах. Мы не стараемся монетизировать свои исследования в информационном поиске, чем и пользуются некоторые поисковые компании. Пока только западные. С разработчиками из «Яндекса» и Mail.ru рабочих обсуждений на сегодняшний день нет, хотя иногда мы общаемся.

Как производилось тестирование алгоритма SeoPul MAX? На ком исследовали, насколько долго? Какова минимальная выборка сайтов для того, чтобы получить на таком проекте репрезентативные результаты?

И. З.: Про тестирование SeoPul MAX была написана статья «Алгоритм отбора максимально эффективного множества доноров для продвижения сайта в поисковых системах». Для экспериментов мы взяли 80 пар «запрос – документ», которые предоставила компания SeoPult. Выборка была достаточной для того, чтобы сделать какие — то выводы. Через четыре месяца стало очевидно, что технология работает, и было принято решение о ее реализации в качестве сервиса.

SeoPul MAX работает больше года. Как удается поддерживать актуальность технологии? Назовите хотя бы часть из факторов, которые учитывает технология при анализе ссылочной выдачи.

И. З.: Свойства ранжирования «Яндекса», найденные для SeoPul MAX, будут актуальны до тех пор, пока «Яндекс» не проведет кардинальную смену своих технологий. В настоящий момент не видно достойной замены алгоритмам MatrixNet, поэтому SeoPul MAX останется эффективным еще долгое время. Часть факторов была подробно описана в нашей статье «О частотных паттернах в SeoPul MAX. Для нематематиков».

Что в современном SEO еще поддается измерению математическими методами? Например, можно ли на большом пуле сайтов понять хотя бы частично алгоритмы учета поведенческих факторов «Яндекса»?

И. З.: В современном SEO измерению поддается многое, хотя отличия от «старого» SEO существенны. Дело в том, что после перехода всех крупных поисковых систем на построение функции ранжирования методом машинного обучения старые методы перестали работать. Привычные для оптимизаторов параметры, например количество и плотность ключевых слов в тексте или количество ссылок с анкором определенного вида, больше не имеют сильной корреляции с «Топ — 10» поисковиков.

Другими словами, даже небольшое увеличение таких параметров или подгонка «под лидера топа» может иметь произвольные последствия для позиции вашей страницы по запросу, от минуса до плюса. Такая ситуация возникла не только для факторов, которые использовало «старое» SEO, но и почти для всех из тех многих сотен факторов, которые используют для ранжирования поисковые системы. Даже если вы будете иметь формулы таких факторов, это вам не сильно поможет.

Но это не значит, что «шеф, усе пропало». Любая сложная функция, в том числе MatrixNe от «Яндекса», может иметь достаточно много стабильных свойств. Осталось их найти, для чего удобно прибегать к современным математическим методам. Хорошим примером найденных таким образом свойств являются частотные паттерны на анкор — файлах топовых сайтов, которые успешно используются в технологии SeoPul MAX.

Что касается поведенческих факторов «Яндекса», то для их исследования нужно заниматься накрутками выдачи, чего делать не стоит, так как все ваши неестественные клики остаются в логах поисковика навсегда и рано или поздно будут найдены, а это чревато «пессимизацией» сайта.

Собственно, SEO сегодня – это сплошная математика? Все, вплоть до оптимальных схем перелинковки, определяется формулами?

И. З.: По факту, естественно, нет. Большинство SEO — компаний и оптимизаторов — фрилансеров работают по старинке, что бы они ни говорили своим клиентам. Хотя привлечение сторонних прикладных математиков могло бы значительно повысить эффективность продвижения. Рассмотрим для примера упомянутую вами оптимальную схему перелинковки. Для ее максимальной эффективности необходимо распределить статический вес сайта по нужным страницам, добавив дополнительные ссылки. Если сайт достаточно большой, например на 100 тыс. страниц, а продвигается 10 тыс. из них, причем вес должен наилучшим образом распределяться в зависимости от сложности продвигаемых запросов, то ручными методами решить задачу не получится. С другой стороны, для математика эта задача несложная, хотя я пока не встречал ее решений для SEO.

Математические методы могут быть эффективно применены для того, чтобы фиксировать «крены» в работе поисковых систем в интервалах между масштабными апдейтами, то есть распознавать, когда поисковик что — то тестирует? Если да, как это делается?

И. З.: Наверняка могут, но мы не думали на эту тему. Это неинтересная задача. Какая разница, масштабный апдейт у поисковика или нет? Ваши страницы в любом случае должны оставаться в топе. Поэтому нужно находить такие свойства поисковой ранжирующей функции, которые при самых масштабных апдейтах меняются слабо, и оптимизировать свои сайты с учетом этих свойств. Например, так, как сделано в SeoPul MAX.

Участи SEO — экспертов полухобби — полудело – пытаться самостоятельно выяснить или прийти к консенсусу с коллегами на предмет того, какие SEO — факторы имеют больший вес для поисковых машин. Эмпирический метод (он же метод тыка) – единственно возможный в таких расчетах?

И. З.: Есть еще метод «в лоб» – спросить у разработчиков в «Яндексе» или Google. Если говорить о факторах, которые используют для ранжирования поисковики, то вычислить их силу методом тыка невозможно в принципе, даже если «тыкать» очень долго. Поэтому не стоит доверять SEO — экспертам, которые получают свои выводы относительно силы факторов экспериментальным путем. Но метод «в лоб» в России иногда работает.

Какие шаги со стороны «Яндекса» и Google упростили бы вам жизнь?

И. З.: Простые – повышение качества поиска. Если серьезно, нам хочется задавать поисковикам сложные вопросы и получать на них хорошие ответы, что сегодня случается далеко не всегда. Что же касается SEO, то нам упрощения неинтересны, нас привлекают только сложные задачи. Поэтому чем сложнее будут алгоритмы поисковиков, тем лучше.

Какой в недалеком будущем будет роль математического моделирования в SEO, до какой степени она возрастет? Есть ли на рынке, помимо вас, адекватные команды математиков с пониманием SEO — отрасли?

И. З.: Роль математического моделирования будет возрастать, но небыстро. Пока конкуренция в SEO еще слабая, и по многим запросам, особенно по низкочастотным, соревнуется явно меньше десяти сайтов, поэтому все они в топе и получают свой поисковый трафик. С развитием Интернета и ростом количества коммерческих сайтов, оплачивающих SEOуслуги, роль математики в отрасли вырастет прилично: конкуренция заставит.

Адекватных команд математиков в отрасли пока не наблюдается, к нашему сожалению.

Данный текст является ознакомительным фрагментом.