Утечка исходного кода Яндекса на прошлой неделе наделала много шума. Но пока айтишники пытались из этого собрать свой поисковик, сеошники не теряли времени даром и разбирали полученные данные, чтобы понять, как работают алгоритмы ранжирования главного российского поисковика.
Новые факторы ранжирования Яндекс
Прочесывая код, SEO-специалисты обнаружили, что существует по меньшей мере 17 854 (!) фактора ранжирования. В эти факторы ранжирования входят различные показатели, связанные с кликами, временем ожидания и использованием Яндекс.Метрики. В документации Яндекса также уточняется, что у них есть три класса факторов ранжирования: статические, динамические и те, которые связаны конкретно с поиском пользователя и тем, как он был выполнен.
Хотя выявлено почти 18 000 потенциальных факторов ранжирования, документация указывает, что оценка строится на основе десятков тысяч факторов и настраивается на основе поискового запроса. Это значит, что среда ранжирования очень динамична, как и среда Google. Согласно патенту Google «Структура оценки скоринговых функций», у них уже давно есть что-то похожее, когда запускаются несколько функций и возвращается лучший набор результатов.
Кроме того, в коде есть много других файлов, на которые нет ссылок в архиве. Так что, вероятно, происходит что-то еще, чего мы не можем видеть. Это дополнительно иллюстрируется просмотром изображений в документации по подключению, на которых показаны каталоги, которых нет в архиве.
Топ-5 отрицательных факторов начального ранжирования
Ниже приводится список самых важных отрицательных факторов ранжирования с указанием их весов и кратким пояснением, основанным на их описаниях.
- FI_ADV: -0.2509284637 – Этот фактор определяет, есть ли на странице реклама любого рода, и налагает самый большой взвешенный штраф за один фактор ранжирования.
- FI_DATER_AGE: -0.2074373667 – Этот фактор представляет собой разницу между текущей датой и датой документа, определяемой функцией датирования. Значение равно 1, если дата документа совпадает с сегодняшней, или 0, если документ старше 10 лет или если дата не определена. Это говорит о том, что Яндекс отдает предпочтение более старому контенту.
- FI_QURL_STAT_POWER: -0.1943768768 – Этот фактов представляет собой количество показов URL по отношению к запросу. Похоже, Яндекс занижает URL-адрес, который появляется во многих поисковых запросах, чтобы повысить разнообразие результатов (или продвинуть свои сервисы).
- FI_COMM_LINKS_SEO_HOSTS: -0.1809636391 – Этот фактор представляет собой процент входящих ссылок с «коммерческим» анкорным текстом. Коэффициент возвращается к 0,1, если доля таких ссылок превышает 50%, в противном случае устанавливается в 0.
- FI_GEO_CITY_URL_REGION_COUNTRY: -0.168645758 – Этот фактор — географическое совпадение документа и страны, из которой пользователь искал. Это не совсем понятно, если 1 означает, что документ и страна совпадают.
Таким образом, эти факторы указывают на то, что для наилучшего результата вы должны:
- Избегать рекламы.
- Обновлять старый контент, а не создавать новые страницы.
- Убедиться, что большинство ваших ссылок имеют фирменный анкорный текст.
- Все остальное в этом списке находится вне вашего контроля.
Топ-5 положительных факторов начального ранжирования
А вот список положительных факторов ранжирования с наибольшим весом:
- FI_URL_DOMAIN_FRACTION: +0.5640952971 – Этот фактор представляет собой странное маскирующее перекрытие запроса и домена URL. В качестве примера приведена Челябинская лотерея, сокращенно челлото. Чтобы вычислить это значение, Яндекс находит перекрытые трехбуквенные слова (че, чел, лот, оло), и смотрит, какая доля всех трехбуквенных сочетаний приходится на доменное имя.
- FI_QUERY_DOWNER_CLICKS_COMBO: +0.3690780393 – Описание этого фактора состоит в том, что он «умело сочетает в себе FRC и псевдо-CTR». Непосредственных указаний на то, что такое FRC, нет.
- FI_MAX_WORD_HOST_CLICKS: +0.3451158835 – Этот фактор — кликабельность самого важного слова в домене. Например, для всех запросов, в которых есть слово «википедия», кликают на страницы Википедии.
- FI_MAX_WORD_HOST_YABAR: +0.3154394573 – В описании фактора указано «наиболее характерное слово запроса, соответствующее сайту, согласно Яндекс бару». То есть ключевое слово, которое чаще всего ищут в Панели инструментов Яндекса, связанное с сайтом.
- FI_IS_COM: +0.2762504972 – Фактор, продвигающий сайты с доменом .COM.
Другими словами:
- Играйте в словесные игры со своим доменом.
- Убедитесь, что у вас доменная зона .COM.
- Поощряйте людей искать ваши целевые ключевые слова в панели Яндекса.
- Продолжайте получать клики.
Несколько неожиданных факторов начального ранжирования
Что более интересно в начальном ранжировании, так это неожиданные факторы. Ниже – самые выделяющиеся факторы.
- FI_PAGE_RANK: +0.1828678331 – PageRank — 17-й по значимости фактор в Яндексе. Ранее они полностью удалили ссылки из своей системы ранжирования, поэтому неудивительно, насколько низко она находится в списке.
- FI_SPAM_KARMA: +0.00842682963 – Спам-карма названа в честь «антиспамеров» и представляет собой вероятность того, что хост является спамом; на основе информации Whois.
- FI_SUBQUERY_THEME_MATCH_A: +0.1786465163 – Насколько тесно тематически совпадают запрос и документ. Это 19-й самый взвешенный фактор.
- FI_REG_HOST_RANK: +0.1567124399 – У Яндекса есть фактор ранжирования хоста (или домена).
- FI_URL_LINK_PERCENT: +0.08940421124 – Отношение ссылок, анкорный текст которых является URL-адресом (а не текстом), к общему количеству ссылок.
- FI_PAGE_RANK_UKR: +0.08712279101 – Существует специфический украинский PageRank (интересно, как давно?).
- FI_IS_NOT_RU: +0.08128946612 – Хорошо, если домен не .RU. Судя по всему, русский поисковик не доверяет русским сайтам.
- FI_YABAR_HOST_AVG_TIME2: +0.07417219313 – Это среднее время задержки по данным YandexBar.
- FI_LERF_LR_LOG_RELEV: +0.06059448504 – Это релевантность ссылки, основанная на качестве каждой ссылки.
- FI_NUM_SLASHES: +0.05057609417 – Даже количество / в URL является фактором ранжирования.
- FI_ADV_PRONOUNS_PORTION: -0.001250755075 – Доля местоимений на странице.
- FI_TEXT_HEAD_SYN: -0.01291908335 – Наличие [запросных] слов в заголовке с учетом синонимов.
- FI_PERCENT_FREQ_WORDS: -0.02021022114 – Процент количества слов, входящих в 200 наиболее часто встречающихся слов языка, от количества всех слов текста.
- FI_YANDEX_ADV: -0.09426121965 – Если говорить более конкретно об отвращении к рекламе, Яндекс наказывает страницы с рекламой Яндекса.
- FI_AURA_DOC_LOG_SHARED: -0.09768630485 – Логарифм количества областей текста в документе, которые не являются уникальными.
- FI_AURA_DOC_LOG_AUTHOR: -0.09727752961 – Логарифм числа областей текста, на которых данный владелец документа признан автором.
- FI_CLASSIF_IS_SHOP: -0.1339319854 – Судя по всему, Яндекс будет меньше любить вас, если ваша страница будет магазином.
Главный вывод из рассмотрения факторов ранжирования в кодовой базе Яндекса заключается в том, что существует множество вещей, которые могут быть факторами ранжирования.
И что в итоге?
Существует 15 рейтинговых факторов для медицинских, финансовых и юридических тем. Определенные факторы ранжирования для HTTPS, авторства, обнаружения переведенного контента, скорости страницы, отзывов и комментариев пользователей. 10 факторов ранжирования для времени суток и дня недели. Некоторые сайты, такие как Вконтакте или Рамблер, имеют специальный фактор ранжирования. Для TikTok есть целых 3 дополнительных правила. Существуют факторы ранжирования для использования Яндекс Метрики, Google Analytics и JavaScript от Facebook. Угадайте, какие из них положительные, а какие отрицательные.
Помимо прочего, из-за утечки кода Яндекса выяснилось, что поисковик чистит свою выдачу от конкурентов - Google, Bing, YouTube и TikTok, а также добавляет тихие правки по запросам. Всякий раз, когда кто-то вводит «когда он уже умрет», они добавляют «-путин», чтобы исключить его из результатов.
Это лишь малая часть информации, которую успели найти сеошники с момента утечки кода Яндекса. Понимание особенностей и факторов ранжирования должно дать больше гипотез о вещах, которые нужно проверить и протестировать в Google. А у специалистов появилось больше вещей, которые можно анализировать и измерять с помощью SEO-сканирования, анализа ссылок и инструментов.