Кто-то на Reddit задал вопрос о проблеме «бюджета сканирования» и спросил, не приводит ли большое количество редиректов 301 к ответам с ошибками 410 к исчерпанию роботом Googlebot своего бюджета сканирования. Джон Мюллер из Google предложил причину, объясняющую, почему у Reddit может быть неудовлетворительная картина сканирования, и разъяснил вопрос о краулинговых бюджетах в целом.

Сканирование бюджета

Общепринятой является идея, что у Google есть краулинговый бюджет, идея, которую оптимизаторы придумали, чтобы объяснить, почему некоторые сайты сканируются недостаточно. Идея состоит в том, что каждому сайту назначается определенное количество сканирований — ограничение на то, на какое количество сканирования может претендовать сайт.

Важно понять подоплеку идеи краулингового бюджета, потому что это помогает понять, что это такое на самом деле. Google уже давно настаивает на том, что в Google нет ничего, что можно было бы назвать бюджетом сканирования, хотя то, как Google сканирует сайт, может создать впечатление, что существует ограничение на сканирование.

Ведущий инженер Google (на тот момент) по имени Мэтт Каттс упомянул этот факт о краулинговом бюджете в интервью 2010 года.

Мэтт ответил на вопрос о краулинговом бюджете Google, сначала объяснив, что краулингового бюджета в том смысле, в каком его понимают оптимизаторы поисковой оптимизации, не существует:

«Во-первых, на самом деле не существует такого понятия, как предел индексации. Многие люди думали, что домен будет индексироваться только определенное количество страниц, но на самом деле это не так.

Также нет жестких ограничений на наше сканирование».

В 2017 году Google опубликовал объяснение обходного бюджета это объединило множество фактов, связанных со сканированием, которые вместе напоминают то, что SEO-сообщество называло краулинг-бюджетом. Это новое объяснение является более точным, чем когда-либо существовавшая расплывчатая и всеобъемлющая фраза «краулинговый бюджет» (документ о краулинговом бюджете Google, обобщенный здесь журналом Search Engine Journal).

ЧИТАТЬ  Google удалил документ с часто задаваемыми вопросами о роботах

Краткий список основных моментов, касающихся краулингового бюджета:

  • Скорость сканирования — это количество URL-адресов, которые Google может сканировать в зависимости от способности сервера предоставить запрошенные URL-адреса.
  • Например, на общем сервере могут размещаться десятки тысяч веб-сайтов, что приводит к сотням тысяч, если не миллионам URL-адресов. Поэтому Google приходится сканировать серверы на основе возможности выполнять запросы страниц.
  • Страницы, которые по сути являются дубликатами других (например, фасетная навигация), и другие малоценные страницы могут тратить ресурсы сервера, ограничивая количество страниц, которые сервер может предоставить роботу Googlebot для сканирования.
  • Легкие страницы легче сканировать.
  • Мягкие страницы 404 могут заставить Google сосредоточиться на этих страницах с низкой ценностью, а не на тех, которые имеют значение.
  • Шаблоны входящих и внутренних ссылок могут влиять на то, какие страницы будут сканироваться.

Вопрос Reddit о скорости сканирования

Человек на Reddit хотел знать, влияют ли создаваемые им воспринимаемые малоценные страницы на краулинговый бюджет Google. Короче говоря, запрос незащищенного URL-адреса страницы, которая больше не существует, перенаправляет на безопасную версию отсутствующей веб-страницы, которая выдает ответ с ошибкой 410 (это означает, что страница исчезла навсегда).

Это законный вопрос.

Вот что они спросили:

«Я пытаюсь заставить Googlebot забыть сканировать некоторые очень старые URL-адреса, отличные от HTTPS, которые все еще сканируются спустя 6 лет. И я разместил ответ 410 на стороне HTTPS в таких очень старых URL-адресах.

Итак, робот Googlebot находит перенаправление 301 (с HTTP на HTTPS), а затем 410.

-301-> (410 ответ)

Два вопроса. G**** доволен этим 301+410?

У меня проблемы с бюджетом на сканирование, и я не знаю, утомляют ли эти два ответа Googlebot

Эффективен ли 410? Я имею в виду, должен ли я вернуть 410 напрямую, без первого 301?»

Джон Мюллер из Google ответил:

Г*?

301 подойдут, смесь 301/410 подойдет.

Бюджет сканирования на самом деле является проблемой для крупных сайтов ( ). Если вы видите там проблемы, а ваш сайт на самом деле невелик, то, вероятно, Google просто не видит особой ценности в дополнительном сканировании. Это не техническая проблема».

Причины недостаточного сканирования

Мюллер ответил, что «вероятно» Google не видит смысла в сканировании большего количества веб-страниц. Это означает, что веб-страницы, вероятно, могли бы использовать проверку, чтобы определить, почему Google может решить, что эти страницы не стоит сканировать.

ЧИТАТЬ  Ожидается, что к 2032 году рынок онлайн-билетов на мероприятия достигнет 107,1 миллиарда долларов, что будет обусловлено удобством и мобильными билетами. Исследование SNS Insider

Некоторые популярные тактики SEO имеют тенденцию создавать малоценные веб-страницы, которым не хватает оригинальности. Например, популярной практикой SEO является просмотр веб-страниц с самым высоким рейтингом, чтобы понять, какие факторы на этих страницах объясняют, почему эти страницы занимают рейтинг, а затем использование этой информации для улучшения своих собственных страниц путем копирования того, что работает в результатах поиска.

Это звучит логично, но это не создает чего-то ценного. Если вы думаете об этом как о бинарном выборе «Один и Ноль», где ноль — это то, что уже есть в результатах поиска, а «Единица» представляет собой что-то оригинальное и необычное, популярная SEO-тактика эмуляции того, что уже есть в результатах поиска, обречена на создание еще одного Ноля, веб-сайт, который не предлагает ничего большего, чем то, что уже есть в поисковой выдаче.

Очевидно, что существуют технические проблемы, которые могут повлиять на скорость сканирования, например состояние сервера и другие факторы.

Но с точки зрения того, что понимается под краулинговым бюджетом, Google уже давно придерживается мнения, что это учитывается для крупных сайтов, а не для веб-сайтов меньшего и среднего размера.

Прочтите обсуждение на Reddit:

Доволен ли G**** 301+410 ответами на один и тот же URL?

Рекомендованное изображение: Shutterstock/ViDI Studio



Source link