пятница, 17 февраля 2023 г.
За последние несколько месяцев мы заметили всплеск числа владельцев веб-сайтов и некоторых сетей доставки контента (CDN), пытающихся использовать 404
и другие 4xx
ошибки клиента (но не
429
), чтобы попытаться снизить скорость сканирования Googlebot.
Краткая версия этого сообщения в блоге: пожалуйста, не делайте этого; у нас есть документация о том, как уменьшить скорость сканирования Googlebot. Прочтите это и узнайте, как эффективно управлять скоростью сканирования Googlebot.
Содержание
Вернуться к основам: 4xx
ошибки относятся к ошибкам клиента
4xx
ошибки, которые серверы возвращают клиентам, являются сигналом от сервера о том, что запрос клиента в каком-то смысле неверен. Большинство ошибок в этой категории довольно безобидные: ошибки «не найдено», «запрещено», «я чайник» (да, это вещь). Они не предполагают, что с самим сервером что-то не так.
Единственным исключением является 429
, что означает «слишком много запросов». Эта ошибка является четким сигналом для любого хорошо ведущего себя робота, включая нашего любимого робота Googlebot, что ему нужно снизить скорость, потому что он перегружает сервер.
Почему 4xx
ошибки вредны для ограничения скорости Googlebot (кроме 429
)
Ошибки клиента — это просто ошибки клиента. Как правило, они не указывают на ошибку сервера: не то, что он перегружен, не то, что он столкнулся с критической ошибкой и не может ответить на запрос. Они просто означают, что запрос клиента был в некотором роде плохим. Нет разумного способа приравнять, например, 404
ошибка к перегруженному серверу. Представьте, если бы это было так: вы получаете приток 404
ошибки от вашего друга, случайно ссылающегося на неправильные страницы на вашем сайте, и, в свою очередь, робот Googlebot замедляет сканирование. Это было бы очень плохо. То же самое касается 403
, 410
, 418
.
И снова большим исключением является 429
код состояния, который переводится как «слишком много запросов».
С каким ограничением скорости 4xx
делает с роботом Googlebot
Все 4xx
Коды состояния HTTP (опять же, за исключением 429
) приведет к удалению вашего контента из поиска Google. Что еще хуже, если вы также предоставляете файл robots.txt с
4xx
Код состояния HTTP, он будет считаться несуществующим. Если у вас там было правило, запрещающее сканировать ваше грязное белье, то теперь об этом знает и Googlebot; не очень хорошо для любой из сторон.
Как правильно снизить скорость сканирования Googlebot
У нас есть обширная документация о том, как уменьшить скорость сканирования Googlebot, а также о том, как Googlebot (и поисковое индексирование) обрабатывает различные коды состояния HTTP; Будьте уверены, чтобы проверить их. Короче говоря, вы хотите сделать любую из этих вещей:
Если вам нужны дополнительные советы или разъяснения, свяжитесь с нами по
Твиттер или разместить в
наши справочные форумы.
Сообщение от Гэри Иллиес