пятница, 17 февраля 2023 г.

За последние несколько месяцев мы заметили всплеск числа владельцев веб-сайтов и некоторых сетей доставки контента (CDN), пытающихся использовать 404 и другие 4xx ошибки клиента (но не
429), чтобы попытаться снизить скорость сканирования Googlebot.

Краткая версия этого сообщения в блоге: пожалуйста, не делайте этого; у нас есть документация о том, как уменьшить скорость сканирования Googlebot. Прочтите это и узнайте, как эффективно управлять скоростью сканирования Googlebot.

Вернуться к основам: 4xx ошибки относятся к ошибкам клиента

4xx ошибки, которые серверы возвращают клиентам, являются сигналом от сервера о том, что запрос клиента в каком-то смысле неверен. Большинство ошибок в этой категории довольно безобидные: ошибки «не найдено», «запрещено», «я чайник» (да, это вещь). Они не предполагают, что с самим сервером что-то не так.

Единственным исключением является 429, что означает «слишком много запросов». Эта ошибка является четким сигналом для любого хорошо ведущего себя робота, включая нашего любимого робота Googlebot, что ему нужно снизить скорость, потому что он перегружает сервер.

Почему 4xx ошибки вредны для ограничения скорости Googlebot (кроме 429)

Ошибки клиента — это просто ошибки клиента. Как правило, они не указывают на ошибку сервера: не то, что он перегружен, не то, что он столкнулся с критической ошибкой и не может ответить на запрос. Они просто означают, что запрос клиента был в некотором роде плохим. Нет разумного способа приравнять, например, 404 ошибка к перегруженному серверу. Представьте, если бы это было так: вы получаете приток 404 ошибки от вашего друга, случайно ссылающегося на неправильные страницы на вашем сайте, и, в свою очередь, робот Googlebot замедляет сканирование. Это было бы очень плохо. То же самое касается 403, 410, 418.

И снова большим исключением является 429 код состояния, который переводится как «слишком много запросов».

ЧИТАТЬ  Мулленвег подтверждает, что Tumblr не закрылся, но не закрылся

С каким ограничением скорости 4xx делает с роботом Googlebot

Все 4xx Коды состояния HTTP (опять же, за исключением 429) приведет к удалению вашего контента из поиска Google. Что еще хуже, если вы также предоставляете файл robots.txt с
4xx Код состояния HTTP, он будет считаться несуществующим. Если у вас там было правило, запрещающее сканировать ваше грязное белье, то теперь об этом знает и Googlebot; не очень хорошо для любой из сторон.

Как правильно снизить скорость сканирования Googlebot

У нас есть обширная документация о том, как уменьшить скорость сканирования Googlebot, а также о том, как Googlebot (и поисковое индексирование) обрабатывает различные коды состояния HTTP; Будьте уверены, чтобы проверить их. Короче говоря, вы хотите сделать любую из этих вещей:

Если вам нужны дополнительные советы или разъяснения, свяжитесь с нами по
Твиттер или разместить в
наши справочные форумы.

Сообщение от Гэри Иллиес





Source link