Защитник Google Search Джон Мюллер ответил на вопрос об ошибке «Страница, проиндексированная без контента» в Search Console, объяснив, что проблема обычно связана с блокировкой сервера или CDN, а не с JavaScript.

Обмен произошло на Reddit после того, как пользователь сообщил, что его домашняя страница упала с позиции 1 на позицию 15 после появления ошибки.

Что происходит?

Мюллер прояснил распространенное заблуждение о причине «страницы, проиндексированной без содержания» в Search Console.

Мюллер писал:

«Обычно это означает, что ваш сервер/CDN блокирует Google от получения какого-либо контента. Это не связано ни с чем из JavaScript. Обычно это блокировка довольно низкого уровня, иногда на основе IP-адреса робота Googlebot, поэтому, вероятно, будет невозможно протестировать его вне инструментов тестирования Search Console».

Пользователь Reddit уже предпринял несколько диагностических шагов. Они запустили команды curl, чтобы получить страницу от имени робота Googlebot, проверили на наличие блокировки JavaScript и протестировали с помощью теста расширенных результатов Google. Настольные инструменты проверки выдавали ошибки «Что-то пошло не так», тогда как мобильные инструменты работали нормально.

Мюллер отметил, что стандартные методы внешнего тестирования не выявляют эти блоки.

Он добавил:

«Кроме того, это будет означать, что страницы вашего сайта начнут выпадать из индекса (скоро или уже), поэтому будет хорошей идеей отнестись к этому как к чему-то срочному».

Затронутый сайт использует Webflow в качестве CMS и Cloudflare в качестве CDN. Пользователь сообщил, что домашняя страница индексировалась нормально, без каких-либо последних изменений на сайте.

Почему это важно

Я неоднократно освещал этот тип проблем на протяжении многих лет. Конфигурации CDN и сервера могут непреднамеренно заблокировать Googlebot, не затрагивая обычных пользователей или стандартные инструменты тестирования. Блокировки часто нацелены на определенные диапазоны IP-адресов, а это означает, что тесты Curl и сторонние сканеры не воспроизведут проблему.

ЧИТАТЬ  Худшие порты для ПК — и почему они были такими плохими | цифровые тренды

Я рассказал, когда Google впервые добавил «индексировано без контента» в отчет об индексировании. В справочной документации Google на тот момент отмечалось, что статус означает «по какой-то причине Google не смог прочитать контент» и уточнялось, что «это не случай блокировки robots.txt». Основная причина почти всегда кроется в чем-то более низком в стеке.

Мое внимание привлекла деталь Cloudflare. Я сообщил о похожей ситуации, когда Мюллер посоветовал владельцу сайта, сканирование которого остановилось одновременно на нескольких доменах. Все затронутые сайты использовали Cloudflare, и Мюллер указал на «общую инфраструктуру» как на вероятного виновника. Схема здесь выглядит знакомой.

Совсем недавно я рассказал об отключении Cloudflare в ноябре, которое вызвало всплески 5xx, влияющие на сканирование. Это был широко распространенный инцидент. Этот случай, похоже, является чем-то более целенаправленным, вероятно, правилом защиты от ботов или настройками брандмауэра, которые обрабатывают IP-адреса робота Googlebot иначе, чем другой трафик.

Инструмент проверки URL-адресов Search Console и тест живых URL-адресов остаются основными способами выявления этих блоков. Когда эти инструменты возвращают ошибки при прохождении внешних тестов, вероятной причиной становится блокировка на уровне сервера. Мюллер высказал аналогичную точку зрения в августе, когда советовал снизить скорость сканирования, предлагая владельцам сайтов «перепроверить, что на самом деле произошло» и проверить, «был ли CDN действительно заблокировал Googlebot».

Заглядывая в будущее

Если вы видите ошибку «Страница проиндексирована без содержания», проверьте настройки CDN и сервера на наличие правил, влияющих на диапазоны IP-адресов робота Googlebot. Google публикует IP-адреса своих сканеров, которые могут помочь определить, нацелены ли на них правила безопасности.

Инструмент проверки URL-адресов в консоли поиска — это наиболее надежный способ узнать, что Google получает при сканировании страницы. Инструменты внешнего тестирования не смогут обнаружить блокировки на основе IP, которые влияют только на инфраструктуру Google.

ЧИТАТЬ  Минутная сцена поцелуя из драмы «Стражи Дафэна» восхитила зрителей — YesAsia.ru

В частности, для пользователей Cloudflare проверьте настройки управления ботами, правила брандмауэра и любые элементы управления доступом на основе IP. Конфигурация могла быть изменена посредством автоматических обновлений или новых настроек по умолчанию, а не изменений вручную.



Source link