Джон Мюллер из Google недавно ответил на вопрос о фантомных ошибках noindex, обнаруженных в Google Search Console. Мюллер утверждал, что эти сообщения могут быть правдой.

Noindex в консоли поиска Google

Директива noindex robots — это одна из немногих команд, которым должен подчиняться Google, один из немногих способов, с помощью которых владелец сайта может осуществлять контроль над роботом Googlebot, индексатором Google.

И все же консоль поиска нередко сообщает о невозможности проиндексировать страницу из-за директивы noindex, которая, по-видимому, не имеет директивы noindex, по крайней мере, такой, которая не видна в HTML-коде.

Когда консоль поиска Google (GSC) сообщает «Отправленный URL-адрес с пометкой «noindex»», она сообщает о, казалось бы, противоречивой ситуации:

  • Сайт попросил Google проиндексировать страницу через запись в файле Sitemap.
  • Страница отправила Google сигнал не индексировать ее (через директиву noindex).

Это сбивающее с толку сообщение из Search Console о том, что страница не позволяет Google индексировать ее, хотя издатель или SEO не могут наблюдать, что это происходит на уровне кода.

Человек, задающий вопрос опубликовано на Блюскае:

«В течение последних 4 месяцев на веб-сайте возникала ошибка noindex (в метатеге robots), которая отказывалась исчезать из консоли поиска. Ни на веб-сайте, ни в файле robots.txt нет noindex. Мы уже изучили это… Что может быть причиной этой ошибки?»

Noindex показывает только для Google

Джон Мюллер из Google ответил на вопрос, поделившись, что на страницах, которые он исследовал, Google всегда имелся noindex, где происходили подобные вещи.

ЧИТАТЬ  10 известных альтернатив и конкурентов Nightwatch в 2025 году

Мюллер ответил:

«В прошлом я видел случаи, когда на самом деле существовал noindex, который иногда показывался только Google (что все еще может быть очень сложно отладить). Тем не менее, не стесняйтесь присылать мне в личку несколько примеров URL-адресов».

Хотя Мюллер не уточнил, что может происходить, есть способы устранить эту проблему и выяснить, что происходит.

Как устранить фантомные ошибки Noindex

Возможно, где-то есть код, из-за которого индекс noindex отображается только для Google. Например, могло случиться так, что на странице когда-то был noindex, а кеш на стороне сервера (например, плагин кеширования) или CDN (например, Cloudflare) кэшировали HTTP-заголовки с того времени, что, в свою очередь, привело бы к показу старого заголовка noindex роботу Googlebot (поскольку он часто посещает сайт), одновременно предоставляя новую версию владельцу сайта.

Проверить HTTP-заголовок легко: существует множество средств проверки HTTP-заголовков, подобных этому: КлючCDN или этот в SecurityHeaders.com.

Код ответа заголовка сервера 520 — это код, который отправляется Cloudflare, когда он блокирует пользовательский агент.

Снимок экрана: код ответа 520 Cloudflare

Ниже приведен скриншот кода ответа сервера 200, сгенерированного Cloudflare:

Снимок экрана: код ответа сервера 200

Google о фантомных ошибках Noindex в консоли поиска

Я проверил один и тот же URL-адрес, используя два разных средства проверки заголовков: одно средство проверки заголовка возвращало код ответа сервера 520 (заблокировано), а другое средство проверки заголовка отправляло код ответа 200 (ОК). Это показывает, насколько по-разному Cloudflare может реагировать на что-то вроде проверки заголовка. В идеале попробуйте проверить несколько средств проверки заголовков, чтобы увидеть, есть ли последовательный ответ 520 от Cloudflare.

В ситуации, когда веб-страница показывает что-то исключительно Google, что иначе не видно тому, кто просматривает код, вам нужно заставить Google просмотреть страницу за вас, используя настоящий сканер Google и с IP-адреса Google. Чтобы сделать это, добавьте URL-адрес в тест расширенных результатов Google. Google отправит сканер с IP-адреса Google, и если на сервере (или CDN) есть что-то, что показывает noindex, это будет обнаружено. В дополнение к структурированным данным тест расширенных результатов также предоставит ответ HTTP и снимок веб-страницы, показывающий именно то, что сервер показывает Google.

ЧИТАТЬ  У Priceline появился новый голосовой помощник с искусственным интеллектом благодаря OpenAI

Когда вы запускаете URL-адрес через тест расширенных результатов Google, запрос:

  • Происходит из центров обработки данных Google: бот использует реальный IP-адрес Google.
  • Проходит обратные проверки DNS: если сервер, подключаемый модуль безопасности или CDN проверяют IP-адрес, он возвращается к googlebot.com или google.com.

Если страница заблокирована noindex, инструмент не сможет предоставить результаты в виде структурированных данных. Он должен иметь статус «Страница не соответствует требованиям» или «Сканирование не удалось». Если вы видите это, нажмите ссылку «Просмотреть подробности» или разверните раздел ошибок. Должно отображаться что-то вроде «Метатег роботов: noindex» или «noindex», обнаруженный в метатеге «роботы».

Этот подход не отправляет пользовательский агент GoogleBot, он использует строку пользовательского агента Google-InspectionTool/1.0. Это означает, что если блокировка сервера осуществляется по IP-адресу, этот метод ее перехватит.

Еще один аспект, который следует проверить, — это ситуация, когда мошеннический тег noindex специально написан для блокировки GoogleBot, вы все равно можете подделать (имитировать) строку пользовательского агента GoogleBot с помощью собственной строки GoogleBot. Расширение переключателя пользовательского агента для Chrome или настройте приложение, такое как Screaming Frog, на идентификацию себя с пользовательским агентом GoogleBot, и оно должно его перехватить.

Снимок экрана: переключатель пользовательского агента Chrome

Google о фантомных ошибках Noindex в консоли поиска

Фантомные ошибки Noindex в консоли поиска

Диагностика подобных ошибок может показаться сложной задачей, но прежде чем поднимать руки вверх, потратьте некоторое время и посмотрите, поможет ли какой-либо из описанных здесь шагов выявить скрытую причину, вызывающую эту проблему.

Рекомендованное изображение: Shutterstock/AYO Production



Source link