Джон Мюллер из Google ответил на вопрос о Reddit о кажущейся ложной «noindex», обнаруженном в ошибке x-robots-tag http header ‘, сообщаемой в консоли поиска Google для страниц, на которых нет этой конкретной рентгеновской-tag или какой-либо другой связанной директивы или блока. Мюллер предложил некоторые возможные причины, и несколько красных изданий предоставили разумные объяснения и решения.

Noindex обнаружил

Человек, который начал Дискуссия Reddit описал сценарий, который может быть знаком многим. Google Search Console сообщает, что она не может индексировать страницу, потому что она была заблокирована не из индексации страницы (которая отличается от блокировки от ползания). Проверка страницы не показывает присутствия мета -элемента noindex, и нет роботов. Текст блокирует ползание.

Вот что описано как их ситуация:

  • «GSC показывает« noindex, обнаруженный в заголовке x-robots-tag http »для большей части моих URL. Однако:
  • Не могу найти NoIndex в HTML -источнике
  • Нет noindex в robots.txt
  • При тестировании нет noindex в заголовках ответов
  • Живой тест в GSC показывает страницу как индексационный
  • Сайт стоит за CloudFlare (мы проверили правила страницы/WAF и т. Д.) »

Они также сообщили, что попробовали подделать Googlebot и протестировали различные IP-адреса и заголовки запросов и все еще не нашли подсказка для источника рентгеновского Tag

Cloudflare подозревается

Один из красных дисков прокомментировал в этом обсуждении, чтобы предложить устранение неполадок, была ли проблема возникновена из CloudFlare.

Они предложили всеобъемлющие пошаговые инструкции о том, как диагностировать, если CloudFlare или что -то еще не позволяли Google индексировать страницу:

ЧИТАТЬ  Лауреаты Оскара 2024: Оппенгеймер получает 7 наград, в том числе за лучший фильм | Цифровые тенденции

«Во -первых, сравните страницу в прямом эфире с ползал в GSC, чтобы проверить, видит ли Google устаревший ответ. Затем проверьте правила преобразования CloudFlare, заголовки ответов и работников на предмет изменений. Используйте Curl с помощью Googlebot пользовательского агента и обхода кэша (Cache-Control: No-Cache), чтобы проверить ответы сервера. При использовании WordPress отключите плагины SEO, чтобы исключить динамические заголовки. Кроме того, войдите в систему запросов Googlebot на сервере и проверьте, появляется ли x-Robots-Tag. Если все не удается, обходите CloudFlare, указывая DNS непосредственно на ваш сервер и повторный тест ».

OP (Оргинальный плакат, тот, кто начал обсуждение) ответил, что они проверили все эти решения, но не смогли проверить кэш сайта через GSC, только живой сайт (с фактического сервера, а не CloudFlare).

Как проверить с фактическим Googlebot

Интересно, что ОП заявил, что они не смогли проверить свой сайт, используя Googlebot, но на самом деле есть способ сделать это.

The Tester Google Result Tester использует пользовательский агент Googlebot, который также происходит из IP -адреса Google. Этот инструмент полезен для проверки того, что видит Google. Если эксплойт заставляет сайт отображать покрытую страницей, богатый тестировщик результатов точно покажет, что Google индексирует.

Google Страница поддержки богатых результатов подтверждает:

«Этот инструмент обращается к странице как Googlebot (то есть не использует ваши учетные данные, а как Google)».

401 Ответ об ошибке?

Следующее, вероятно, не было решением, но это интересные технические знания SEO.

Другой пользователь поделился опытом сервера, отвечающего с ответом на ошибку 401. Ответ 401 означает «несанкционированный», и это происходит, когда в запросе на ресурс отсутствует учетные данные аутентификации, или предоставленные учетные данные не являются правильными. Их решением сделать индексацию заблокированных сообщений в консоли поиска Google состояло в том, чтобы добавить нотацию в robots.txt, чтобы заблокировать сканирование URL -адресов страницы входа в систему.

ЧИТАТЬ  3 недооцененных (HBO) фильма Max, которые стоит посмотреть на этих выходных (27–29 декабря).

Джон Мюллер из Google по ошибке GSC

Джон Мюллер попал в дискуссию, чтобы предложить свою помощь в диагностике проблемы. Он сказал, что видел, как эта проблема возникает в отношении CDN (сети доставки контента). Интересно, что он сказал, что он также видел, как это происходит с очень старыми URL. Он не уточнил этот последний, но, похоже, подразумевает какую -то индексирующую ошибку, связанную со старыми индексированными URL -адресами.

Вот что он сказал:

«Рад взглянуть, если вы хотите провести мне несколько образцов. Я видел это с CDN, я видел это с действительно старыми ползами (когда проблема была там давно, и на сайте просто много древних URL-адресов), возможно, здесь есть что-то новое… »

Ключевые выводы: индекс консоли поиска Google NoIndex обнаружен

  • Консоль поиска Google (GSC) может сообщать о «noindex, обнаруженном в заголовке x-robots-tag http», даже если этот заголовок отсутствует.
  • CDN, такие как CloudFlare, могут мешать индексации. Шаги были переданы, чтобы проверить, влияют ли правила преобразования CloudFlare, заголовки ответов или кэш, как GoogleBot видит страницу.
  • Устаревшие данные индексации на стороне Google также могут быть фактором.
  • Богатый тестер Google может проверить то, что видит GoogleBot, потому что он использует пользовательский агент GoogleBot и IP, раскрывая расхождения, которые могут быть не видны из подготовки пользовательского агента.
  • 401 несанкционированные ответы могут предотвратить индексацию. Пользователь поделился, что их проблема включала в себя страницы входа в систему, которые необходимо заблокировать через robots.txt.
  • Джон Мюллер предложил CDN и исторически ползал URL в качестве возможных причин.



Source link