Джон Мюллер из Google ответил на вопрос о том, почему Google индексирует страницы, которые запрещены к сканированию в robots.txt, и почему можно безопасно игнорировать соответствующие отчеты Search Console о таких сканированиях.

Трафик ботов для запроса URL-адресов параметров

Человек, задающий вопрос, задокументировал, что боты создавали ссылки на несуществующие URL-адреса параметров запроса (?q=xyz) на страницы с метатегами noindex, которые также заблокированы в robots.txt. Вопрос возник из-за того, что Google сканирует ссылки на эти страницы, блокируется robots.txt (не видя метатега noindex robots), а затем сообщается в Google Search Console как «Индексировано, хотя заблокировано robots.txt».

Человек задал следующий вопрос:

«Но вот в чем главный вопрос: зачем Google индексировать страницы, если они даже не видят их содержимое? В чем в этом преимущество?»

Джон Мюллер из Google подтвердил, что если они не могут просканировать страницу, они не могут увидеть метатег noindex. Он также делает интересное упоминание об операторе site:search, советуя игнорировать результаты, поскольку «средние» пользователи не увидят эти результаты.

Он написал:

«Да, вы правы: если мы не можем сканировать страницу, мы не можем видеть noindex. Тем не менее, если мы не можем сканировать страницы, то нам нечего индексировать. Поэтому, хотя вы можете увидеть некоторые из этих страниц с целевым site:-query, среднестатистический пользователь их не увидит, поэтому я бы не стал суетиться из-за этого. Noindex тоже подходит (без запрета robots.txt), это просто означает, что URL-адреса в конечном итоге будут просканированы (и попадут в отчет Search Console как просканированные/не проиндексированные — ни один из этих статусов не вызывает проблем для остальной части сайта). Важно то, что вы не делаете их сканируемыми + индексируемыми».

Выводы:

1. Ответ Мюллера подтверждает ограничения в использовании оператора расширенного поиска Site:search в диагностических целях. Одна из этих причин заключается в том, что он не связан с обычным индексом поиска, это вообще отдельная вещь.

ЧИТАТЬ  NYT Connections Today – советы и ответы на пятницу, 30 августа (игра № 446)

Джон Мюллер из Google прокомментировал работу оператора поиска на сайте в 2021 году:

«Короткий ответ заключается в том, что запрос site: не является полным и не используется в диагностических целях.

Запрос сайта — это определенный вид поиска, который ограничивает результаты определенным сайтом. По сути, это просто слово сайт, двоеточие и домен сайта.

Этот запрос ограничивает результаты определенным веб-сайтом. Он не предназначен для всеобъемлющего сбора всех страниц с этого веб-сайта.”

2. Тег noindex без использования robots.txt подходит для ситуаций, когда бот ссылается на несуществующие страницы, которые обнаруживает Googlebot.

3. URL-адреса с тегом noindex будут генерировать запись «просканировано/не проиндексировано» в Search Console, и это не окажет негативного влияния на остальную часть веб-сайта.

Прочитайте вопрос и ответ на LinkedIn:

Зачем Google индексировать страницы, если они даже не видят их содержимое?

Главное изображение от Shutterstock/Krakenimages.com



Source link