Google Search Relations ответил на несколько вопросов об индексации веб-страниц в последнем выпуске подкаста «Search Off The Record».
Обсуждались темы, как запретить роботу Googlebot сканировать определенные разделы страницы и как полностью запретить роботу Googlebot доступ к сайту.
Джон Мюллер и Гэри Иллиес из Google ответили на вопросы, рассмотренные в этой статье.
Блокировка робота Googlebot в определенных разделах веб-страницы
Мюллер говорит, что это невозможный когда его спрашивают, как запретить роботу Googlebot сканировать определенные разделы веб-страницы, например области «также купленные» на страницах продуктов.
«Коротко говоря, вы не можете заблокировать сканирование определенного раздела на HTML-странице», — сказал Мюллер.
Далее он предложил две возможные стратегии решения этой проблемы, ни одна из которых, как он подчеркнул, не является идеальным решением.
Мюллер предложил использовать HTML-атрибут data-nosnippet, чтобы предотвратить появление текста в фрагменте поиска.
В качестве альтернативы вы можете использовать iframe или JavaScript с источником, заблокированным robots.txt, хотя он предупредил, что это не очень хорошая идея.
«Использование роботизированного iframe или файла JavaScript может вызвать проблемы при сканировании и индексировании, которые трудно диагностировать и устранить», — заявил Мюллер.
Он заверил всех слушателей, что если рассматриваемый контент повторно используется на нескольких страницах, это не проблема, требующая решения.
«Нет необходимости блокировать Googlebot от просмотра такого рода дублирования», — добавил он.
Блокировка доступа робота Googlebot к веб-сайту
В ответ на вопрос о предотвращении доступа робота Googlebot к любой часть сайта, Illyes предоставила простое в использовании решение.
«Самый простой способ — это robots.txt: если вы добавите disallow: / для пользовательского агента Googlebot, Googlebot оставит ваш сайт в покое до тех пор, пока вы сохраняете это правило», — объяснил Иллиес.
Для тех, кто ищет более надежное решение, Illyes предлагает другой метод:
«Если вы хотите заблокировать даже доступ к сети, вам нужно создать правила брандмауэра, которые загружают наши диапазоны IP-адресов в правило запрета», — сказал он.
См. официальная документация для получения списка IP-адресов робота Googlebot.
В итоге
Хотя невозможно запретить роботу Googlebot доступ к определенным разделам HTML-страницы, такие методы, как использование атрибута data-nosnippet, могут обеспечить контроль.
При рассмотрении вопроса о полной блокировке робота Googlebot на вашем сайте достаточно простого правила запрета в файле robots.txt. Однако доступны и более крайние меры, такие как создание определенных правил брандмауэра.
Избранное изображение, созданное автором с помощью Midjourney.
Источник: Поиск в Google не для записи