Google Search Relations ответил на несколько вопросов об индексации веб-страниц в последнем выпуске подкаста «Search Off The Record».

Обсуждались темы, как запретить роботу Googlebot сканировать определенные разделы страницы и как полностью запретить роботу Googlebot доступ к сайту.

Джон Мюллер и Гэри Иллиес из Google ответили на вопросы, рассмотренные в этой статье.

Блокировка робота Googlebot в определенных разделах веб-страницы

Мюллер говорит, что это невозможный когда его спрашивают, как запретить роботу Googlebot сканировать определенные разделы веб-страницы, например области «также купленные» на страницах продуктов.

«Коротко говоря, вы не можете заблокировать сканирование определенного раздела на HTML-странице», — сказал Мюллер.

Далее он предложил две возможные стратегии решения этой проблемы, ни одна из которых, как он подчеркнул, не является идеальным решением.

Мюллер предложил использовать HTML-атрибут data-nosnippet, чтобы предотвратить появление текста в фрагменте поиска.

В качестве альтернативы вы можете использовать iframe или JavaScript с источником, заблокированным robots.txt, хотя он предупредил, что это не очень хорошая идея.

«Использование роботизированного iframe или файла JavaScript может вызвать проблемы при сканировании и индексировании, которые трудно диагностировать и устранить», — заявил Мюллер.

Он заверил всех слушателей, что если рассматриваемый контент повторно используется на нескольких страницах, это не проблема, требующая решения.

«Нет необходимости блокировать Googlebot от просмотра такого рода дублирования», — добавил он.

Блокировка доступа робота Googlebot к веб-сайту

В ответ на вопрос о предотвращении доступа робота Googlebot к любой часть сайта, Illyes предоставила простое в использовании решение.

«Самый простой способ — это robots.txt: если вы добавите disallow: / для пользовательского агента Googlebot, Googlebot оставит ваш сайт в покое до тех пор, пока вы сохраняете это правило», — объяснил Иллиес.

ЧИТАТЬ  «Это революция искусственного интеллекта» — Acer представляет TravelMate P6 14 AI, мощный бизнес-ноутбук с процессорами Intel Core Ultra и передовыми инструментами искусственного интеллекта для повышения производительности.

Для тех, кто ищет более надежное решение, Illyes предлагает другой метод:

«Если вы хотите заблокировать даже доступ к сети, вам нужно создать правила брандмауэра, которые загружают наши диапазоны IP-адресов в правило запрета», — сказал он.

См. официальная документация для получения списка IP-адресов робота Googlebot.

В итоге

Хотя невозможно запретить роботу Googlebot доступ к определенным разделам HTML-страницы, такие методы, как использование атрибута data-nosnippet, могут обеспечить контроль.

При рассмотрении вопроса о полной блокировке робота Googlebot на вашем сайте достаточно простого правила запрета в файле robots.txt. Однако доступны и более крайние меры, такие как создание определенных правил брандмауэра.


Избранное изображение, созданное автором с помощью Midjourney.

Источник: Поиск в Google не для записи





Source link