Google обновил документацию по роботам Googlebot и сканерам, добавив ряд IP-адресов для ботов, запускаемых пользователями продуктов Google. Названия каналов изменились, что важно для издателей, которые вносят IP-адреса, контролируемые Google, в белый список. Это изменение будет полезно для издателей, которые хотят заблокировать парсеры, использующие облако Google, и другие сканеры, не связанные напрямую с самим Google.

Новый список IP-адресов

Google сообщает, что список содержит диапазоны IP-адресов, которые уже давно используются, поэтому это не новые диапазоны IP-адресов.

Существует два типа диапазонов IP-адресов:

  1. Диапазоны IP-адресов, которые инициируются пользователями, но контролируются Google и преобразуются в имя хоста Google.com.
    Это такие инструменты, как Google Site Verifier и, предположительно, инструмент проверки расширенных результатов.
  2. Диапазоны IP-адресов, которые инициируются пользователями, но не контролируются Google и преобразуются в имя хоста gae.googleusercontent.com.
    Это приложения, которые находятся в облаке Google или скрипты приложений которые вызываются из Google Sheets.

Списки, соответствующие каждой категории, теперь другие.

Раньше список, соответствующий IP-адресам Google, был следующим: Special-Crawlers.json (разрешается в gae.googleusercontent.com).

Теперь список «специальных сканеров» соответствует сканерам, которые не контролируются Google.

«IP-адреса в объекте user-triggered-fetchers.json разрешаются в имена хостов gae.googleusercontent.com. Эти IP-адреса используются, например, если сайт, работающий в Google Cloud (GCP), имеет функцию, которая требует получения внешних RSS-каналов по запросу пользователя этого сайта».

Новый список, соответствующий сканерам, контролируемым Google, выглядит следующим образом:

триггерные пользователем сборщики-google.json

«Инструменты и функции продукта, которые конечный пользователь запускает извлечение. Например, Google Site Verifier действует по запросу пользователя. Поскольку выборка была запрошена пользователем, эти сборщики игнорируют правила robots.txt.

Сборщики, контролируемые Google, исходят из IP-адресов в объекте user-triggered-fetchers-google.json и преобразуются в имя хоста google.com».

Список IP-адресов Google Cloud и сканеров приложений, которые Google не контролирует, можно найти здесь:

Список IP-адресов Google, которые активируются пользователями и контролируются Google, находится здесь:

Новый раздел контента

Появился новый раздел контента, объясняющий, о чем идет речь в новом списке.

«Сборщики, контролируемые Google, исходят из IP-адресов в объекте user-triggered-fetchers-google.json и преобразуются в имя хоста google.com. IP-адреса в объекте user-triggered-fetchers.json преобразуются в имена хостов gae.googleusercontent.com. Эти IP-адреса используются, например, если сайт, работающий в Google Cloud (GCP), имеет функцию, которая требует получения внешних RSS-каналов по запросу пользователя этого сайта. ***-***-***-***.gae.googleusercontent.com или google-proxy-***-***-***-***.google.com сборщики, запускаемые пользователем .json и пользовательские-fetchers-google.json».

Журнал изменений Google

Google журнал изменений объяснил изменения следующим образом:

«Экспорт дополнительного диапазона IP-адресов сборщика Google.
Что: добавлен дополнительный список IP-адресов для сборщиков, которые контролируются продуктами Google, в отличие, например, от скрипта приложений, управляемого пользователем. Новый список user-triggered-fetchers-google.json содержит диапазоны IP-адресов, которые используются уже давно.

Почему: Стало технически возможным экспортировать диапазоны».

Прочтите обновленную документацию:
Проверка робота Googlebot и других сканеров Google

ЧИТАТЬ  До конца войны нет оснований ожидать роста ИТ-отрасли – гендиректор Львовского ИТ-кластера

Прочтите старую документацию:
Archive.org – проверка робота Googlebot и других сканеров Google.

Рекомендованное изображение: Shutterstock/JHVEPhoto



Source link