Google тихо добавила нового бота в документацию своего краулера, который сканирует от имени коммерческих клиентов своего продукта Vertex AI. Похоже, что новый краулер может сканировать только сайты, контролируемые владельцами сайтов, но документация не совсем ясна по этому поводу.
Содержание
Агенты Vertex AI
Новый поисковый робот Google-CloudVertexBot обрабатывает контент веб-сайтов для клиентов Vertex AI, в отличие от других ботов, перечисленных в документации Search Central, которые привязаны к поиску Google или рекламе.
Официальное облако Google документация предлагает следующую информацию:
«В Vertex AI Agent Builder есть различные типы хранилищ данных. Хранилище данных может содержать только один тип данных».
Далее перечисляются шесть типов данных, один из которых — данные публичного веб-сайта. В документации по сканированию говорится, что существует два типа сканирования веб-сайтов с ограничениями, характерными для каждого типа.
- Базовая индексация веб-сайта
- Расширенная индексация веб-сайта
Документация сбивает с толку
В документации поясняются данные веб-сайта:
«Хранилище данных с данными веб-сайтов использует данные, проиндексированные с общедоступных веб-сайтов. Вы можете указать набор доменов и настроить поиск или рекомендации по данным, просканированным с доменов. Эти данные включают текст и изображения, помеченные метаданными».
В описании выше ничего не говорится о проверке доменов. В описании Базовой индексации веб-сайтов ничего не говорится о проверке владельца сайта.
Однако в документации по расширенной индексации веб-сайтов указано, что требуется проверка домена, а также установлены квоты индексации.
Однако в документации к самому сканеру говорится, что новый сканер сканирует «по запросу владельцев сайтов», поэтому вполне возможно, что он не будет сканировать общедоступные сайты.
А вот что сбивает с толку: запись в журнале изменений для этого нового сканера указывает на то, что новый сканер может приступить к парсингу вашего сайта.
Вот что журнал изменений говорит:
«Новый поисковый робот был представлен, чтобы помочь владельцам сайтов идентифицировать трафик новых поисковых роботов».
Новый поисковик Google
Новый сканер называется Google-CloudVertexBot.
Вот новая информация по этому поводу:
«Google-CloudVertexBot сканирует сайты по запросу их владельцев при создании Vertex AI Agents.
Токены пользовательского агента
- Google-CloudVertexBot
- Googlebot»
Подстрока пользовательского агента
Google-CloudVertexBot
Неясная документация
В документации, похоже, указано, что новый краулер не индексирует публичные сайты, но в журнале изменений указано, что он был добавлен, чтобы владельцы сайтов могли идентифицировать трафик от нового краулера. Стоит ли блокировать новый краулер с помощью robots.txt на всякий случай? Это не лишено смысла, учитывая, что в документации не совсем ясно указано, сканирует ли он только те домены, которые, как подтверждено, находятся под контролем субъекта, инициировавшего сканирование.
Прочитайте новую документацию Google:
Главное изображение от Shutterstock/ShotPrime Studio