Google раскрыл подробности о двух новых сканерах, оптимизированных для сбора изображений и видеоконтента в целях «исследований и разработок». Хотя в документации об этом прямо не говорится, предполагается, что решение издателей заблокировать новых сканеров не повлияет на рейтинг.
Следует отметить, что данные, собранные этими сканерами, не предназначены специально для данных обучения ИИ, для этого предназначен сканер Google-Extended.
Содержание
GoogleДругие сканеры
Два новых сканера представляют собой версии сканера GoogleOther от Google, который был запущен в апреле 2023 года. Исходный сканер GoogleOther также предназначался для использования группами разработчиков продуктов Google для исследований и разработок в так называемых разовых сканированиях, описание которых дает подсказки. о том, для чего будут использоваться новые варианты GoogleOther.
Цель оригинального сканера GoogleOther официально описана как:
«GoogleOther — это универсальный сканер, который может использоваться различными группами разработчиков для получения общедоступного контента с сайтов. Например, его можно использовать для разового сканирования для внутренних исследований и разработок».
Два варианта GoogleДругие
Появилось два новых сканера GoogleOther:
- GoogleOther-Image
- GoogleДругое-Видео
Новые варианты предназначены для сканирования двоичных данных, то есть данных, не являющихся текстом. Данные HTML обычно называются текстовыми файлами, файлами ASCII или Unicode. Если его можно просмотреть в текстовом файле, то это текстовый файл/ASCII/файл Unicode. Двоичные файлы — это файлы, которые нельзя открыть в приложении для просмотра текста, например файлы изображений, аудио и видео.
Новые варианты GoogleOther предназначены для изображений и видеоконтента. Google перечисляет токены пользовательских агентов для обоих новых сканеров, которые можно использовать в файле robots.txt для блокировки новых сканеров.
1. GoogleДругое-Изображение
Токены пользовательского агента:
- GoogleOther-Image
- GoogleДругое
Полная строка пользовательского агента:
GoogleOther-Image/1.0
2. GoogleДругое-Видео
Токены пользовательского агента:
- GoogleДругое-Видео
- GoogleДругое
Полная строка пользовательского агента:
GoogleДругое-Видео/1.0
Недавно обновленные строки агента пользователя GoogleOther
Google также обновил строки пользовательского агента GoogleOther для обычного сканера GoogleOther. В целях блокировки вы можете продолжать использовать тот же токен пользовательского агента, что и раньше (GoogleOther). Новые строки Users Agent — это просто данные, отправляемые на серверы для идентификации полного описания сканеров, в частности, используемой технологии. В данном случае используется технология Chrome, при этом номер модели периодически обновляется, чтобы указать, какая версия используется (WXYZ — это заполнитель номера версии Chrome в приведенном ниже примере).
Полный список строк пользовательского агента GoogleOther:
- Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, например Gecko) Chrome/WXYZ Mobile Safari/537.36 (совместимый; GoogleOther)
- Mozilla/5.0 AppleWebKit/537.36 (KHTML, например Gecko; совместимо; GoogleOther) Chrome/WXYZ Safari/537.36
GoogleДругое семейство ботов
Эти новые боты могут время от времени появляться в журналах вашего сервера, и эта информация поможет идентифицировать их как подлинных сканеров Google, а также поможет издателям, которые могут отказаться от сбора их изображений и видео в целях исследований и разработок.
Прочтите обновленную документацию сканера Google.
Рекомендованное изображение: Shutterstock/ColorMaker