Сканирование в декабре: как и почему робот Googlebot сканирует | Центральный блог Google Поиска | Google для разработчиков • Продвижение Web 2.0

Вторник, 3 декабря 2024 г.

Возможно, вы слышали, что Google Search нужно проделать небольшую работу, прежде чем веб-страница появится в результатах поиска Google. Один из этих шагов называется сканированием. Сканирование для поиска Google выполняется роботом Googlebot — программой, работающей на серверах Google, которая извлекает URL-адрес и обрабатывает такие вещи, как сетевые ошибки, перенаправления и другие небольшие сложности, с которыми он может столкнуться при работе в Интернете. Но есть несколько деталей, о которых не часто говорят. Каждую неделю в этом месяце мы будем изучать некоторые из этих деталей, поскольку они могут оказать существенное влияние на сканирование ваших сайтов.

Немного отступив: что такое ползание?

Сканирование — это процесс обнаружения новых и повторного посещения обновленных веб-страниц, а также их загрузки. Короче говоря, робот Googlebot получает URL-адрес, отправляет HTTP-запрос на сервер, на котором он размещен, а затем обрабатывает ответ от этого сервера, возможно, следуя перенаправлениям, обрабатывая ошибки и передавая содержимое страницы в систему индексации Google.

Но современные веб-страницы — это не просто чистый HTML, а как насчет других ресурсов, составляющих страницу? Как сканирование этих ресурсов влияет на «бюджет сканирования»? Кэшируются ли эти ресурсы на стороне Google? И есть ли разница между URL-адресами, которые ранее не сканировались, и теми, которые уже проиндексированы? В этом посте мы ответим на эти и многие другие вопросы!

Робот Googlebot и сканирование ресурсов страниц

Помимо HTML, современные веб-сайты используют комбинацию различных технологий, таких как JavaScript и CSS, чтобы предложить пользователям яркие впечатления и полезные функции. При доступе к таким страницам с помощью браузера браузер сначала загружает родительский URL-адрес, на котором размещаются данные, необходимые для начала создания страницы для пользователя, — HTML-код страницы. Эти исходные данные могут содержать ссылки на такие ресурсы, как JavaScript и CSS, а также изображения и видео, которые браузер будет снова загружать, чтобы в конечном итоге создать окончательную страницу, которая затем будет представлена пользователю.

ЧИТАТЬ Круизные робокары осторожно возвращаются в Хьюстон | Цифровые тенденции

Google делает то же самое, но немного по-другому:

Робот Googlebot загружает исходные данные с родительского URL — HTML страницы.
Робот Googlebot передает полученные данные в службу веб-рендеринга (WRS).
Используя Googlebot, WRS загружает ресурсы, указанные в исходных данных.
WRS создает страницу, используя все загруженные ресурсы, как это делает браузер пользователя.

По сравнению с браузером время между каждым шагом может быть значительно больше из-за ограничений планирования, таких как предполагаемая нагрузка сервера, на котором размещены ресурсы, необходимые для рендеринга страницы. И здесь в разговор вступает краулинговый бюджет.

Сканирование ресурсов, необходимых для отображения страницы, будет отнимать бюджет сканирования имени хоста, на котором размещен ресурс. Чтобы исправить эту ситуацию, WRS пытается кэшировать каждый ресурс (JavaScript и CSS), на который ссылаются на страницах, которые он отображает. Директивы кэширования HTTP не влияют на время существования кэша WRS; вместо этого WRS кэширует все на срок до 30 дней, что помогает сохранить бюджет сканирования сайта для других задач сканирования.

С точки зрения владельцев сайтов, управление тем, как и какие ресурсы сканируются, может повлиять на бюджет сканирования сайта; мы рекомендуем:

Используйте как можно меньше ресурсов предложить пользователям отличный опыт; чем меньше ресурсов требуется для рендеринга страницы, тем меньше обходного бюджета тратится во время рендеринга.
Размещать ресурсы на другом имени хоста с основного сайта, например, используя CDN или просто размещая ресурсы на другом поддомене. Это перенесет заботу о бюджете на сканирование на хост, который обслуживает ресурсы.
Используйте параметры очистки кеша осторожно: если URL-адреса ресурсов изменятся, Google, возможно, придется снова просканировать ресурсы, даже если их содержимое не изменилось. Это, конечно, потребует краулингового бюджета.

ЧИТАТЬ Хранилище файлов для бизнеса, создание SEO-контента для сайтов – эти и другие российские стартапы

Все эти пункты касаются и медиаресурсов. Если Googlebot (или, точнее,
Googlebot-Image и Googlebot-Video соответственно) получает их, это будет расходовать краулинговый бюджет сайта.

Заманчиво добавить в список и файл robots.txt, однако с точки зрения рендеринга запрет на сканирование ресурсов обычно вызывает проблемы. Если WRS не может получить ресурс, критически важный для рендеринга, у Google Search могут возникнуть проблемы с извлечением содержимого страницы и обеспечением ее рейтинга в поиске.

Что сканирует робот Googlebot?

Лучшим источником для анализа того, какие ресурсы сканирует Google, являются необработанные журналы доступа к сайту, в которых есть запись для каждого URL-адреса, запрошенного как браузерами, так и сканерами. Чтобы идентифицировать сканеры Google в журнале доступа, мы публикуем диапазоны IP-адресов в документации для разработчиков.

Второй лучший ресурс – это, конечно же,
Отчет о статистике сканирования в Search Consoleкоторый распределяет каждый вид ресурсов по каждому сканеру:

Наконец, если вы действительно увлекаетесь сканированием и рендерингом и хотите поговорить об этом с другими,
Поиск в центральном сообществе это то место, куда вам стоит пойти, но вы также можете найти нас на
LinkedIn.

Авторы: Мартин Сплитт и Гэри Иллис

Source link