Вторник, 3 декабря 2024 г.

Возможно, вы слышали, что Google Search нужно проделать небольшую работу, прежде чем веб-страница появится в результатах поиска Google. Один из этих шагов называется сканированием. Сканирование для поиска Google выполняется роботом Googlebot — программой, работающей на серверах Google, которая извлекает URL-адрес и обрабатывает такие вещи, как сетевые ошибки, перенаправления и другие небольшие сложности, с которыми он может столкнуться при работе в Интернете. Но есть несколько деталей, о которых не часто говорят. Каждую неделю в этом месяце мы будем изучать некоторые из этих деталей, поскольку они могут оказать существенное влияние на сканирование ваших сайтов.

Немного отступив: что такое ползание?

Сканирование — это процесс обнаружения новых и повторного посещения обновленных веб-страниц, а также их загрузки. Короче говоря, робот Googlebot получает URL-адрес, отправляет HTTP-запрос на сервер, на котором он размещен, а затем обрабатывает ответ от этого сервера, возможно, следуя перенаправлениям, обрабатывая ошибки и передавая содержимое страницы в систему индексации Google.

Но современные веб-страницы — это не просто чистый HTML, а как насчет других ресурсов, составляющих страницу? Как сканирование этих ресурсов влияет на «бюджет сканирования»? Кэшируются ли эти ресурсы на стороне Google? И есть ли разница между URL-адресами, которые ранее не сканировались, и теми, которые уже проиндексированы? В этом посте мы ответим на эти и многие другие вопросы!

Робот Googlebot и сканирование ресурсов страниц

Помимо HTML, современные веб-сайты используют комбинацию различных технологий, таких как JavaScript и CSS, чтобы предложить пользователям яркие впечатления и полезные функции. При доступе к таким страницам с помощью браузера браузер сначала загружает родительский URL-адрес, на котором размещаются данные, необходимые для начала создания страницы для пользователя, — HTML-код страницы. Эти исходные данные могут содержать ссылки на такие ресурсы, как JavaScript и CSS, а также изображения и видео, которые браузер будет снова загружать, чтобы в конечном итоге создать окончательную страницу, которая затем будет представлена ​​пользователю.

ЧИТАТЬ  2023 Факторы ранжирования в локальном поиске: советы и основные выводы

Google делает то же самое, но немного по-другому:

  1. Робот Googlebot загружает исходные данные с родительского URL — HTML страницы.
  2. Робот Googlebot передает полученные данные в службу веб-рендеринга (WRS).
  3. Используя Googlebot, WRS загружает ресурсы, указанные в исходных данных.
  4. WRS создает страницу, используя все загруженные ресурсы, как это делает браузер пользователя.

По сравнению с браузером время между каждым шагом может быть значительно больше из-за ограничений планирования, таких как предполагаемая нагрузка сервера, на котором размещены ресурсы, необходимые для рендеринга страницы. И здесь в разговор вступает краулинговый бюджет.

Сканирование ресурсов, необходимых для отображения страницы, будет отнимать бюджет сканирования имени хоста, на котором размещен ресурс. Чтобы исправить эту ситуацию, WRS пытается кэшировать каждый ресурс (JavaScript и CSS), на который ссылаются на страницах, которые он отображает. Директивы кэширования HTTP не влияют на время существования кэша WRS; вместо этого WRS кэширует все на срок до 30 дней, что помогает сохранить бюджет сканирования сайта для других задач сканирования.

С точки зрения владельцев сайтов, управление тем, как и какие ресурсы сканируются, может повлиять на бюджет сканирования сайта; мы рекомендуем:

  1. Используйте как можно меньше ресурсов предложить пользователям отличный опыт; чем меньше ресурсов требуется для рендеринга страницы, тем меньше обходного бюджета тратится во время рендеринга.
  2. Размещать ресурсы на другом имени хоста с основного сайта, например, используя CDN или просто размещая ресурсы на другом поддомене. Это перенесет заботу о бюджете на сканирование на хост, который обслуживает ресурсы.
  3. Используйте параметры очистки кеша осторожно: если URL-адреса ресурсов изменятся, Google, возможно, придется снова просканировать ресурсы, даже если их содержимое не изменилось. Это, конечно, потребует краулингового бюджета.
ЧИТАТЬ  Для некоторых пользователей Microsoft Teams больше не будет частью Office.

Все эти пункты касаются и медиаресурсов. Если Googlebot (или, точнее,
Googlebot-Image и Googlebot-Video соответственно) получает их, это будет расходовать краулинговый бюджет сайта.

Заманчиво добавить в список и файл robots.txt, однако с точки зрения рендеринга запрет на сканирование ресурсов обычно вызывает проблемы. Если WRS не может получить ресурс, критически важный для рендеринга, у Google Search могут возникнуть проблемы с извлечением содержимого страницы и обеспечением ее рейтинга в поиске.

Что сканирует робот Googlebot?

Лучшим источником для анализа того, какие ресурсы сканирует Google, являются необработанные журналы доступа к сайту, в которых есть запись для каждого URL-адреса, запрошенного как браузерами, так и сканерами. Чтобы идентифицировать сканеры Google в журнале доступа, мы публикуем диапазоны IP-адресов в документации для разработчиков.

Второй лучший ресурс – это, конечно же,
Отчет о статистике сканирования в Search Consoleкоторый распределяет каждый вид ресурсов по каждому сканеру:

Наконец, если вы действительно увлекаетесь сканированием и рендерингом и хотите поговорить об этом с другими,
Поиск в центральном сообществе это то место, куда вам стоит пойти, но вы также можете найти нас на
LinkedIn.

Авторы: Мартин Сплитт и Гэри Иллис



Source link