Вторник, 3 декабря 2024 г.
Возможно, вы слышали, что Google Search нужно проделать небольшую работу, прежде чем веб-страница появится в результатах поиска Google. Один из этих шагов называется сканированием. Сканирование для поиска Google выполняется роботом Googlebot — программой, работающей на серверах Google, которая извлекает URL-адрес и обрабатывает такие вещи, как сетевые ошибки, перенаправления и другие небольшие сложности, с которыми он может столкнуться при работе в Интернете. Но есть несколько деталей, о которых не часто говорят. Каждую неделю в этом месяце мы будем изучать некоторые из этих деталей, поскольку они могут оказать существенное влияние на сканирование ваших сайтов.
Немного отступив: что такое ползание?
Сканирование — это процесс обнаружения новых и повторного посещения обновленных веб-страниц, а также их загрузки. Короче говоря, робот Googlebot получает URL-адрес, отправляет HTTP-запрос на сервер, на котором он размещен, а затем обрабатывает ответ от этого сервера, возможно, следуя перенаправлениям, обрабатывая ошибки и передавая содержимое страницы в систему индексации Google.
Но современные веб-страницы — это не просто чистый HTML, а как насчет других ресурсов, составляющих страницу? Как сканирование этих ресурсов влияет на «бюджет сканирования»? Кэшируются ли эти ресурсы на стороне Google? И есть ли разница между URL-адресами, которые ранее не сканировались, и теми, которые уже проиндексированы? В этом посте мы ответим на эти и многие другие вопросы!
Робот Googlebot и сканирование ресурсов страниц
Помимо HTML, современные веб-сайты используют комбинацию различных технологий, таких как JavaScript и CSS, чтобы предложить пользователям яркие впечатления и полезные функции. При доступе к таким страницам с помощью браузера браузер сначала загружает родительский URL-адрес, на котором размещаются данные, необходимые для начала создания страницы для пользователя, — HTML-код страницы. Эти исходные данные могут содержать ссылки на такие ресурсы, как JavaScript и CSS, а также изображения и видео, которые браузер будет снова загружать, чтобы в конечном итоге создать окончательную страницу, которая затем будет представлена пользователю.
Google делает то же самое, но немного по-другому:
- Робот Googlebot загружает исходные данные с родительского URL — HTML страницы.
- Робот Googlebot передает полученные данные в службу веб-рендеринга (WRS).
- Используя Googlebot, WRS загружает ресурсы, указанные в исходных данных.
- WRS создает страницу, используя все загруженные ресурсы, как это делает браузер пользователя.
По сравнению с браузером время между каждым шагом может быть значительно больше из-за ограничений планирования, таких как предполагаемая нагрузка сервера, на котором размещены ресурсы, необходимые для рендеринга страницы. И здесь в разговор вступает краулинговый бюджет.
Сканирование ресурсов, необходимых для отображения страницы, будет отнимать бюджет сканирования имени хоста, на котором размещен ресурс. Чтобы исправить эту ситуацию, WRS пытается кэшировать каждый ресурс (JavaScript и CSS), на который ссылаются на страницах, которые он отображает. Директивы кэширования HTTP не влияют на время существования кэша WRS; вместо этого WRS кэширует все на срок до 30 дней, что помогает сохранить бюджет сканирования сайта для других задач сканирования.
С точки зрения владельцев сайтов, управление тем, как и какие ресурсы сканируются, может повлиять на бюджет сканирования сайта; мы рекомендуем:
- Используйте как можно меньше ресурсов предложить пользователям отличный опыт; чем меньше ресурсов требуется для рендеринга страницы, тем меньше обходного бюджета тратится во время рендеринга.
- Размещать ресурсы на другом имени хоста с основного сайта, например, используя CDN или просто размещая ресурсы на другом поддомене. Это перенесет заботу о бюджете на сканирование на хост, который обслуживает ресурсы.
- Используйте параметры очистки кеша осторожно: если URL-адреса ресурсов изменятся, Google, возможно, придется снова просканировать ресурсы, даже если их содержимое не изменилось. Это, конечно, потребует краулингового бюджета.
Все эти пункты касаются и медиаресурсов. Если Googlebot (или, точнее,
Googlebot-Image
и Googlebot-Video
соответственно) получает их, это будет расходовать краулинговый бюджет сайта.
Заманчиво добавить в список и файл robots.txt, однако с точки зрения рендеринга запрет на сканирование ресурсов обычно вызывает проблемы. Если WRS не может получить ресурс, критически важный для рендеринга, у Google Search могут возникнуть проблемы с извлечением содержимого страницы и обеспечением ее рейтинга в поиске.
Что сканирует робот Googlebot?
Лучшим источником для анализа того, какие ресурсы сканирует Google, являются необработанные журналы доступа к сайту, в которых есть запись для каждого URL-адреса, запрошенного как браузерами, так и сканерами. Чтобы идентифицировать сканеры Google в журнале доступа, мы публикуем диапазоны IP-адресов в документации для разработчиков.
Второй лучший ресурс – это, конечно же,
Отчет о статистике сканирования в Search Consoleкоторый распределяет каждый вид ресурсов по каждому сканеру:
Наконец, если вы действительно увлекаетесь сканированием и рендерингом и хотите поговорить об этом с другими,
Поиск в центральном сообществе это то место, куда вам стоит пойти, но вы также можете найти нас на
LinkedIn.
Авторы: Мартин Сплитт и Гэри Иллис