Центр поиска Google запустил новую серию статей под названием «Сканирование декабря», в которой рассказывается о том, как робот Googlebot сканирует и индексирует веб-страницы.

В этом месяце каждую неделю Google будет публиковать новую статью, посвященную различным аспектам процесса сканирования, которые не часто обсуждаются, но могут существенно повлиять на сканирование веб-сайтов.

Первый почта В этой серии рассматриваются основы сканирования и проливаются свет на важные, но менее известные подробности о том, как робот Googlebot обрабатывает ресурсы страниц и управляет бюджетами сканирования.

Основы сканирования

Сегодняшние веб-сайты сложны из-за продвинутого JavaScript и CSS, что делает их труднее сканировать, чем старые страницы, состоящие только из HTML. Googlebot работает как веб-браузер, но по другому графику.

Когда робот Googlebot посещает веб-страницу, он сначала загружает HTML-код с основного URL-адреса, который может ссылаться на JavaScript, CSS, изображения и видео. Затем служба веб-рендеринга Google (WRS) использует Googlebot для загрузки этих ресурсов и создания окончательного вида страницы.

Вот шаги по порядку:

  1. Первоначальная загрузка HTML
  2. Обработка службой веб-рендеринга
  3. Получение ресурсов
  4. Окончательная конструкция страницы

Управление бюджетом сканирования

Сканирование дополнительных ресурсов может сократить бюджет сканирования основного веб-сайта. Чтобы помочь в этом, Google заявляет, что «WRS пытается кэшировать каждый ресурс (JavaScript и CSS), используемый на страницах, которые он отображает».

Важно отметить, что кеш WRS сохраняется до 30 дней и на него не влияют правила кэширования HTTP, установленные разработчиками.

Эта стратегия кэширования помогает сэкономить бюджет сканирования сайта.

Рекомендации

В этом посте владельцы сайтов получают советы о том, как оптимизировать краулинговый бюджет:

  1. Сокращение использования ресурсов: используйте меньше ресурсов для создания хорошего пользовательского опыта. Это помогает сэкономить бюджет сканирования при рендеринге страницы.
  2. Размещайте ресурсы отдельно: разместите ресурсы на другом имени хоста, например CDN или субдомене. Это может помочь переложить нагрузку на краулинговый бюджет с вашего основного сайта.
  3. Используйте параметры очистки кэша с умом: Будьте осторожны с параметрами очистки кеша. Изменение URL-адресов ресурсов может заставить Google перепроверить их, даже если содержание осталось прежним. Это может привести к потере вашего краулингового бюджета.
ЧИТАТЬ  Лучшее предложение на большой весенней распродаже Amazon — бесплатный 65-дюймовый 4K-телевизор от Samsung.

Кроме того, Google предупреждает, что блокирование сканирования ресурсов с помощью файла robots.txt может быть рискованным.

Если Google не может получить доступ к необходимому ресурсу для рендеринга, у него могут возникнуть проблемы с получением содержимого страницы и его правильным ранжированием.

Инструменты мониторинга

Команда Search Central утверждает, что лучший способ узнать, какие ресурсы сканирует робот Googlebot, — это проверить необработанные журналы доступа к сайту.

Вы можете идентифицировать робота Googlebot по его IP-адресу, используя диапазоны, опубликованные на сайте разработчика Google. документация.

Почему это важно

В этом посте разъясняются три ключевых момента, которые влияют на то, как Google находит и обрабатывает контент вашего сайта:

  • Управление ресурсами напрямую влияет на ваш краулинговый бюджет, поэтому размещение скриптов и стилей на CDN может помочь его сохранить.
  • Google кэширует ресурсы в течение 30 дней независимо от настроек HTTP-кэша, что помогает сэкономить бюджет сканирования.
  • Блокировка критически важных ресурсов в файле robots.txt может иметь неприятные последствия, поскольку Google не сможет правильно отображать ваши страницы.

Понимание этой механики помогает специалистам по поисковой оптимизации и разработчикам принимать более обоснованные решения относительно хостинга и доступности ресурсов — решений, которые напрямую влияют на то, насколько хорошо Google может сканировать и индексировать их сайты.


Рекомендованное изображение: Артемида Диана/Shutterstock



Source link