Центр поиска Google запустил новую серию статей под названием «Сканирование декабря», в которой рассказывается о том, как робот Googlebot сканирует и индексирует веб-страницы.
В этом месяце каждую неделю Google будет публиковать новую статью, посвященную различным аспектам процесса сканирования, которые не часто обсуждаются, но могут существенно повлиять на сканирование веб-сайтов.
Первый почта В этой серии рассматриваются основы сканирования и проливаются свет на важные, но менее известные подробности о том, как робот Googlebot обрабатывает ресурсы страниц и управляет бюджетами сканирования.
Содержание
Основы сканирования
Сегодняшние веб-сайты сложны из-за продвинутого JavaScript и CSS, что делает их труднее сканировать, чем старые страницы, состоящие только из HTML. Googlebot работает как веб-браузер, но по другому графику.
Когда робот Googlebot посещает веб-страницу, он сначала загружает HTML-код с основного URL-адреса, который может ссылаться на JavaScript, CSS, изображения и видео. Затем служба веб-рендеринга Google (WRS) использует Googlebot для загрузки этих ресурсов и создания окончательного вида страницы.
Вот шаги по порядку:
- Первоначальная загрузка HTML
- Обработка службой веб-рендеринга
- Получение ресурсов
- Окончательная конструкция страницы
Управление бюджетом сканирования
Сканирование дополнительных ресурсов может сократить бюджет сканирования основного веб-сайта. Чтобы помочь в этом, Google заявляет, что «WRS пытается кэшировать каждый ресурс (JavaScript и CSS), используемый на страницах, которые он отображает».
Важно отметить, что кеш WRS сохраняется до 30 дней и на него не влияют правила кэширования HTTP, установленные разработчиками.
Эта стратегия кэширования помогает сэкономить бюджет сканирования сайта.
Рекомендации
В этом посте владельцы сайтов получают советы о том, как оптимизировать краулинговый бюджет:
- Сокращение использования ресурсов: используйте меньше ресурсов для создания хорошего пользовательского опыта. Это помогает сэкономить бюджет сканирования при рендеринге страницы.
- Размещайте ресурсы отдельно: разместите ресурсы на другом имени хоста, например CDN или субдомене. Это может помочь переложить нагрузку на краулинговый бюджет с вашего основного сайта.
- Используйте параметры очистки кэша с умом: Будьте осторожны с параметрами очистки кеша. Изменение URL-адресов ресурсов может заставить Google перепроверить их, даже если содержание осталось прежним. Это может привести к потере вашего краулингового бюджета.
Кроме того, Google предупреждает, что блокирование сканирования ресурсов с помощью файла robots.txt может быть рискованным.
Если Google не может получить доступ к необходимому ресурсу для рендеринга, у него могут возникнуть проблемы с получением содержимого страницы и его правильным ранжированием.
Инструменты мониторинга
Команда Search Central утверждает, что лучший способ узнать, какие ресурсы сканирует робот Googlebot, — это проверить необработанные журналы доступа к сайту.
Вы можете идентифицировать робота Googlebot по его IP-адресу, используя диапазоны, опубликованные на сайте разработчика Google. документация.
Почему это важно
В этом посте разъясняются три ключевых момента, которые влияют на то, как Google находит и обрабатывает контент вашего сайта:
- Управление ресурсами напрямую влияет на ваш краулинговый бюджет, поэтому размещение скриптов и стилей на CDN может помочь его сохранить.
- Google кэширует ресурсы в течение 30 дней независимо от настроек HTTP-кэша, что помогает сэкономить бюджет сканирования.
- Блокировка критически важных ресурсов в файле robots.txt может иметь неприятные последствия, поскольку Google не сможет правильно отображать ваши страницы.
Понимание этой механики помогает специалистам по поисковой оптимизации и разработчикам принимать более обоснованные решения относительно хостинга и доступности ресурсов — решений, которые напрямую влияют на то, насколько хорошо Google может сканировать и индексировать их сайты.
Рекомендованное изображение: Артемида Диана/Shutterstock