Google: размещайте ресурсы на разных именах хостов, чтобы сэкономить бюджет сканирования • Продвижение Web 2.0

Центр поиска Google запустил новую серию статей под названием «Сканирование декабря», в которой рассказывается о том, как робот Googlebot сканирует и индексирует веб-страницы.

В этом месяце каждую неделю Google будет публиковать новую статью, посвященную различным аспектам процесса сканирования, которые не часто обсуждаются, но могут существенно повлиять на сканирование веб-сайтов.

Первый почта В этой серии рассматриваются основы сканирования и проливаются свет на важные, но менее известные подробности о том, как робот Googlebot обрабатывает ресурсы страниц и управляет бюджетами сканирования.

Содержание

1 Основы сканирования
2 Управление бюджетом сканирования
- 2.1 Рекомендации
3 Инструменты мониторинга
4 Почему это важно

Основы сканирования

Сегодняшние веб-сайты сложны из-за продвинутого JavaScript и CSS, что делает их труднее сканировать, чем старые страницы, состоящие только из HTML. Googlebot работает как веб-браузер, но по другому графику.

Когда робот Googlebot посещает веб-страницу, он сначала загружает HTML-код с основного URL-адреса, который может ссылаться на JavaScript, CSS, изображения и видео. Затем служба веб-рендеринга Google (WRS) использует Googlebot для загрузки этих ресурсов и создания окончательного вида страницы.

Вот шаги по порядку:

Первоначальная загрузка HTML
Обработка службой веб-рендеринга
Получение ресурсов
Окончательная конструкция страницы

Управление бюджетом сканирования

Сканирование дополнительных ресурсов может сократить бюджет сканирования основного веб-сайта. Чтобы помочь в этом, Google заявляет, что «WRS пытается кэшировать каждый ресурс (JavaScript и CSS), используемый на страницах, которые он отображает».

Важно отметить, что кеш WRS сохраняется до 30 дней и на него не влияют правила кэширования HTTP, установленные разработчиками.

Эта стратегия кэширования помогает сэкономить бюджет сканирования сайта.

Инструменты мониторинга

Команда Search Central утверждает, что лучший способ узнать, какие ресурсы сканирует робот Googlebot, — это проверить необработанные журналы доступа к сайту.

Вы можете идентифицировать робота Googlebot по его IP-адресу, используя диапазоны, опубликованные на сайте разработчика Google. документация.

Почему это важно

В этом посте разъясняются три ключевых момента, которые влияют на то, как Google находит и обрабатывает контент вашего сайта:

Управление ресурсами напрямую влияет на ваш краулинговый бюджет, поэтому размещение скриптов и стилей на CDN может помочь его сохранить.
Google кэширует ресурсы в течение 30 дней независимо от настроек HTTP-кэша, что помогает сэкономить бюджет сканирования.
Блокировка критически важных ресурсов в файле robots.txt может иметь неприятные последствия, поскольку Google не сможет правильно отображать ваши страницы.

Понимание этой механики помогает специалистам по поисковой оптимизации и разработчикам принимать более обоснованные решения относительно хостинга и доступности ресурсов — решений, которые напрямую влияют на то, насколько хорошо Google может сканировать и индексировать их сайты.

Рекомендованное изображение: Артемида Диана/Shutterstock

Source link

Основы сканирования

Управление бюджетом сканирования

Рекомендации

Инструменты мониторинга

Почему это важно