Google опубликовал новую часть серии обучающих видеороликов «Как работает поиск», в которых объясняется, как их поисковая система обнаруживает веб-страницы и получает к ним доступ посредством сканирования.
Содержание
Процесс сканирования данных инженера Google
В семиминутном выпуске, который ведет аналитик Google Гэри Иллис, компания подробно рассматривает технические аспекты работы Googlebot — программного обеспечения, которое Google использует для сканирования Интернета.
Иллиес описывает шаги, которые предпринимает робот Googlebot, чтобы найти новый и обновленный контент на триллионах веб-страниц в Интернете и сделать его доступным для поиска в Google.
Иллиес объясняет:
«Большинство новых URL-адресов, которые Google обнаруживает, взяты с других известных страниц, которые Google ранее сканировал.
Вы можете подумать о новостном сайте со страницами разных категорий, которые затем ссылаются на отдельные новостные статьи.
Google может обнаружить большинство опубликованных статей, время от времени посещая страницу категории и извлекая URL-адреса, ведущие к статьям».
Как робот Googlebot сканирует Интернет
Робот Google начинает с перехода по ссылкам с известных веб-страниц, чтобы обнаружить новые URL-адреса. Этот процесс называется обнаружением URL-адресов.
Он позволяет избежать перегрузки сайтов, сканируя каждый из них с уникальной, настраиваемой скоростью в зависимости от времени ответа сервера и качества контента.
Робот Googlebot отображает страницы с использованием текущей версии браузера Chrome для выполнения любого кода JavaScript и правильного отображения динамического контента, загруженного скриптами. Он также сканирует только общедоступные страницы, а не те, которые находятся за входом в систему.
Улучшение обнаружения и возможности сканирования
Иллиес подчеркнул полезность карт сайта — XML-файлов, в которых перечислены URL-адреса сайтов, — которые помогают Google находить и сканировать новый контент.
Он посоветовал разработчикам настроить свои системы управления контентом на автоматическое создание карт сайта.
Оптимизация технических факторов SEO, таких как архитектура сайта, скорость и директивы сканирования, также может улучшить возможность сканирования.
Вот несколько дополнительных тактик, которые помогут сделать ваш сайт более сканируемым:
- Избегайте исчерпания краулингового бюджета – Веб-сайты, которые часто обновляются, могут перегрузить бюджет сканирования Googlebot, препятствуя обнаружению нового контента. Тщательная настройка CMS и теги rel= “next” / rel= “prev” могут помочь.
- Внедряйте хорошие внутренние ссылки – Ссылки на новый контент с категорий и центральных страниц позволяют роботу Googlebot обнаруживать новые URL-адреса. Эффективная внутренняя структура ссылок способствует сканированию.
- Убедитесь, что страницы загружаются быстро – Скорость сканирования сайтов, которые медленно реагируют на запросы робота Googlebot, может быть ограничена. Оптимизация страниц для повышения производительности может обеспечить более быстрое сканирование.
- Устраните программные ошибки 404 – Исправление программных ошибок 404, вызванных неправильными настройками CMS, гарантирует, что URL-адреса ведут на действительные страницы, что повышает успешность сканирования.
- Рассмотрите возможность изменения файла robots.txt – Жесткий файл robots.txt может блокировать полезные страницы. SEO-аудит может выявить ограничения, которые можно безопасно устранить.
Последние из серии обучающих видео
Последнее видео появилось после того, как на прошлой неделе Google запустил образовательную серию «Как работает поиск», чтобы пролить свет на процессы поиска и индексирования.
Недавно выпущенный эпизод о сканировании дает представление об одной из самых фундаментальных операций поисковой системы.
В ближайшие месяцы Google выпустит дополнительные эпизоды, посвященные таким темам, как индексирование, оценка качества и уточнение поиска.
Сериал доступен на YouTube-канале Google Search Central.
Часто задаваемые вопросы
Каков процесс сканирования, описанный Google?
Процесс сканирования Google, как описано в недавнем эпизоде серии «Как работает поиск», включает в себя следующие ключевые этапы:
- Робот Googlebot обнаруживает новые URL-адреса, переходя по ссылкам с известных страниц, которые он ранее сканировал.
- Он стратегически сканирует сайты с настраиваемой скоростью, чтобы избежать перегрузки серверов, принимая во внимание время отклика и качество контента.
- Сканер также обрабатывает страницы, используя последнюю версию Chrome, чтобы правильно отображать контент, загруженный JavaScript, и получать доступ только к общедоступным страницам.
- Оптимизация технических факторов SEO и использование карт сайта могут облегчить сканирование Google нового контента.
Как маркетологи могут обеспечить эффективное обнаружение и сканирование их контента роботом Googlebot?
Маркетологи могут использовать следующие стратегии, чтобы улучшить видимость и сканируемость своего контента роботом Googlebot:
- Внедрите автоматическое создание карты сайта в своих системах управления контентом.
- Сосредоточьтесь на оптимизации технических элементов SEO, таких как архитектура сайта и скорость загрузки, и правильно используйте директивы сканирования.
- Убедитесь, что частые обновления контента не исчерпывают бюджет сканирования, эффективно настроив CMS и используя теги нумерации страниц.
- Создайте эффективную структуру внутренних ссылок, которая поможет находить новые URL-адреса.
- Проверьте и оптимизируйте файл robots.txt веб-сайта, чтобы убедиться, что он не является слишком ограничивающим для робота Googlebot.