В видеоролике Google Search Central Гэри Иллис из Google объяснил часть индексации веб-страниц, которая включает в себя выбор канонических значений, объяснение того, что каноническое означает для Google, миниатюрное объяснение сигналов веб-страницы, он упоминает центральную часть страницы и рассказывает, что она делает с дубликатами, которые подразумевает новый способ мышления о них.
Содержание
Что такое каноническая веб-страница?
Есть несколько способов рассмотреть, что означает канонический, точку зрения издателя и SEO с нашей стороны окна поиска и что означает канонический со стороны Google.
Издатели определяют то, что, по их мнению, является «оригинальной» веб-страницей, а концепция канонических SEO-оптимизаторов заключается в выборе «самой сильной» версии веб-страницы для целей ранжирования.
Канонизация для Google — это совершенно другая вещь, чем думают издатели и оптимизаторы по поисковой оптимизации, поэтому приятно услышать это от такого сотрудника Google, как Гэри Иллис.
официальный представитель Google документация о канонизации использует слово «дедупликация» для обозначения процесса выбора канонического варианта и перечисляет пять типичных причин, по которым на сайте могут быть дублирующиеся страницы.
Пять причин дублирования страниц
- «Региональные варианты: например, часть контента для США и Великобритании, доступная с разных URL-адресов, но по сути один и тот же контент на одном и том же языке.
- Варианты устройств: например, страница с мобильной и настольной версией.
- Варианты протокола: например, версии сайта HTTP и HTTPS.
- Функции сайта: например, результаты функций сортировки и фильтрации страницы категории.
- Случайные варианты: например, демо-версия сайта случайно оставлена доступной для сканеров»
Канонические страницы можно рассматривать тремя разными способами, и существует как минимум пять причин дублирования страниц.
Гэри описывает еще один способ мышления о канонах.
Сигналы используются для выбора канонических сигналов
Ильес делится еще одним определением каноники, на этот раз с точки зрения индексации, и рассказывает о сигналах, которые используются для выбора каноники.
Гэри объясняет:
«Google определяет, является ли страница дубликатом другой, уже известной страницы, и какую версию следует хранить в индексе — каноническую версию.
Но в этом контексте каноническая версия — это страница из группы повторяющихся страниц, которая лучше всего представляет группу в соответствии с сигналами, которые мы собрали о каждой версии».
Гэри прекращает объяснять кластеризацию дубликатов, а затем вскоре возвращается к разговору о сигналах.
Он продолжил:
«По большей части в результатах поиска появляются только канонические страницы. Но как узнать, какая страница каноническая?
Поэтому, как только Google получит содержимое вашей страницы или, точнее, основной контент или центральную часть страницы, он сгруппирует его с одной или несколькими страницами с похожим контентом, если таковые имеются. Это дублирующая кластеризация».
Просто хочу остановиться здесь и отметить, что Гэри называет основной контент «центральным элементом страницы», что интересно, поскольку существует концепция, предложенная Мартином Сплиттом из Google, под названием «Центральная аннотация». На самом деле он не объяснил, что такое центральная аннотация, но то, чем поделился Гэри, помогает.
Ниже приводится часть видео, где Гэри рассказывает о том, что на самом деле представляют собой сигналы.
Иллиес объясняет, что такое «сигналы»:
«Затем он сравнивает несколько сигналов, которые уже рассчитал для каждой страницы, чтобы выбрать каноническую версию.
Сигналы — это фрагменты информации, которую поисковая система собирает о страницах и веб-сайтах и которые используются для дальнейшей обработки.
Некоторые сигналы очень просты, например аннотации владельца сайта в HTML, такие как rel=»canonical», тогда как другие, например важность отдельной страницы в Интернете, менее просты.
Дублирующиеся кластеры имеют один канонический
Затем Гэри объясняет, что для каждого кластера повторяющихся страниц в результатах поиска выбирается одна страница, представляющая каноническую. В каждом кластере дубликатов есть один канонический.
Он продолжает:
«В каждом из повторяющихся кластеров будет одна версия контента, выбранная как каноническая.
Эта версия будет представлять контент в результатах поиска для всех остальных версий.
Другие версии в кластере становятся альтернативными версиями, которые могут обслуживаться в разных контекстах, например, если пользователь ищет очень специфическую страницу в кластере».
Альтернативные версии веб-страниц
Эта последняя часть действительно интересна и ее важно учитывать, поскольку она может быть полезна для возможности ранжироваться по нескольким вариантам ключевого слова, особенно для веб-страниц электронной коммерции.
Иногда система управления контентом (CMS) создает дубликаты веб-страниц для учета вариаций продукта, таких как размер или цвет продукта, которые затем могут повлиять на описание. Эти варианты могут быть выбраны Google для ранжирования в результатах поиска, когда эта вариантная страница более точно соответствует поисковому запросу.
Об этом важно подумать, потому что может возникнуть соблазн перенаправить веб-страницы с вариантами noindex, чтобы исключить их из поискового индекса из-за страха перед (несуществующей) проблемой каннибализации ключевых слов. Добавление noindex к страницам, которые являются вариантами одной страницы, может иметь неприятные последствия, поскольку существуют сценарии, когда эти варианты страниц лучше всего ранжируются по более тонкому поисковому запросу, который содержит цвета, размеры или номера версий, которые отличаются от канонической страницы.
Основные выводы о Canonicals (и не только), которые следует запомнить
Обсуждение канонических канонов Гэри содержит много информации, включая некоторые побочные темы, касающиеся основного содержания.
Вот семь выводов, которые следует учитывать:
- Основной контент называется Центральным элементом.
- Google вычисляет «несколько сигналов» для каждой обнаруженной страницы.
- Сигналы — это данные, которые используются для «дальнейшей обработки» после обнаружения веб-страниц.
- Некоторые сигналы, например подсказки (и, предположительно, директивы), контролируются издателем. Подсказка, которую упомянул Иллиес, — это атрибут ссылки rel=canonical.
- Другие сигналы находятся вне контроля издателя, например, важность страницы в контексте Интернета.
- Некоторые дубликаты страниц могут служить альтернативными версиями.
- Альтернативные версии веб-страниц по-прежнему могут ранжироваться и полезны для Google (и издателя) для целей ранжирования.
Посмотрите выпуск Search Central об индексировании:
Как Google Search индексирует страницы
Рекомендованное изображение из видео Google/изменено автором