Как удалить лишние страницы в индексе Google? • Продвижение Web 2.0

Допустим, у вас есть веб-сайт электронной коммерции с тысячами товаров, каждый из которых имеет разные размеры и цвета. Вы используете отчет об индексировании консоли поиска Google, чтобы отобразить список проиндексированных страниц в результатах поиска Google для вашего сайта.

К вашему удивлению, вы видите гораздо больше страниц, чем должно быть на сайте. Почему это происходит и как от них избавиться?

Я отвечаю на этот вопрос в нашей серии «Спросите нас что-нибудь» на YouTube. Вот видео. Тогда вы можете прочитать больше об этой распространенной проблеме и ее решении ниже.

Содержание

1 Почему эти «лишние» веб-сайты появляются в индексе Google?
2 Как удалить «лишние» сайты из индекса Google?
- 2.1 Вариант robots.txt
- 2.2 Опция метатега робота
3 Краткое содержание
- 3.1 Часто задаваемые вопросы: Как удалить дополнительные страницы из индекса Google моего сайта?

Почему эти «лишние» веб-сайты появляются в индексе Google?

Эта проблема часто встречается на сайтах электронной коммерции. «Дополнительные» веб-страницы могут появиться в индексе Google, поскольку на вашем веб-сайте электронной коммерции генерируются дополнительные URL-адреса.

Вот как: когда пользователи используют параметры поиска на веб-сайте, чтобы указать конкретные размеры или цвета продукта, обычно автоматически создается новый URL-адрес для этого размера или цвета.

Это ведет на отдельный сайт. Несмотря на то, что это не «отдельный» продукт, эта веб-страница может быть проиндексирована как главная страница продукта, если Google обнаружит ее по ссылке.

Если это произойдет и у вас будет много комбинаций размеров и цветов, у вас может получиться множество разных веб-сайтов для одного продукта. Если Google теперь распознает URL-адреса этих веб-сайтов, возможно, в индексе Google есть несколько веб-сайтов для одного и того же продукта.

Как удалить «лишние» сайты из индекса Google?

Вы можете использовать тег canonical, чтобы все URL-адреса этих вариантов продукта указывали на одну и ту же исходную страницу продукта. Это правильный способ обработки почти повторяющегося контента, например изменения цвета.

Здесь Что говорит Google об использовании тега Canonical для решения этой проблемы:

Канонический URL-адрес — это URL-адрес страницы, которую Google считает наиболее репрезентативной из набора повторяющихся страниц на вашем сайте. Например, если у вас есть URL-адреса одной и той же страницы (example.com?dress=1234 и example.com/dresses/1234), Google выберет один из них как канонический. Страницы не обязательно должны быть абсолютно идентичными; Незначительные изменения в сортировке или фильтрации страниц списка делают страницу нечеткой (например, сортировка по цене или фильтрация по цвету товара)..

Google далее говорит:

Если у вас есть одна страница, доступ к которой можно получить по нескольким URL-адресам, или разные страницы с похожим содержанием… Google считает, что это дубликаты одной и той же страницы. Google выбирает URL-адрес в качестве канонической версии и сканирует его. Все остальные URL-адреса считаются повторяющимися URL-адресами и сканируются реже.

Если вы явно не укажете Google, какой URL-адрес является каноническим, Google сделает выбор за вас или посчитает, что оба имеют равный вес, что может привести к нежелательному поведению…

Но что, если вы вообще не хотите, чтобы эти «лишние» страницы индексировались? На мой взгляд, каноническое решение — правильный путь в этой ситуации.

ЧИТАТЬ Как рост потокового веща

Но есть два других решения, которые использовались в прошлом для удаления страниц из индекса:

Блокировать сайты с помощью robots.txt (не рекомендуется, сейчас я объясню, почему)
Используйте один Метатег робота заблокировать отдельные страницы

Вариант robots.txt

Проблема с использованием файла robots.txt для блокировки веб-сайтов заключается в том, что его использование не означает, что Google удалит веб-сайты из индекса.

По данным Центра поиска Google:

Файл robots.txt сообщает сканерам поисковых систем, к каким URL-адресам сканер может получить доступ на вашем веб-сайте. В основном это используется для того, чтобы избежать перегрузки вашего сайта запросами; Это не механизм блокировки веб-сайта от Google.

Кроме того, оператор запрета в robots.txt не гарантирует, что бот не будет сканировать страницу. Это связано с тем, что robots.txt — это добровольная система. Однако боты основных поисковых систем редко следуют вашим инструкциям.

В любом случае это не оптимальный вариант. И Google не советует этого делать.

Опция метатега робота

Вот что-то Google говорит к метатегу «Роботы»:

Метатег «Роботы» позволяет использовать детальный, специфичный для каждой страницы подход для управления тем, как отдельная страница должна индексироваться и отображаться пользователям в результатах поиска Google.

Разместите метатег «Роботы» в разделе любой сайт. Затем предложите ботам просканировать эту страницу либо посредством отправки XML-карты сайта, либо естественным путем (что может занять до 90 дней).

Когда боты возвращаются для сканирования страницы, они сталкиваются с метатегом robots и понимают указание не отображать страницу в результатах поиска.

Краткое содержание

Подведем итоги:

Использование тега Canonical — лучшее и наиболее распространенное решение проблемы индексации «лишних» страниц в Google — распространенной проблемы среди сайтов электронной коммерции.
Если вы вообще не хотите, чтобы страницы индексировались, рассмотрите возможность использования метатега robots, чтобы сообщить ботам поисковых систем, как обрабатывать эти страницы.

ЧИТАТЬ Выпущено обновление Google Reviews Product Reviews за февраль 2023 г.

Вы все еще в замешательстве или хотели бы, чтобы кто-нибудь решил эту проблему за вас? Мы можем помочь вам с дополнительными страницами и удалить их из индекса Google. Организуйте бесплатную консультацию здесь.

Часто задаваемые вопросы: Как удалить дополнительные страницы из индекса Google моего сайта?

Проблема дополнительных страниц в индексе Google вашего сайта может стать существенным препятствием. Эти лишние страницы часто возникают из-за генерации динамического контента, например: Б. Варианты продуктов на веб-сайтах электронной коммерции, создающие переполненный индекс, влияющий на производительность вашего веб-сайта.

Крайне важно понять первопричину. Веб-сайты электронной коммерции, в частности, сталкиваются с проблемами, когда разные атрибуты продукта приводят к созданию нескольких URL-адресов для одного продукта. Это может привести к тому, что многие страницы будут проиндексированы, что повлияет на SEO и удобство использования вашего сайта.

Использование тега canonical — наиболее надежное решение этой проблемы. Канонический тег сообщает Google о предпочтительной версии страницы и объединяет эффективность индексации в единый репрезентативный URL-адрес. Сам Google рекомендует этот метод и подчеркивает его эффективность в борьбе с практически повторяющимся контентом.

Хотя некоторые рассматривают возможность использования файла robots.txt для блокировки веб-сайтов, это не оптимально. Google интерпретирует файл robots.txt как инструкцию по контролю доступа сканеров, а не как инструмент удаления из индекса. Напротив, метатег «Роботы» предлагает более целенаправленный подход и позволяет точно контролировать индексацию отдельных страниц.

Канонический тег остается предпочтительным решением. Однако если существует сильное предпочтение полному удалению из индекса, метатег робота может стать стратегическим союзником. Ключом к эффективной оптимизации вашего присутствия в Интернете является баланс между стремлением к оптимизированному индексу и лучшими практиками SEO.

Для удаления дополнительных страниц из индекса Google вашего сайта требуется стратегическое сочетание понимания проблемы, внедрения лучших практик, таких как канонический тег, и рассмотрения альтернатив для конкретных сценариев. Приняв эти стратегии, веб-мастера могут улучшить SEO своего веб-сайта, улучшить взаимодействие с пользователем и поддерживать чистое и эффективное присутствие в Интернете.

Пошаговые инструкции:

Определите дополнительные страницы: Проведите тщательный аудит, чтобы выявить лишние страницы в индексе Google вашего сайта.
Определите первопричину: понять, почему создаются эти страницы, уделяя особое внимание элементам динамического контента.
Установите приоритет канонического тега: Подчеркните использование тега Canonical как основного решения для практически дублированного контента.
Реализация канонических тегов: применить канонические теги ко всем соответствующим страницам и указать предпочтительную версию для консолидации.
Проверьте рекомендации Google: согласуйте стратегии с политиками Google, чтобы обеспечить совместимость и соответствие требованиям.
Оцените параметр Robots.txt: Прежде чем рассматривать файл robots.txt, поймите ограничения и потенциальные недостатки.
Укажите метатег «Роботы».: стратегически используйте метатеги роботов для управления индексацией определенных страниц, когда это необходимо.
Компенсация SEO-эффекта: Учитывайте влияние каждого решения на SEO и взаимодействие с пользователем, чтобы принять обоснованное решение.
Регулярный мониторинг: Установите порядок мониторинга изменений индексов и оценки эффективности реализованных стратегий.
Итеративная оптимизация: Постоянное совершенствование и оптимизация стратегий на основе меняющейся динамики веб-сайта и алгоритмов Google.

Продолжайте совершенствовать и настраивать эти шаги с учетом уникальных характеристик вашего сайта и изменения SEO-ландшафта.

Брюс Клей — основатель и президент Bruce Clay Inc., глобальной компании цифрового маркетинга, предоставляющей поисковую оптимизацию, оплату за клик, маркетинг в социальных сетях, SEO-дружественную веб-архитектуру, а также инструменты SEO и обучение. Свяжитесь с ним на LinkedIn или на сайте BruceClay.com.

Посетите страницу автора Брюса, чтобы найти ссылки для общения в социальных сетях.

Source