Google: если вы не можете заблокировать результаты внутреннего поиска, результаты которых не найдены, заблокируйте все результаты поиска • Продвижение Web 2.0

Джон Мюллер из Google немного разглагольствовал о Реддит на тему обеспечения возможности сканирования и индексации ваших внутренних страниц результатов поиска. Как вы знаете, обычно Google не хочет индексировать результаты поиска, но Джон сказал, что это особенно верно для страниц результатов поиска, на которых нет результатов.

Короче говоря, Джон сказал: «Если вы не можете выбрать, какие страницы результатов поиска должны быть проиндексированы, вы должны заблокировать их все от индексации — используйте метатег robots.txt disallow или noindex».

Разглагольствование довольно забавно читать, так что вот оно:

К сожалению, многие CMS, хостинговые платформы, платформы электронной коммерции и т. д. до сих пор не роботизируют или не индексируют страницы результатов поиска по умолчанию. Мы давали это руководство, вероятно, более десяти лет. Особенно, если страница результатов поиска не возвращает никаких результатов, нет причин для ее индексации. И даже для других страниц результатов поиска рекомендуется либо блокировать их все, либо разрешать индексировать только выбранный вручную набор (например, известные запросы типа продукта, где результаты больше похожи на страницы категорий). Если вы не можете ограничить количество индексируемых страниц результатов поиска, я настоятельно рекомендую не индексировать или роботизировать *все* страницы поиска. Мы по-прежнему регулярно видим, что сайты спамят результаты поиска с открытыми страницами результатов поиска — для предотвращения этого не требуется много усилий, а последующая очистка — это очень хлопотно.

В 2007 году Google приказал веб-мастерам блокировать индексацию результатов внутреннего поиска. Первоначальное руководство гласит: «Используйте robots.txt, чтобы предотвратить сканирование страниц результатов поиска или других автоматически сгенерированных страниц, которые не представляют большой ценности для пользователей, пришедших из поисковых систем». Теперь он гласит: «Используйте файл robots.txt на своем веб-сервере, чтобы управлять бюджетом сканирования, предотвращая сканирование бесконечных пространств, таких как страницы результатов поиска».

ЧИТАТЬ Активность слияний и поглощений возрастает с появлением Wiz, Graphcore и т. д. | TechCrunch

Затем, десять лет спустя, Джон Мюллер из Google объяснил, почему Google не хочет, чтобы ваши страницы результатов поиска были в его индексе. Он сказал: «Они создают бесконечные пробелы (сканирование), они часто представляют собой страницы низкого качества, часто приводят к пустым результатам поиска / программным ошибкам 404». Позже он объяснил, что это проблема ослабления, и такие типы страниц могут привести к программным ответам 404 в Search Console.

Обсуждение форума на Реддит.

Source link