Джон Мюллер из Google ответил, помогает ли удаление страниц с большого сайта решить проблему страниц, которые Google обнаруживает, но не сканирует. Джон предложил общие идеи о том, как решить эту проблему.
Содержание
- 1 Обнаружен — в настоящее время не проиндексирован
- 2 Деиндексация неиндексируемых страниц для улучшения индексации всего сайта?
- 3 Мюллер предлагает две причины обнаруженной неиндексированной проблемы
- 4 Оптимизация сайта для сканирования и индексации
- 5 Устранение просканированных не проиндексированных данных для увеличения количества онлайн-продаж
Обнаружен — в настоящее время не проиндексирован
Search Console — служба, предоставляемая Google, которая сообщает о проблемах и отзывах, связанных с поиском.
Статус индексирования — важная часть консоли поиска, поскольку он сообщает издателю, какая часть сайта проиндексирована и соответствует критериям ранжирования.
Статус индексации веб-страниц можно найти в отчете об индексации страниц в консоли поиска.
Сообщение о том, что страница была обнаружена Google, но не проиндексирована, часто является признаком того, что проблему необходимо решить.
Существует несколько причин, по которым Google может обнаружить страницу, но отказать в ее индексировании, хотя официальная документация указана только одна причина.
“Обнаружено — в настоящее время не проиндексировано
Страница была найдена Google, но еще не просканирована.Как правило, Google хотел просканировать URL-адрес, но ожидалось, что это перегрузит сайт; поэтому Google перепланировал сканирование.
Вот почему дата последнего сканирования в отчете пуста».
Джон Мюллер из Google предлагает больше причин, по которым страница может быть обнаружена, но не проиндексирована.
Деиндексация неиндексируемых страниц для улучшения индексации всего сайта?
Есть мнение, что удаление определенных страниц поможет Google просканировать остальную часть сайта, так как у него будет меньше страниц для сканирования.
Существует мнение, что Google имеет ограниченный объем сканирования (краулинговый бюджет), выделенный для каждого сайта.
Гуглеры неоднократно говорили, что нет такого понятия, как краулинговый бюджет в том смысле, в каком его воспринимают оптимизаторы.
У Google есть ряд соображений относительно того, сколько страниц нужно сканировать, включая способность сервера веб-сайта обрабатывать обширное сканирование.
Основная причина того, почему Google так разборчив в том, сколько он сканирует, заключается в том, что у Google недостаточно ресурсов для хранения каждой отдельной веб-страницы в Интернете.
Вот почему Google имеет тенденцию индексировать страницы, которые имеют некоторую ценность (если сервер может это обработать), и не индексирует другие страницы.
Для получения дополнительной информации о краулинговом бюджете читайте: Google делится информацией о краулинговом бюджете.
Вот такой вопрос был задан:
«Поможет ли деиндексация и объединение 8 миллионов использованных продуктов в 2 миллиона уникальных индексируемых страниц продуктов улучшить сканируемость и индексируемость (обнаружена — в настоящее время проблема не проиндексирована)?»
Джон Мюллер из Google сначала признал, что невозможно решить конкретную проблему человека, а затем предложил общие рекомендации.
Он ответил:
«Невозможно сказать.
Я бы порекомендовал просмотреть руководство по краулинговому бюджету для крупных сайтов в нашей документации.
Для больших сайтов иногда дополнительное сканирование ограничивается тем, как ваш веб-сайт может справиться с дополнительным сканированием.
Однако в большинстве случаев это больше касается общего качества сайта.
Вы значительно улучшили общее качество своего веб-сайта, увеличив количество страниц с 8 до 2 миллионов?
Если вы не сосредоточитесь на повышении фактического качества, легко просто потратить много времени на сокращение количества индексируемых страниц, но на самом деле не улучшите веб-сайт, и это не улучшит поиск».
Мюллер предлагает две причины обнаруженной неиндексированной проблемы
Джон Мюллер из Google назвал две причины, по которым Google может обнаружить страницу, но отказаться ее индексировать.
- Емкость сервера
- Общее качество веб-сайта
1. Емкость сервера
Мюллер сказал, что способность Google сканировать и индексировать веб-страницы может быть «ограничена тем, как ваш веб-сайт может обрабатывать большее количество сканируемых изображений».
Чем больше веб-сайт, тем больше ботов требуется для его сканирования. Проблема усугубляется тем, что Google — не единственный бот, сканирующий большой сайт.
Существуют и другие законные боты, например, от Microsoft и Apple, которые также пытаются просканировать сайт. Кроме того, существует множество других ботов, как законных, так и связанных со взломом и очисткой данных.
Это означает, что для большого сайта, особенно в вечерние часы, могут быть тысячи ботов, использующих ресурсы сервера веб-сайта для обхода большого веб-сайта.
Вот почему один из первых вопросов, который я задаю издателю, у которого проблемы с индексацией, — это состояние их сервера.
Как правило, веб-сайту с миллионами страниц или даже сотнями тысяч страниц потребуется выделенный сервер или облачный хост (поскольку облачные серверы предлагают масштабируемые ресурсы, такие как пропускная способность, графический процессор и оперативная память).
Иногда среде хостинга может потребоваться больше памяти, назначенной процессу, например ограничение памяти PHP, чтобы помочь серверу справиться с высоким трафиком и предотвратить 500 сообщений об ошибках.
Устранение неполадок серверов включает анализ журнала ошибок сервера.
2. Общее качество веб-сайта
Это интересная причина недостаточного индексирования страниц. Общее качество сайта похоже на оценку или определение, которое Google присваивает веб-сайту.
Части веб-сайта могут влиять на общее качество сайта
Джон Мюллер сказал, что раздел веб-сайта может повлиять на общее определение качества сайта.
Мюллер сказал:
«…в некоторых случаях мы смотрим на качество сайта в целом.
И когда мы смотрим на качество сайта в целом, если у вас есть значительные части более низкого качества, для нас не имеет значения, например, почему они будут более низкого качества.
… если мы увидим, что есть значительные части более низкого качества, мы можем подумать, что в целом этот веб-сайт не такой фантастический, как мы думали ».
Определение качества сайта
Джон Мюллер из Google предложил определение качества сайта в другом видео Office Hours:
«Когда речь идет о качестве контента, мы имеем в виду не только текст ваших статей.
Это действительно качество вашего сайта в целом.
И это включает в себя все, от макета до дизайна.
Например, то, как вы представляете вещи на своих страницах, как вы интегрируете изображения, как вы работаете со скоростью, все эти факторы, которые они как бы вступают в игру».
Сколько времени требуется для определения общего качества сайта
Еще один факт о том, как Google определяет качество сайта, заключается в том, сколько времени Google определяет качество сайта, это может занять месяцы.
Мюллер сказал:
«Нам требуется много времени, чтобы понять, как веб-сайт вписывается в остальной Интернет.
…И это то, что легко может занять, я не знаю, пару месяцев, полгода, иногда даже дольше, чем полгода…”
Оптимизация сайта для сканирования и индексации
Оптимизация всего сайта или его части — это своего рода общий высокоуровневый способ взглянуть на проблему. Часто это сводится к оптимизации отдельных страниц на масштабируемой основе.
В частности, для сайтов электронной коммерции с тысячами миллионов товаров оптимизация может принимать несколько форм.
На что обратить внимание:
Главное меню
Убедитесь, что главное меню оптимизировано, чтобы направлять пользователей к важным разделам сайта, которые интересуют большинство пользователей. Главное меню также может содержать ссылки на самые популярные страницы.
Ссылки на популярные разделы и страницы
На самые популярные страницы и разделы также можно ссылаться из заметного раздела главной страницы.
Это помогает пользователям добраться до наиболее важных для них страниц и разделов, а также сигнализирует Google, что это важные страницы, которые следует проиндексировать.
Улучшение тонких страниц контента
Тонкий контент — это в основном страницы с небольшим количеством полезного контента или страницы, которые в основном являются дубликатами других страниц (шаблонный контент).
Недостаточно просто заполнить страницы словами. Слова и предложения должны иметь смысл и актуальность для посетителей сайта.
Для продуктов это могут быть размеры, вес, доступные цвета, предложения других продуктов для сочетания с ними, бренды, с которыми продукты работают лучше всего, ссылки на руководства, часто задаваемые вопросы, рейтинги и другая информация, которую пользователи сочтут ценной.
Устранение просканированных не проиндексированных данных для увеличения количества онлайн-продаж
В физическом магазине кажется, что достаточно просто поставить продукты на полки.
Но реальность такова, что часто требуются знающие продавцы, чтобы эти продукты разлетались с полок.
Веб-страница может играть роль знающего продавца, который может сообщить Google, почему страница должна быть проиндексирована, и помочь клиентам выбрать эти продукты.
Посмотрите часы Google SEO Office Hours на отметке 13:41: