В рамках сегодняшней темы кластеризации и канонизации в Google Поиске Аллан Скотт из Google объяснил, что он назвал «мародирующими черными дырами» в Google Поиске. Когда кластеризация Google берет некоторые страницы с ошибками, и они попадают в своего рода черную дыру в поиске Google.
Об этом говорилось в превосходном интервью Search Off The Record с Алланом Скоттом из команды Google Search, который специально занимается дублированием в Google Search. Мартин Сплитт и Джон Мюллер из Google взяли интервью у Аллана.
Аллан объяснил, что эти «мародирующие черные дыры» возникают потому, что «страницы ошибок и кластеризация в некоторых случаях имеют неудачную связь». Аллан сказал: «Страницы ошибок и кластеризация имеют неудачную взаимосвязь, когда необнаруженные страницы ошибок просто получают контрольную сумму, как и любая другая страница, а затем группируются по контрольной сумме, и поэтому страницы ошибок имеют тенденцию группироваться друг с другом. На данном этапе это имеет смысл, верно?»
Мартин Сплитт из Google резюмировал это на примере: «Это те случаи, когда у вас есть веб-сайт, на котором есть, я не знаю, около 20 продуктов, которые больше не доступны, и они заменили его этим элементом, это недопустимо. больше доступно. Это что-то вроде страницы ошибок, но она не служит страницей ошибок, поскольку служит HTTP 200. Но тогда содержимое будет одинаковым, поэтому контрольные суммы будут одинаковыми. И тогда будут странные вещи. случиться, да?»
Я думаю, это означает, что Google считает, что все эти страницы с ошибками одинаковы, потому что контрольные суммы одинаковы.
Что такое контрольная сумма? Контрольная сумма — это небольшой блок данных, полученный из другого блока цифровых данных с целью обнаружения ошибок, которые могли возникнуть во время его передачи или хранения. Сами по себе контрольные суммы часто используются для проверки целостности данных, но не используются для проверки аутентичности данных.
Возвращаясь к Аллану, он ответил Мартину, сказав: «Это хороший пример. Да, это именно то, о чем я говорю. В этом случае веб-мастер может не слишком беспокоиться, потому что эти продукты, если они Если они ушли навсегда, то они хотят, чтобы они ушли, так что это не имеет большого значения. Но если они ушли временно, это проблема, потому что теперь они все втянуты в этот кластер. Они, вероятно, не вернутся. выходит, потому что ползать действительно не любит дубликаты Они такие: «О, эта страница — дубликат. Забудь это. Мне больше никогда не придется ползать по ней». Вот почему это черная дыра».
Он попадает в эту черную дыру, где Google, возможно, никогда больше не заглянет на эту страницу. Ну, может быть, не навсегда.
Аллан сказал: «Только те объекты, которые находятся очень близко к вершине скопления, скорее всего, выйдут обратно».
Так почему же Аллан говорит об этом? Он сказал: «Меня действительно беспокоят сайты с временными ошибками, например, то, что вы там описываете, является своего рода преднамеренной временной ошибкой». «Ну, один раз из тысячи вы сообщите нам о своей ошибке. Теперь у вас есть мародерствующая черная дыра мертвых страниц. Ситуация становится еще хуже, потому что вы также обслуживаете кучу зависимостей JavaScript», — он добавлен.
Вот еще разговоры Аллана и Мартина по этому поводу:
Аллан:
Если их не удастся загрузить, это может привести к поломке вашего рендеринга, и в этом случае мы посмотрим на вашу страницу и подумаем, что она сломана. Фактическая надежность вашей страницы после прохождения этих этапов не обязательно будет очень высокой. Нам приходится очень беспокоиться о том, чтобы такие мародерствующие скопления черных дыр не захватили сайт, потому что на них просто сваливаются вещи, как будто были сайты социальных сетей, где я просматривал, ну, вы знаете, самые известные профили, и под ними будут просто стопки страниц, некоторые из которых сами по себе являются довольно известными и просто не принадлежат к этому кластеру.
Мартин:
Ох, мальчик. Хорошо. Ага. Я видел нечто подобное, когда кто-то проводил A/B-тестирование новой версии своего веб-сайта, а затем некоторые ссылки ломались с сообщениями об ошибках, потому что API изменился, и вызовы больше не работали, или что-то в этом роде. И тогда, примерно в 10% случаев, вы получите сообщение об ошибке практически для всего их контента. Да, думаю, выбраться из этого было непросто.
Джон Мюллер рассказал о случаях, когда это может быть проблемой с CDN:
Я также видел кое-что похожее на это: если перед сайтом есть какая-то CDN, CDN выполняет какое-то обнаружение ботов или обнаружение DDoS, а затем выдает что-то вроде: «О, это похоже, ты бот», а Googlebot отвечает: «Да, я бот». Но тогда все эти страницы, я полагаю, в конечном итоге будут сгруппированы вместе и, возможно, на нескольких сайтах, верно?
Аллан подтвердил это и сказал, что Гэри Иллис из Google работал над этим здесь и там:
Да, в основном. На самом деле Гэри кое-что разъяснил нам по этому вопросу. Знаете, мы сталкиваемся с такими случаями и стараемся привлечь поставщиков подобных услуг к сотрудничеству с нами или хотя бы к работе с Гэри. Я не знаю, что он с ними делает. Он отвечает за это. Но не все из них столь отзывчивы. Так что это то, о чем следует знать.
Так как же избежать попадания в эти черные дыры Google? Аллан сказал: «Самый простой способ — предоставить правильные HTTP-коды, поэтому, вы знаете, пришлите нам 404, 403 или 503. Если вы это сделаете, вы не будете кластеризоваться. Мы можем кластеризовать только те страницы, которые обслуживают 200. Только 200 попадают в черные дыры».
Другой вариант, который сказал Аллан, был:
Другой вариант: если вы используете JavaScript foo, в этом случае вы не сможете отправить нам HTTP-код. Возможно, для этого уже слишком поздно. Что вы можете там сделать, так это попытаться обработать фактическое сообщение об ошибке, что-то, что очень заметно является ошибкой, например, вы знаете, вы можете буквально просто сказать, вы знаете, 503 — мы столкнулись с ошибкой сервера или 403 — вы не были авторизован для просмотра или 404 — мы не смогли найти правильный файл. Любая из этих вещей сработает. Знаете, вам даже не нужно использовать HTTP-код. Очевидно, вы могли бы просто сказать что-нибудь. Итак, у нас есть система, которая должна обнаруживать страницы с ошибками, и мы хотим улучшить ее отзыв по сравнению с тем, что она делает сейчас, чтобы попытаться решить некоторые из этих плохих рендерингов и этих ошибок, связанных с типами страниц, обслуживаемых ботами. Но в то же время, как правило, безопаснее взять все в свои руки и попытаться убедиться, что Google понимает ваши намерения как можно лучше.
Они все время говорят об этом, и все начинается примерно в 16:22 минута — вот вставка видео:
Обсуждение на форуме Х.