Как изменилось ползание Googlebot на протяжении многих лет • Продвижение Web 2.0

Гэри Иллиес из Google рассказал, как сканеры поисковых систем изменились за эти годы. Это появилось в Последний поиск с подкаста записи с Мартином Сплтитом и Гари Иллиесом из Google.

Он также сказал, что, хотя Googlebot еще не поддерживает HTTP3, они в конечном итоге будут более эффективными.

Он изменился несколькими способами, включая:

(1) Заголовки Pre и Post HTTP были изменением

(2) Протокол robots.txt (хотя это супер супер -старый)

(3) Работа со спамерами и мошенниками

(4) Как ИИ сейчас потребляет больше вещей (вроде).

Это появилось в 23:23 Марк В подкаст, вот вставка:

https://www.youtube.com/watch?v=IggUggonz1e

Мартин Сплитт спросил Гэри: «Вы видите изменение в том, как сканеры работают или ведут себя на протяжении многих лет?»

Гэри ответил:

Ведите, да. Как они ползают, вероятно, не так много, чтобы измениться. Ну, я думаю, в те дни, когда у нас было, что, http /1.1, или, вероятно, они не ползали по /0,9, потому что никаких заголовков и прочее, как будто это, вероятно, сложно. Но в любом случае, в настоящее время у вас есть H2/H3. Я имею в виду, мы не поддерживаем H3 в данный момент, но в конце концов, почему бы и не? И это позволяет ползти гораздо эффективнее, потому что вы можете транслировать материал-это означает, что вы открываете одно соединение, а затем вы просто делаете несколько вещей на одном соединении вместо того, чтобы открывать кучу соединений. Подобно тому, как клиенты HTTP работают под капюшоном, это меняется, но технически ползание на самом деле не меняется.

Затем он добавил:

А потом, как разные компании устанавливают политику для своих скалеров, это, конечно, отличается отличается. Если вы участвуете в дискуссиях в IETF, например, в целевой группе интернет -инженерии, о поведении хрупка, то вы можете увидеть, что некоторые издатели жалуются, что Crawler X или Crawler B или Crawler Y делали то, что они могли бы считать не хорошими. Политика может различаться между операторами хрупких, но в целом, я думаю, что полезные поведение, все они будут пытаться почтить Robots.txt или протокол исключения роботов, в целом, и обращать некоторое внимание на сигналы, которые сайты уделяют своей собственной нагрузке или нагрузке серверов и обратно, когда могут. И тогда у вас также есть, как они называют, состязательные сканеры, такие как сканеры вредоносных программ, сканеры конфиденциальности и еще много чего. И тогда вам, вероятно, понадобится для них другой вид политики, потому что они делают то, что они хотят скрыть. Не по злонамеренной причине, а потому, что дистрибьюторы вредоносных программ, вероятно, попытаются скрыть свое вредоносное ПО, если они знали, что входит сканер вредоносного ПО, скажем. Я пытался придумать еще один пример, но я не могу. В любом случае. Ага. Что еще у тебя есть?

Он добавил позже:

Ага. Я имею в виду, это одна вещь, которую мы делали в прошлом году, верно? Мол, мы пытались уменьшить нашу следа в Интернете. Конечно, это не помогает тому, что новые продукты запускаются, или новые продукты искусственного интеллекта, которые делают по разным причинам. А потом вы сохранили семь байтов от каждого запроса, который вы делаете. И тогда этот новый продукт добавит восемь. Интернет может обрабатывать нагрузку от Crawlers. Я твердо верю, что-это будет противоречивым, и на меня будут кричать в Интернете-но это не ползание, которое съедает ресурсы; Это индексация и потенциально обслуживание или то, что вы делаете с данными, когда вы обрабатываете те данные, которые вы приносите, это то, что дорого и интенсивно ресурсов. Да, я остановлюсь на этом, прежде чем у меня будет больше неприятностей.

Я имею в виду, мало что изменилось, но слушать это было не так уж и плохо (глядя на тебя, Гари).

ЧИТАТЬ Quordle Today – подсказки и ответы на вторник, 16 января (игра № 722)

Обсуждение на форуме в LinkedInПолем

Изображение кредитование Lizzi

Source link