Отчет Cloudflare: Googlebot лидирует по трафику роботов с искусственным интеллектом • Продвижение Web 2.0

Cloudflare опубликовала шестой ежегодный отчет Обзор годапредлагающий всесторонний анализ интернет-трафика, безопасности и активности роботов с искусственным интеллектом в 2025 году.

В отчете использованы данные сети Cloudflare, которая охватывает более 330 городов в 125 странах и обрабатывает в среднем более 81 миллиона HTTP-запросов в секунду.

Результаты сканирования ИИ заслуживают внимания. Робот Googlebot просканировал гораздо больше веб-страниц, чем любой другой бот с искусственным интеллектом, что отражает двойной подход Google к сканированию как для поисковой индексации, так и для обучения искусственного интеллекта.

Содержание

1 Googlebot — лучший трафик роботов-роботов с использованием искусственного интеллекта
2 На ботов с искусственным интеллектом теперь приходится 4,2% HTML-запросов
3 Коэффициент сканирования к переходу сильно варьируется
4 Сканирование действий пользователей выросло более чем в 20 раз
5 Поисковые роботы с искусственным интеллектом больше всего блокируются в файле robots.txt
6 Гражданское общество стало наиболее пострадавшим сектором
7 Другие ключевые выводы
8 Почему это важно
9 Заглядывая в будущее

Googlebot — лучший трафик роботов-роботов с использованием искусственного интеллекта

Cloudflare проанализировала успешные запросы HTML-контента от ведущих сканеров искусственного интеллекта в октябре и ноябре 2025 года. Результаты показали, что робот Google охватил 11,6% уникальных веб-страниц в выборке.

Это более чем в три раза превышает количество страниц, просмотренных OpenAI GPTBot (3,6%). Это почти в 200 раз больше, чем у PerplexityBot, который просканировал всего 0,06% страниц.

Bingbot занял третье место с 2,6%, за ним следуют Meta-ExternalAgent и ClaudeBot с 2,4% каждый.

В отчете отмечается, что, поскольку робот Googlebot сканирует как поисковую индексацию, так и обучение модели искусственного интеллекта, веб-издатели сталкиваются с трудным выбором. Блокирование обучения искусственного интеллекта Googlebot означает риск обнаружения при поиске.

Cloudflare написал:

«Поскольку робот Googlebot используется для сканирования контента как для индексации поиска, так и для обучения модели искусственного интеллекта, а также из-за давнего доминирования Google в поиске, операторы веб-сайтов по сути не могут блокировать обучение робота Googlebot искусственному интеллекту, не рискуя обнаружиться при поиске».

На ботов с искусственным интеллектом теперь приходится 4,2% HTML-запросов

В течение 2025 года боты с искусственным интеллектом (за исключением Googlebot) составляли в среднем 4,2% HTML-запросов в клиентской базе Cloudflare. Доля колебалась от 2,4% в начале апреля до 6,4% в конце июня.

ЧИТАТЬ ReText.AI объявила о запуске API: теперь доступно массовое создание уникальных текстов без ошибок

На один только робот Google пришлось 4,5% HTML-запросов, что немного больше, чем на всех других ботов с искусственным интеллектом вместе взятых.

Доля HTML-трафика, созданного человеком, в 2025 году была на семь процентных пунктов ниже трафика, не связанного с искусственным интеллектом. К сентябрю человеческий трафик в некоторые дни начал превышать трафик, не связанный с искусственным интеллектом. По состоянию на 2 декабря люди генерировали 47% HTML-запросов, а боты, не использующие искусственный интеллект, — 44%.

Коэффициент сканирования к переходу сильно варьируется

Cloudflare отслеживает, как часто ИИ и поисковые платформы отправляют трафик на сайты относительно частоты их сканирования. Высокий коэффициент означает интенсивное сканирование без отправки пользователей обратно на исходные сайты.

У Anthropic были самые высокие показатели среди платформ искусственного интеллекта: примерно от 25 000:1 до 100 000:1 во второй половине года после стабилизации после предыдущей волатильности.

В марте коэффициенты OpenAI достигли 3700:1. Начиная с сентября, Perplexity сохранила самые низкие соотношения среди ведущих платформ искусственного интеллекта, как правило, ниже 400:1 и ниже 200:1.

Для сравнения, соотношение числа поисковых запросов к количеству ссылок в Google в течение года оставалось намного ниже, обычно между 3:1 и 30:1.

Сканирование действий пользователей выросло более чем в 20 раз

Не все сканирование ИИ предназначено для обучения моделей. Сканирование «Действия пользователя» происходит, когда боты посещают сайты в ответ на вопросы пользователей, заданные чат-ботам.

В этой категории наблюдался самый быстрый рост в 2025 году. Объем сканирования действий пользователей увеличился более чем в 15 раз с января по начало декабря. Эта тенденция очень похожа на структуру трафика бота ChatGPT-User от OpenAI, который посещает страницы, когда пользователи задают вопросы ChatGPT.

ЧИТАТЬ Google AdSense меняет средства управления собственными файлами cookie

Рост показал еженедельную структуру использования, начиная с середины февраля, что предполагает увеличение использования в школах и на рабочих местах. Активность падала в период с июня по август, когда у студентов были каникулы, а специалисты уходили в отпуск.

Поисковые роботы с искусственным интеллектом больше всего блокируются в файле robots.txt

Cloudflare проанализировала файлы robots.txt почти в 3900 из 10 000 крупнейших доменов. ИИ-сканеры были наиболее часто блокируемыми пользовательскими агентами.

У GPTBot, ClaudeBot и CCBot было наибольшее количество директив полного запрета. Эти директивы предписывают сканерам держаться подальше от целых сайтов.

Googlebot и Bingbot продемонстрировали другую картину. Их директивы запрета в значительной степени склонялись к частичной блокировке, вероятно, ориентированной на конечные точки входа в систему и области, не содержащие контент, а не на полную блокировку сайта.

Гражданское общество стало наиболее пострадавшим сектором

Впервые наиболее объектом атак стали организации вертикали «Люди и общество». В эту категорию входят религиозные учреждения, некоммерческие организации, гражданские организации и библиотеки.

На этот сектор пришлось 4,4% глобального смягченного трафика по сравнению с менее чем 2% в начале года. Доля атак подскочила до более чем 17% в конце марта и достигла пика в 23,2% в начале июля.

Многие из этих организаций защищены проектом Galileo компании Cloudflare.

Доля азартных игр и игр, наиболее пострадавшей отрасли в 2024 году, упала более чем вдвое, до 2,6%.

Другие ключевые выводы

Отчет Cloudflare включал несколько дополнительных выводов, касающихся трафика, безопасности и подключения.

Глобальный интернет-трафик вырос на 19% по сравнению с прошлым годом. Рост оставался относительно стабильным до середины апреля, а затем ускорился после середины августа.

Пост-квантовое шифрование теперь защищает 52% человеческого трафика в Cloudflare, что почти вдвое превышает долю в 29% в начале года.

ЧИТАТЬ Эта крошечная материнская плата помещается в слот памяти и по размеру едва превышает визитную карточку — крошечный MU LattePanda оснащен процессором N100, 8 ГБ оперативной памяти и даже может работать с графическим процессором Nvidia.

ChatGPT остается ведущим сервисом генеративного искусственного интеллекта в мире. Google Gemini, Windsurf AI, Grok/xAI и DeepSeek впервые вошли в десятку лучших.

В 2025 году трафик Starlink удвоился, услуга будет запущена более чем в 20 новых странах.

Почти половина из 174 крупных сбоев в работе Интернета, наблюдаемых во всем мире, были вызваны отключениями по указанию правительства. Количество отключений кабеля сократилось почти на 50%, а количество отключений электроэнергии увеличилось вдвое.

Европейские страны доминируют в показателях качества Интернета. Испания возглавила список по общему качеству Интернета со средней скоростью загрузки выше 300 Мбит/с.

Почему это важно

Данные ИИ-сканера должны повлиять на то, как вы думаете о доступе к ботам и трафике.

Сканер двойного назначения Google создает конкурентное преимущество. Вы можете заблокировать других сканеров ИИ, сохраняя при этом доступ Googlebot для видимости поиска, но вы не можете отделить сканирование поиска Google от сканирования обучения ИИ.

Коэффициенты сканирования и перехода помогают количественно определить, что уже подозревали издатели. Платформы искусственного интеллекта активно сканируют сайты, но отправляют обратно мало трафика. Разрыв между сканированием и переходом сильно различается в зависимости от платформы.

Данные о нападениях гражданского общества имеют значение, если вы работаете с некоммерческими или правозащитными организациями. Эти группы сейчас подвергаются наибольшему количеству нападений.

Заглядывая в будущее

Cloudflare ожидает, что показатели ИИ будут меняться по мере дальнейшего развития отрасли. Компания добавила в отчет этого года несколько новых наборов данных, связанных с искусственным интеллектом, которые не были доступны в предыдущих выпусках.

Соотношение сканирования и перехода может меняться по мере того, как платформы искусственного интеллекта корректируют свои функции поиска и поведение рефералов. Показатели OpenAI уже продемонстрировали некоторое снижение в течение года по мере роста использования поиска ChatGPT.

Что касается управления файлом robots.txt, данные показывают, что большинство издателей выбирают частичную блокировку для основных поисковых роботов и полную блокировку роботов, использующих только искусственный интеллект. Состояние этих директив на конец года обеспечивает основу для отслеживания того, как будет меняться политика издателей в 2026 году.

Рекомендуемое изображение: Мамун_Шейх/Shutterstock

Source link