Hostinger проанализировал 66 миллиардов запросов ботов на более чем 5 миллионах веб-сайтов и обнаружил, что роботы с искусственным интеллектом идут двумя разными путями.
Боты для обучения LLM теряют доступ к сети, поскольку все больше сайтов их блокируют. Между тем, боты-помощники с искусственным интеллектом, которые используются в таких инструментах поиска, как ChatGPT, расширяют сферу своей деятельности.
анализ использует анонимизированные журналы сервера из трех 6-дневных окон, при этом классификация ботов сопоставлена с классификациями проектов AI.txt.
Содержание
Тренировочные боты блокируются
Самое яркое открытие касается GPTBot OpenAI, который собирает данные для обучения моделей. За период исследования охват веб-сайта упал с 84% до 12%.
Внешний агент Meta был крупнейшим сканером категорий обучения по объему запросов в данных Hostinger. Хостингер говорит, что эта группа обучающих ботов в целом демонстрирует самый сильный спад, отчасти из-за того, что сайты блокируют обучающие роботы с искусственным интеллектом.
Эти цифры соответствуют закономерностям, которые я отслеживал в ходе многочисленных исследований. BuzzStream обнаружил, что 79% ведущих издателей новостей теперь блокируют хотя бы одного обучающего бота. Обзор года Cloudflare показал, что GPTBot, ClaudeBot и CCBot имеют наибольшее количество директив полного запрета в ведущих доменах.
Данные количественно отражают то, что предложили эти исследования. Hostinger интерпретирует снижение охвата обучающих ботов как признак того, что все больше сайтов блокируют этих сканеров, даже если объемы запросов остаются высокими.
Боты-помощники рассказывают другую историю
В то время как обучающие боты сталкиваются с сопротивлением, боты, используемые в инструментах поиска ИИ, расширяют доступ.
OAI-SearchBot OpenAI, который извлекает контент для функции поиска ChatGPT, достиг среднего охвата 55,67%. Бот TikTok вырос до 25,67% охвата с 1,4 миллиарда запросов. Бот Apple достиг охвата 24,33%.
Эти ассистентские обходы инициируются пользователем и являются более целенаправленными. Они обслуживают пользователей напрямую, а не собирают обучающие данные, что может объяснить, почему сайты относятся к ним по-разному.
Классический поиск остается стабильным
Традиционные сканеры поисковых систем оставались стабильными на протяжении всего исследования. Googlebot поддерживал средний охват 72% при 14,7 миллиардах запросов. Охват Bingbot остался на уровне 57,67%.
Стабильность контрастирует с изменениями в категории ИИ. Главный сканер Google находится в уникальном положении, поскольку его блокировка влияет на видимость в результатах поиска.
SEO-инструменты демонстрируют спад
SEO и маркетинговые сканеры увидели снижение охвата. Ahrefs сохранил наибольшую долю охвата — 60%, но в целом категория сократилась. Hostinger объясняет это двумя факторами. Эти инструменты все чаще ориентированы на сайты, активно выполняющие SEO-работу. А владельцы веб-сайтов блокируют ресурсоемкие сканеры.
Я сообщил о проблемах с ресурсами, когда данные Vercel показали, что GPTBot генерирует 569 миллионов запросов за один месяц. Для некоторых издателей затраты на пропускную способность стали бизнес-проблемой.
Почему это важно
Данные подтверждают закономерность, сложившуюся за последний год. Операторы сайтов проводят грань между поисковыми роботами с искусственным интеллектом, которые они разрешают, и теми, которые не разрешают.
Решение сводится к функции. Обучающие боты собирают контент для улучшения моделей, не отправляя трафик обратно. Боты-помощники извлекают контент, чтобы ответить на конкретные вопросы пользователей, а это значит, что они могут отображать ваш контент в результатах поиска AI.
Hostinger предлагает средний путь: блокировать обучающих ботов, одновременно разрешая ботам-помощникам, которые способствуют обнаружению. Это позволяет вам участвовать в поиске ИИ, не участвуя в обучении модели.
Заглядывая в будущее
OpenAI рекомендует разрешить OAI-SearchBot, если вы хотите, чтобы ваш сайт появлялся в результатах поиска ChatGPT, даже если вы заблокировали GPTBot.
OpenAI документация поясняет разницу. OAI-SearchBot контролирует включение в результаты поиска ChatGPT и учитывает файл robots.txt. ChatGPT-User обрабатывает просмотр, инициируемый пользователем, и не может управляться файлом robots.txt таким же образом.
Hostinger рекомендует проверять журналы сервера, чтобы увидеть, что на самом деле поражает ваш сайт, а затем принимать решения о блокировке в зависимости от ваших целей. Если вас беспокоит загрузка сервера, вы можете использовать блокировку на уровне CDN. Если вы хотите потенциально повысьте видимость вашего ИИ, просмотрите текущие пользовательские агенты сканера ИИ и разрешите использование только определенных ботов, которые поддерживают ваш стратегия.
Рекомендованное изображение: BestForBest/Shutterstock

