AI Bots подает некоторые из самых передовых технологий, которые мы используем сегодня, от поисковых систем до помощников искусственного интеллекта. Тем не менее, их растущее присутствие привело к увеличению числа веб -сайтов, блокирующих их.
Для роботов есть стоимость, которые ползут ваши веб -сайты, и существует общественный договор между поисковыми системами и веб -сайтами веб -сайтов, где поисковые системы повышают ценность, отправляя справочный трафик на веб -сайты. Это то, что мешает большинству веб -сайтов блокировать поисковые системы, такие как Google, даже если Google, похоже, решил взять больше этого трафика для себя.
Когда мы изучили композицию циркуляции ~ 35 000 веб -сайтов в аналитике AHREFS, мы обнаружили, что ИИ отправляет только 0,1% от общего эталонного трафика — продолжительность исследования.
Я думаю, что многие владельцы сайтов хотят, чтобы эти роботы узнали о своем бренде, бизнесе, своих продуктах и предложениях. Но в то время как многие люди ставят пари, что эти системы являются будущими, в настоящее время они рискуют не добавлять достаточной ценности для веб -сайтов.
Первый LLM, который добавил бы больше значений для пользователей, отображая печатные издания и клики на веб -сайтах, вероятно, будет иметь большое преимущество. Компании будут сообщать о мерах этого LLM, что, вероятно, увеличит принятие и предотвратит блокирование большего количества веб -сайтов.
Сапоги используют ресурсы, используйте данные для обучения их ИИ и создания потенциальных проблем конфиденциальности. В результате многие веб -сайты предпочитают блокировать боты ИИ.
Мы рассмотрели около 140 миллионов веб -сайтов, и наши данные показывают, что в прошлом году ставки блокировки для роботов для искусственного интеллекта значительно увеличились. Я хотел бы поблагодарить нашего ученых за данные Xibeijia guan Чтобы нарисовать эти данные.
- Количество ботов удвоилось С августа 2023 года, с 21 главными роботами, которые теперь активны в Интернете.
- GPTBOT (OpenAI) — самый заблокированный бот AIС 5,89% всех веб -сайтов блокируют их.
- Claudebot (антропический) увидел самый высокий рост в блокахУвеличение на 32,67% в прошлом году.
Самые заблокированные роботы также являются самыми популярными. Вполне вероятно, что менее известные роботы менее заблокированы, потому что они менее известны и менее активны.
Мы изучили общее количество веб -сайтов, блокирующих ботов. Есть много способов блокировать сапоги с помощью robots.txt, что объясняет их, в том числе:
- Явные блокигде упоминается бот и запрещен
- Общие блокигде все роботы можно заблокировать
- Все случаи, когда Директива позволила ботуПосле заблокированного всех ботов
Конференции: это не включает в себя какой -либо другой тип блоков, такого как брандмауэры или IP -блоки.
Как я упоминал ранее, наиболее заблокированным ботом является GPTBOT. Это самый активный бот AI в соответствии с Cloudflare RadarПолем


Существует умеренная положительная корреляция между скоростью спроса и скоростью блока для этих ботов. Роботы, которые делают больше запросов, имеют тенденцию блокироваться чаще. Сырьями числа составляют 0,512 коэффициента корреляции Пирсона, значение 0,0149, и это статистически значимо на уровне 5%.


Вот данные из глобальных блоков:


Вот общее количество веб -сайтов, блокирующих роботов ИИ:


Вот данные:
Название бота | Считать | Процент процента | Оператор бота |
---|---|---|---|
Gptbot | 8245987 | 5.89 | Openai |
CCBOT | 8188656 | 5.85 | Рамп |
Amazonbot | 8082636 | 5.78 | Амазонка |
Действовать | 8024980 | 5.74 | Бабочка |
Claudebot | 8023055 | 5.74 | Антроп |
Google-Extend | 7989344 | 5.71 | |
Антропический-аи | 7963740 | 5.69 | Антроп |
Facebookbot | 7931812 | 5.67 | Мета |
Омгили | 7911471 | 5.66 | Webz.io |
Клод-Уэб | 7909953 | 5.65 | Антроп |
Вы коерили | 7894417 | 5.64 | Придерживаться |
Чат | 7890973 | 5.64 | Openai |
Applebot-Extend | 7888105 | 5.64 | Яблоко |
Мета-внешний агент | 7886636 | 5.64 | Мета |
Diffro | 7855329 | 5.62 | Diffro |
Searphexitybot | 7844977 | 5.61 | Недоумение |
Тимпани | 7818696 | 5.59 | время |
Яблоко | 7768055 | 5,55 | Яблоко |
Oai-searchbot | 7753426 | 5.54 | Openai |
Webzio-extent | 7745014 | 5.54 | Webz.io |
Meta-ExternalFetcher | 7744251 | 5.54 | Мета |
Кенгуру ботинок | 7739707 | 5.53 | Kangaroo LLM |
Это становится немного сложнее. Для вышесказанного мы изучили основной файл роботов для веб-сайта, но каждый поддомен может иметь свой собственный набор инструкций. Если мы посмотрим на роботы ~ 461 м.
AI BOT блокирует со временем
В 2024 году участки дорожного движения с большим количеством дорожного движения начали блокировать роботов ИИ, но тенденция уменьшается к концу года. Кажется, что уменьшение происходит в основном из общих блоков. Тенденция для самих роботов АА увеличивается, и я покажу это вам через минуту.


Некоторые типы сайтов больше блокируют роботы ИИ?
Вот как это разрушается для каждого отдельного бота в разных категориях веб -сайтов. Я фактически ожидал, что новости были более заблокированы, чем другие категории, потому что на информационных сайтах было много историй, блокирующих эти роботы, но художественные и развлекательные сайты (45% блокированы), а сайты права и правительство (42% блокировали) блокировали их.


Решение о блокировке роботов ИИ варьируется в зависимости от отрасли. Для этого может быть ряд уникальных причин. Это несколько умозрительно:
- Искусство и развлечения: этические отвращения, нежелание стать данными обучения.
- Книги и литература: авторское право.
- Закон и правительство: юридические проблемы, соблюдение.
- Новости и средства массовой информации: предотвращение использования их статей для обучения моделей ИИ, которые могут конкурировать с их журналистикой и отозвать их доход.
- Покупки: предотвратите царапины цены или мониторинг акций конкурентами.
- Спорт: похож на новости и средства массовой информации о страхах дохода.
Для этой меры мы ищем только случаи, когда конкретному боту отказывается. Он не включает в себя какую -либо глобальную инструкцию или случаи, когда могут быть разрешены только определенные роботы. В этих случаях веб -сайты сделали все возможное, чтобы специально блокировать определенных роботов.
Опять же, GPTBOT является наиболее целенаправленным, за которым следуют общий бот. Общие данные рампы, вероятно, используются в качестве источника данных для большинства LLM.
Вот наиболее заблокированные роботы с веб -сайтами, нацеленными на них, конкретно:


Вот данные в количестве блокирующих их веб -сайтов:


Вот данные:
Название бота | Считать | Процент процента | Оператор бота |
---|---|---|---|
Gptbot | 693639 | 0,5 | Openai |
CCBOT | 682861 | 0,49 | Рамп |
Amazonbot | 469086 | 0,34 | Амазонка |
Действовать | 461706 | 0,33 | Бабочка |
Google-Extend | 415821 | 0,3 | |
Claudebot | 393511 | 0,28 | Антроп |
Антропический-аи | 383176 | 0,27 | Антроп |
Facebookbot | 361803 | 0,26 | Мета |
Омгили | 322502 | 0,23 | Webz.io |
Чат | 310430 | 0,22 | Openai |
Вы коерили | 306385 | 0,22 | Придерживаться |
Клод-Уэб | 276411 | 0,2 | Антроп |
Applebot-Extend | 258451 | 0,18 | Яблоко |
Мета-внешний агент | 245176 | 0,18 | Мета |
Searphexitybot | 214488 | 0,15 | Недоумение |
Diffro | 213828 | 0,15 | Diffro |
Тимпани | 174434 | 0,12 | время |
Яблоко | 163148 | 0,12 | Яблоко |
Oai-searchbot | 110376 | 0,08 | Openai |
Webzio-extent | 100572 | 0,07 | Webz.io |
Meta-ExternalFetcher | 99993 | 0,07 | Мета |
Кенгуру ботинок | 95056 | 0,07 | Kangaroo LLM |
Явные блоки ботов с течением времени
Как вы можете видеть, ИИ роботов начинают заблокироваться гораздо большим количеством самых жертв доения веб -сайтов.


Количество роботов AI увеличилось чуть более года за год, с 10 в августе 2023 года по 21 год в декабре 2024 года. Больше новых участников на рынке означают больше роботов, использующих ресурсы для ползания веб -сайтов.
Claudebot пережил самый быстрый рост во всех гусеницах в прошлом году.


Вот данные:
Название бота | Рост % | Абсолютный рост |
---|---|---|
Claudebot | 32,67% | 0,85 |
Антропический-аи | 25,14% | 0,67 |
Клод-Уэб | 20,66% | 0,54 |
действовать | 19,57% | 0,54 |
чат | 15,52% | 0,47 |
Searphexitybot | 15,37% | 0,4 |
Gptbot | 13,38% | 0,53 |
Вы коерили | 12,45% | 0,32 |
Facebookbot | 11,71% | 0,32 |
CCBOT | 11,41% | 0,44 |
Amazonbot | 10,22% | 0,3 |
Google-Extend | 10,07% | 0,3 |
Diffro | 8,98% | 0,23 |
Омгили | 8,96% | 0,25 |
Applebot-Extend | 7,11% | 0,18 |
Мета-внешний агент | 5,90% | 0,15 |
Oai-searchbot | 2,17% | 0,06 |
Тимпани | 0,01% | 0 |
Webzio-extent | -1,69% | -0.04 |
яблоко | -3,32% | -0.09 |
Meta-ExternalFetcher | -4,32% | -0.11 |
Кенгуру ботинок | -5,89% | -0.15 |
Последние размышления
Будет интересно посмотреть, как развивается скорость блоков, в то время как все больше и больше этих роботов начинают использовать постоянно растущее количество ресурсов. Смогут ли они выполнить этот общественный контракт с владельцами веб -сайтов и отправить им больше трафика, или они решит сохранить этот трафик для себя?
Я думаю, что если они выберут подход к закрытому саду, больше сайтов в конечном итоге будет блокировать ботинки, и эти системы должны будут платить веб -сайты для доступа к своим данным, или роботы могут в конечном итоге нарушать веб -стандарты и игнорировать блоки роботов. Было несколько сообщений от некоторых ботов ИИ, уже игнорирующих robots.txt, которые устанавливают опасный прецедент.
Какой у вас улов? Вы блокируете себя на своем сайте, или вы видите значение, позволяя им получить доступ? Дайте мне знать о Х Или ЛиентинПолем