AI Bots подает некоторые из самых передовых технологий, которые мы используем сегодня, от поисковых систем до помощников искусственного интеллекта. Тем не менее, их растущее присутствие привело к увеличению числа веб -сайтов, блокирующих их.

Для роботов есть стоимость, которые ползут ваши веб -сайты, и существует общественный договор между поисковыми системами и веб -сайтами веб -сайтов, где поисковые системы повышают ценность, отправляя справочный трафик на веб -сайты. Это то, что мешает большинству веб -сайтов блокировать поисковые системы, такие как Google, даже если Google, похоже, решил взять больше этого трафика для себя.

Когда мы изучили композицию циркуляции ~ 35 000 веб -сайтов в аналитике AHREFS, мы обнаружили, что ИИ отправляет только 0,1% от общего эталонного трафика — продолжительность исследования.

Я думаю, что многие владельцы сайтов хотят, чтобы эти роботы узнали о своем бренде, бизнесе, своих продуктах и ​​предложениях. Но в то время как многие люди ставят пари, что эти системы являются будущими, в настоящее время они рискуют не добавлять достаточной ценности для веб -сайтов.

Первый LLM, который добавил бы больше значений для пользователей, отображая печатные издания и клики на веб -сайтах, вероятно, будет иметь большое преимущество. Компании будут сообщать о мерах этого LLM, что, вероятно, увеличит принятие и предотвратит блокирование большего количества веб -сайтов.

Сапоги используют ресурсы, используйте данные для обучения их ИИ и создания потенциальных проблем конфиденциальности. В результате многие веб -сайты предпочитают блокировать боты ИИ.

Мы рассмотрели около 140 миллионов веб -сайтов, и наши данные показывают, что в прошлом году ставки блокировки для роботов для искусственного интеллекта значительно увеличились. Я хотел бы поблагодарить нашего ученых за данные Xibeijia guan Чтобы нарисовать эти данные.

  • Количество ботов удвоилось С августа 2023 года, с 21 главными роботами, которые теперь активны в Интернете.
  • GPTBOT (OpenAI) — самый заблокированный бот AIС 5,89% всех веб -сайтов блокируют их.
  • Claudebot (антропический) увидел самый высокий рост в блокахУвеличение на 32,67% в прошлом году.

Самые заблокированные роботы также являются самыми популярными. Вполне вероятно, что менее известные роботы менее заблокированы, потому что они менее известны и менее активны.

Мы изучили общее количество веб -сайтов, блокирующих ботов. Есть много способов блокировать сапоги с помощью robots.txt, что объясняет их, в том числе:

  • Явные блокигде упоминается бот и запрещен
  • Общие блокигде все роботы можно заблокировать
  • Все случаи, когда Директива позволила ботуПосле заблокированного всех ботов
ЧИТАТЬ  Использование возможностей ИИ: Повышение персонализации электронной коммерции с помощью больших языковых моделей (LLM) | Зона Мартех

Конференции: это не включает в себя какой -либо другой тип блоков, такого как брандмауэры или IP -блоки.

Как я упоминал ранее, наиболее заблокированным ботом является GPTBOT. Это самый активный бот AI в соответствии с Cloudflare RadarПолем

Боты, которые ползают больше всего в зависимости от радара CloudFlareБоты, которые ползают больше всего в зависимости от радара CloudFlare

Существует умеренная положительная корреляция между скоростью спроса и скоростью блока для этих ботов. Роботы, которые делают больше запросов, имеют тенденцию блокироваться чаще. Сырьями числа составляют 0,512 коэффициента корреляции Пирсона, значение 0,0149, и это статистически значимо на уровне 5%.

Роботы, которые ползают больше, обычно заблокируются большеРоботы, которые ползают больше, обычно заблокируются больше

Вот данные из глобальных блоков:

Скорость блоков BOT IAСкорость блоков BOT IA

Вот общее количество веб -сайтов, блокирующих роботов ИИ:

Всего веб -сайтов блокируют роботы ИИВсего веб -сайтов блокируют роботы ИИ

Вот данные:

Название бота Считать Процент процента Оператор бота
Gptbot 8245987 5.89 Openai
CCBOT 8188656 5.85 Рамп
Amazonbot 8082636 5.78 Амазонка
Действовать 8024980 5.74 Бабочка
Claudebot 8023055 5.74 Антроп
Google-Extend 7989344 5.71 Google
Антропический-аи 7963740 5.69 Антроп
Facebookbot 7931812 5.67 Мета
Омгили 7911471 5.66 Webz.io
Клод-Уэб 7909953 5.65 Антроп
Вы коерили 7894417 5.64 Придерживаться
Чат 7890973 5.64 Openai
Applebot-Extend 7888105 5.64 Яблоко
Мета-внешний агент 7886636 5.64 Мета
Diffro 7855329 5.62 Diffro
Searphexitybot 7844977 5.61 Недоумение
Тимпани 7818696 5.59 время
Яблоко 7768055 5,55 Яблоко
Oai-searchbot 7753426 5.54 Openai
Webzio-extent 7745014 5.54 Webz.io
Meta-ExternalFetcher 7744251 5.54 Мета
Кенгуру ботинок 7739707 5.53 Kangaroo LLM

Это становится немного сложнее. Для вышесказанного мы изучили основной файл роботов для веб-сайта, но каждый поддомен может иметь свой собственный набор инструкций. Если мы посмотрим на роботы ~ 461 м.

AI BOT блокирует со временем

В 2024 году участки дорожного движения с большим количеством дорожного движения начали блокировать роботов ИИ, но тенденция уменьшается к концу года. Кажется, что уменьшение происходит в основном из общих блоков. Тенденция для самих роботов АА увеличивается, и я покажу это вам через минуту.

ЧИТАТЬ  24 эффективных тактики построения ссылок, которые сработают в 2024 году
Ботинки бота AI во времени с помощью трафикаБотинки бота AI во времени с помощью трафика

Некоторые типы сайтов больше блокируют роботы ИИ?

Вот как это разрушается для каждого отдельного бота в разных категориях веб -сайтов. Я фактически ожидал, что новости были более заблокированы, чем другие категории, потому что на информационных сайтах было много историй, блокирующих эти роботы, но художественные и развлекательные сайты (45% блокированы), а сайты права и правительство (42% блокировали) блокировали их.

ИИ блокируются во времени по категории доменаИИ блокируются во времени по категории домена

Решение о блокировке роботов ИИ варьируется в зависимости от отрасли. Для этого может быть ряд уникальных причин. Это несколько умозрительно:

  • Искусство и развлечения: этические отвращения, нежелание стать данными обучения.
  • Книги и литература: авторское право.
  • Закон и правительство: юридические проблемы, соблюдение.
  • Новости и средства массовой информации: предотвращение использования их статей для обучения моделей ИИ, которые могут конкурировать с их журналистикой и отозвать их доход.
  • Покупки: предотвратите царапины цены или мониторинг акций конкурентами.
  • Спорт: похож на новости и средства массовой информации о страхах дохода.

Для этой меры мы ищем только случаи, когда конкретному боту отказывается. Он не включает в себя какую -либо глобальную инструкцию или случаи, когда могут быть разрешены только определенные роботы. В этих случаях веб -сайты сделали все возможное, чтобы специально блокировать определенных роботов.

Опять же, GPTBOT является наиболее целенаправленным, за которым следуют общий бот. Общие данные рампы, вероятно, используются в качестве источника данных для большинства LLM.

Вот наиболее заблокированные роботы с веб -сайтами, нацеленными на них, конкретно:

Явные блоки ботов IAЯвные блоки ботов IA

Вот данные в количестве блокирующих их веб -сайтов:

Общее количество сайтов явно блокирующих роботов AIОбщее количество сайтов явно блокирующих роботов AI

Вот данные:

Название бота Считать Процент процента Оператор бота
Gptbot 693639 0,5 Openai
CCBOT 682861 0,49 Рамп
Amazonbot 469086 0,34 Амазонка
Действовать 461706 0,33 Бабочка
Google-Extend 415821 0,3 Google
Claudebot 393511 0,28 Антроп
Антропический-аи 383176 0,27 Антроп
Facebookbot 361803 0,26 Мета
Омгили 322502 0,23 Webz.io
Чат 310430 0,22 Openai
Вы коерили 306385 0,22 Придерживаться
Клод-Уэб 276411 0,2 Антроп
Applebot-Extend 258451 0,18 Яблоко
Мета-внешний агент 245176 0,18 Мета
Searphexitybot 214488 0,15 Недоумение
Diffro 213828 0,15 Diffro
Тимпани 174434 0,12 время
Яблоко 163148 0,12 Яблоко
Oai-searchbot 110376 0,08 Openai
Webzio-extent 100572 0,07 Webz.io
Meta-ExternalFetcher 99993 0,07 Мета
Кенгуру ботинок 95056 0,07 Kangaroo LLM
ЧИТАТЬ  Инструменты автоматизации и маркетинговые усилия в мире ИИ | Маршировать

Явные блоки ботов с течением времени

Как вы можете видеть, ИИ роботов начинают заблокироваться гораздо большим количеством самых жертв доения веб -сайтов.

Явные блоки AI Bots на 1 миллионах веб -сайтов среди первых путем торговли людьмиЯвные блоки AI Bots на 1 миллионах веб -сайтов среди первых путем торговли людьми

Количество роботов AI увеличилось чуть более года за год, с 10 в августе 2023 года по 21 год в декабре 2024 года. Больше новых участников на рынке означают больше роботов, использующих ресурсы для ползания веб -сайтов.

Claudebot пережил самый быстрый рост во всех гусеницах в прошлом году.

Общее количество блоков AI на 1 миллион веб -сайтов среди первых по трафикуОбщее количество блоков AI на 1 миллион веб -сайтов среди первых по трафику

Вот данные:

Название бота Рост % Абсолютный рост
Claudebot 32,67% 0,85
Антропический-аи 25,14% 0,67
Клод-Уэб 20,66% 0,54
действовать 19,57% 0,54
чат 15,52% 0,47
Searphexitybot 15,37% 0,4
Gptbot 13,38% 0,53
Вы коерили 12,45% 0,32
Facebookbot 11,71% 0,32
CCBOT 11,41% 0,44
Amazonbot 10,22% 0,3
Google-Extend 10,07% 0,3
Diffro 8,98% 0,23
Омгили 8,96% 0,25
Applebot-Extend 7,11% 0,18
Мета-внешний агент 5,90% 0,15
Oai-searchbot 2,17% 0,06
Тимпани 0,01% 0
Webzio-extent -1,69% -0.04
яблоко -3,32% -0.09
Meta-ExternalFetcher -4,32% -0.11
Кенгуру ботинок -5,89% -0.15

Последние размышления

Будет интересно посмотреть, как развивается скорость блоков, в то время как все больше и больше этих роботов начинают использовать постоянно растущее количество ресурсов. Смогут ли они выполнить этот общественный контракт с владельцами веб -сайтов и отправить им больше трафика, или они решит сохранить этот трафик для себя?

Я думаю, что если они выберут подход к закрытому саду, больше сайтов в конечном итоге будет блокировать ботинки, и эти системы должны будут платить веб -сайты для доступа к своим данным, или роботы могут в конечном итоге нарушать веб -стандарты и игнорировать блоки роботов. Было несколько сообщений от некоторых ботов ИИ, уже игнорирующих robots.txt, которые устанавливают опасный прецедент.

Какой у вас улов? Вы блокируете себя на своем сайте, или вы видите значение, позволяя им получить доступ? Дайте мне знать о Х Или ЛиентинПолем



Source