Большинство ведущих издателей новостей блокируют обучающих ботов ИИ через robots.txt, но они также блокируют поисковых ботов, которые определяют, появляются ли сайты в ответах, сгенерированных ИИ.

BuzzStream проанализировал файлы robots.txt 100 ведущих новостных сайтов в США и Великобритании и найдены 79% заблокируйте хотя бы одного обучающего бота. В частности, 71% также заблокируйте хотя бы одного поискового или живого поискового бота.

Обучающие боты собирают контент для создания моделей искусственного интеллекта, а поисковые боты извлекают контент в режиме реального времени, когда пользователи задают вопросы. Сайты, блокирующие поисковых ботов, могут не появиться, когда инструменты ИИ пытаются ссылаться на источники, даже если базовая модель была обучена на их контенте.

Что показывают данные

BuzzStream проанализировал 50 лучших новостных сайтов на каждом рынке на основе доли трафика LikeWeb, а затем дедуплицировал список. В исследовании боты были сгруппированы в три категории: обучение, извлечение/поиск в реальном времени и индексирование.

Учебные блоки ботов

Среди обучающих ботов CCBot Common Crawl чаще всего блокировался — 75%, за ним следовали Anthropic-ai — 72%, ClaudeBot — 69% и GPTBot — 62%.

Google-Extended, который обучает Gemini, был наименее заблокированным обучающим ботом с общим показателем 46%. Издатели США заблокировали его на уровне 58%, что почти вдвое превышает показатель 29% среди издателей Великобритании.

Гарри Кларксон-Беннетт, директор по поисковой оптимизации The Telegraph, рассказал BuzzStream:

«Издатели блокируют ИИ-ботов, использующих файл robots.txt, потому что обмена ценностями практически нет. LLM не предназначены для отправки реферального трафика, а издателям (все еще!) нужен трафик, чтобы выжить».

Поиск блоков ботов

Исследование показало, что 71% сайтов блокируют хотя бы одного поискового или живого поискового бота.

ЧИТАТЬ  Apple позволяет родителям делиться возрастом детей и пересмотреть отзывы, чтобы защитить их

Claude-Web был заблокирован на 66% сайтов, а OAI-SearchBot от OpenAI, обеспечивающий поиск в реальном времени ChatGPT, был заблокирован на 49%. Пользователь ChatGPT-User заблокирован на 40%.

Perplexity-User, который обрабатывает поисковые запросы, инициированные пользователями, был заблокирован меньше всего — 17%.

Индексирование блоков

PerplexityBot, который Perplexity использует для индексации страниц в своей поисковой системе, был заблокирован на 67% сайтов.

Только 14% сайтов заблокировали всех ИИ-ботов, отслеживаемых в исследовании, а 18% не заблокировали ни одного.

Пробел в правоприменении

В исследовании признается, что файл robots.txt — это директива, а не барьер, и боты могут его игнорировать.

Мы устранили этот пробел в правоприменении, когда Гэри Иллис из Google подтвердил, что файл robots.txt не может предотвратить несанкционированный доступ. Он больше похож на знак «пожалуйста, не входите», чем на запертую дверь.

Кларксон-Беннетт подняла тот же вопрос в репортаже BuzzStream:

«Файл robots.txt представляет собой директиву. Это как знак, говорящий: пожалуйста, держитесь подальше, но он не останавливает непослушного или злонамеренно настроенного робота. Многие из них вопиюще игнорируют эти директивы».

Cloudflare задокументировало, что Perplexity использовала скрытое сканирование для обхода ограничений файла robots.txt. Компания поменяла IP-адреса, изменила ASN и подделала свой пользовательский агент, чтобы он выглядел как браузер.

Cloudflare исключил Perplexity из числа проверенных ботов и теперь активно блокирует его. Perplexity оспорила утверждения Cloudflare и опубликовал ответ.

Издателям, серьезно настроенным блокировать роботов-ИИ, помимо директив robots.txt может потребоваться блокировка на уровне CDN или снятие отпечатков ботов.

Почему это важно

Здесь заслуживают внимания номера блокировки извлечения. Помимо отказа от обучения ИИ, многие издатели отказываются от уровня цитирования и открытия, который инструменты поиска ИИ используют для обнаружения источников.

ЧИТАТЬ  Мы заперты в творческом мочевом пузыре, разорвутся ли ИИ или выбрасывает ключ?

ОпенАИ отделяет своих сканеров по функциям: GPTBot собирает данные обучения, а OAI-SearchBot обеспечивает поиск в реальном времени в ChatGPT. Блокировка одного не блокирует другого. Растерянность делает аналогичное различие между PerplexityBot для индексации и Perplexity-User для поиска.

Эти варианты блокировки влияют на то, откуда инструменты ИИ могут получать цитаты. Если сайт блокирует поисковых ботов, он может не появиться, когда пользователи запрашивают ответы у ИИ-помощников, даже если модель уже содержит контент этого сайта, полученный в результате обучения.

Шаблон Google-Extended заслуживает внимания. Издатели в США блокируют его почти вдвое чаще, чем в Великобритании, хотя из данных неясно, отражает ли это разные расчеты рисков, связанные с ростом Gemini, или разные деловые отношения с Google.

Заглядывая в будущее

У метода robots.txt есть ограничения, и сайты, желающие заблокировать роботов с искусственным интеллектом, могут счесть ограничения на уровне CDN более эффективными, чем только robots.txt.

Обзор года Cloudflare показал, что GPTBot, ClaudeBot и CCBot имеют наибольшее количество директив полного запрета в ведущих доменах. В отчете также отмечается, что большинство издателей используют частичную блокировку для Googlebot и Bingbot, а не полную блокировку, что отражает двойную роль сканера Google в поисковой индексации и обучении искусственного интеллекта.

Тем, кто отслеживает видимость ИИ, следует обратить внимание на категорию поисковых ботов. Блоки обучения влияют на будущие модели, а блоки поиска влияют на то, будет ли ваш контент отображаться в ответах ИИ прямо сейчас.


Рекомендованное изображение: Китинут Джинапак/Shutterstock



Source link