Все больше веб-сайтов блокируют сканирование LLM – может ли это иметь неприятные последствия для GEO? • Продвижение Web 2.0

Hostinger опубликовал анализ, показывающий, что компании блокируют системы искусственного интеллекта, используемые для обучения больших языковых моделей, в то же время позволяя помощникам искусственного интеллекта продолжать читать и агрегировать больше веб-сайтов. Компания изучила 66,7 миллиардов взаимодействий ботов на 5 миллионах веб-сайтов и обнаружила, что роботы-помощники с искусственным интеллектом, используемые такими инструментами, как ChatGPT, теперь охватывают больше веб-сайтов, даже несмотря на то, что компании ограничивают другие формы доступа к искусственному интеллекту.

Содержание

1 Анализ хостинга
2 Параметрические знания
3 Компании отказываются от параметрических знаний
- 3.1 Скриншот разговора на Reddit
4 Сообщения бренда теряются в программах LLM
5 Еда на вынос

Анализ хостинга

Hostinger — это веб-хостинг, а также платформа без кода, управляемая агентами искусственного интеллекта, для построения онлайн-бизнеса. Компания заявила, что проанализировала анонимные журналы веб-сайтов, чтобы определить, как проверенные сканеры получают доступ к веб-сайтам в масштабе, сравнивая изменения в том, как поисковые системы и системы искусственного интеллекта получают онлайн-контент.

Анализ их опубликовано показывает, что роботы-помощники с искусственным интеллектом расширили свое присутствие на веб-сайтах за пятимесячный период. Данные собирались в трех шестидневных окнах в июне, августе и ноябре 2025 года.

SearchBot от OpenAI увеличил охват сайта с 52 до 68 процентов, а Applebot (который индексирует контент для обеспечения возможностей поиска Apple) увеличился вдвое с 17 до 34 процентов. В тот же период традиционные поисковые роботы оставались практически неизменными. Данные показывают, что ИИ-помощники добавляют новый уровень к тому, как информация доходит до пользователей, а не полностью заменяют поисковые системы.

В то же время данные показывают, что компании строго ограничили доступ к сканерам, обучающим искусственному интеллекту. Доступ к GPTBot OpenAI на 84 процентах веб-сайтов упал в августе до 12 процентов в ноябре. Использование внешнего агента Meta снизило охват веб-сайта с 60 до 41 процента. Эти сканеры со временем собирают данные для улучшения моделей ИИ и обновления своих параметрических знаний. Однако многие компании блокируют их либо для ограничения использования данных, либо из опасения нарушения авторских прав.

ЧИТАТЬ Дает ли повышение роли директоров по стратегии надежду директорам по контенту?

Параметрические знания

Параметрические знания, также известные как параметрическая память, — это информация, которая «жестко запрограммирована» в модели во время обучения. Он называется «параметрическим», потому что знания хранятся в параметрах модели (весах). Параметрические знания — это долговременная память об объектах, например людях, вещах и компаниях.

Когда человек задает LLM вопрос, LLM может распознать такую организацию, как компания, а затем извлечь связанные векторы (факты), которые он узнал во время обучения. Таким образом, если компания или компания блокирует обучающего бота на своем веб-сайте, это не позволяет LLM узнать о нем, что может быть не лучшим решением для компании, обеспокоенной видимостью ИИ.

Разрешение обучающему боту с искусственным интеллектом сканировать веб-сайт компании позволяет компании осуществлять некоторый контроль над тем, что LLM знает о компании, включая то, чем она занимается, брендинг и все, что указано в «О нас», а также позволяет LLM знать о предлагаемых продуктах или услугах. Информационный сайт может выиграть, если на него будут цитировать ответы.

Компании отказываются от параметрических знаний

Анализ Hostinger показывает, что компании «агрессивно» блокируют сканеры, обучающие ИИ. Хотя это и не упоминается в исследовании Hostinger, блокирование обучающих ботов ИИ по сути приводит к тому, что компании отказываются от параметрических знаний LLM, поскольку LLM не может учиться непосредственно на стороннем контенте во время обучения. Это лишает веб-сайт возможности рассказать свою собственную историю и вынуждает LLM полагаться на сторонние данные или графики знаний.

Исследования Hostinger показывают:

«Основываясь на отслеживании 66,7 миллиардов взаимодействий ботов на 5 миллионах веб-сайтов, Hostinger обнаружил существенный парадокс:

Компании агрессивно блокируют обучающих ботов ИИ — системы, которые добывают контент для создания моделей ИИ. GPTBot OpenAI упал с 84% до 12% веб-сайтов за три месяца.

Однако роботы-помощники с искусственным интеллектом — технология, которую ChatGPT, Apple и т. д. используют для ответа на вопросы клиентов, — быстро растёт. доля SearchBot OpenAI выросла с 52% до 68% сайтов; Applebot удвоился до 34%».

Текущий почта на Reddit показано, как блокирование доступа LLM к контенту нормализуется и понимается как защита интеллектуальной собственности (IP).

ЧИТАТЬ Полная партия компьютеров Mac M4 может быть выпущена в ноябре | Цифровые тенденции

Пост начинается с первого вопроса о том, как заблокировать ИИ:

«Я хочу, чтобы мой сайт продолжал индексироваться в поиске Google, но я не хочу, чтобы Gemini, ChatGPT или другие захватывали и использовали мой контент.

Как лучше всего это сделать?»

Скриншот разговора на Reddit

Позже в этой теме кто-то спросил, блокируют ли они LLM для защиты своей интеллектуальной собственности, и первоначальный автор ответил утвердительно, что причина именно в этом.

Тот, кто начал дискуссию, ответил:

«Мы публикуем уникальный контент, которого больше нет нигде. LLM часто узнают от нас о вещах в этой маленькой нише. Поэтому нам нужен трафик Google, а не LLM».

Это может быть уважительной причиной. Веб-сайт, публикующий уникальную учебную информацию о программном продукте, которого больше нигде нет, может захотеть запретить LLM индексировать его контент, в противном случае LLM сможет отвечать на вопросы, устраняя при этом необходимость посещения веб-сайта.

Но для других веб-сайтов с менее уникальным контентом, таких как: Например, сайт обзора и сравнения продуктов или сайт электронной коммерции, запрет LLM включать информацию об этих сайтах в свое параметрическое хранилище может быть не лучшей стратегией.

Сообщения бренда теряются в программах LLM

Поскольку ИИ-помощники отвечают на вопросы напрямую, пользователи могут получать информацию, не посещая веб-сайт. Это может уменьшить прямой трафик и ограничить доступ к информации о ценах компании, контексте продукта и сообщениям о бренде. Вполне возможно, что путь клиента заканчивается в интерфейсе искусственного интеллекта, и компании, которые мешают LLM получать знания о своих компаниях и предложениях, по существу полагаются на поисковый сканер и поисковый индекс, чтобы преодолеть этот разрыв (и, может быть, это сработает?).

ЧИТАТЬ Мемы Google Images о конкретных людях не являются ни разрушительными, ни вредными.

Растущее использование помощников искусственного интеллекта влияет на маркетинг и распространяется на прогнозирование продаж. Поскольку системы искусственного интеллекта объединяют предложения и рекомендации, компании, блокирующие LLM, имеют меньше контроля над тем, как отображаются цены и стоимость. Рекламные усилия теряют видимость на более ранних этапах процесса принятия решений, а атрибуция электронной коммерции становится более сложной, когда покупки основаны на ответах, сгенерированных ИИ, а не на прямых посещениях на месте.

По словам Хостингера, некоторые организации становятся более избирательными в отношении контента, доступного для ИИ, особенно для ИИ-помощников.

Томас Расимас, руководитель отдела искусственного интеллекта Hostinger, прокомментировал:

«Поскольку ИИ-помощники все чаще отвечают на вопросы напрямую, Интернет превращается из модели, основанной на кликах, в модель, опосредованную агентами. Реальный риск для компаний заключается не в доступе к ИИ как таковом, а в потере контроля над тем, как цены, позиционирование и ценность представляются при принятии решений».

Еда на вынос

Запретить LLM использовать данные веб-сайта для обучения на самом деле не является позицией по умолчанию, хотя многих людей идея обучения LLM на их контенте действительно расстраивает и расстраивает. Возможно, будет полезно выбрать более вдумчивый ответ, сопоставляющий преимущества и недостатки, а также учитывающий, являются ли эти недостатки реальными или предполагаемыми.

Рекомендованное изображение с сайта Shutterstock/Lightspring

Source