Мы создали и развиваем первый в России ГЕО-инструмент — Tuna, который не просто ориентирован на анализ вашего присутствия в ответах нейросети, а дает четкие и конкретные рекомендации по созданию контента и местам его размещения.
В ходе изучения и внедрения нейросетей в работу Туны мы замечаем различные странности и делимся этой информацией с вами.
Содержание
Ограничения ИИ при работе с веб-ресурсами: что нужно знать владельцам бизнеса
Если вы используете сервисы искусственного интеллекта для анализа веб-контента, важно понимать их реальные возможности. Наши тесты показали критическую точку: из 15 представленных источников модели успешно обработали только 6–10, несмотря на наличие только одного URL в каждом запросе.
Почему это происходит
Модели ИИ не всегда имеют доступ к открытым интернет-ресурсам. При попытке обработки страницы система часто сталкивается с недоступностью: сервер не возвращает HTTP-статус 200, блокирует запросы или ограничивает доступ. Следовательно, модель не может извлечь фактическое содержимое, заголовки, структуру и метаданные.
Типичные ошибки, которые вы увидите:
-
Не удалось открыть страницу
-
Статус HTTP не 200
-
Контент недоступен
Что это значит для вашего анализа?
Когда модели не удается загрузить источник, она не может провести хороший SEO-анализ, проверить релевантность контента или оценить его структуру. Это не значит, что сайт плохой, просто у инструмента нет к нему доступа.
Итак: если не требовать подтверждения «положительного» статуса нейросети, то модель просто сгенерирует ложный ответ, так как в целом она может дать только ответ.
Существующие методы защиты веб-сайтов от автоматического доступа
Блокировка robots.txt и пользовательских агентов — это первая линия защиты, используемая сайтами для контроля доступа от сканеров с искусственным интеллектом. Специальные строки User-Agent помогают сайтам идентифицировать различных ботов: GPTBot (OpenAI), ClaudeBot (Anthropic), CCBot (Cohere) и других. Владельцы сайтов могут явно запретить доступ этим ботам, добавив такие строки, как User-agent: GPTBot И Disallow: /. Однако важно отметить, что некоторые роботы, такие как Bytespider, полностью игнорируют файл robots.txt и требуют методов блокировки на стороне сервера.
Блокировка Cloudflare и CDN представляют собой системную проблему масштаба. С 1 июля 2025 года Cloudflare изменила поведение по умолчанию для всех новых доменов, размещенных на ее платформе. Сервис отслеживает трафик в 20% сети, и теперь каждый новый домен по умолчанию блокирует роботы с искусственным интеллектом. Это означает, что большая часть Интернета теперь требует явного разрешения владельца сайта для доступа к нему моделей ИИ.
Коды ошибок ограничения скорости и состояния HTTP
Когда модель ИИ слишком быстро отправляет много запросов, серверы отвечают кодом 429 (Too Many Requests), который указывает на превышение лимита запросов. Это не редкость для краулеров: системы защиты специально разработаны для ограничения интенсивности доступа с использованием алгоритмов корзины токенов или ограничений для каждого IP-адреса. Код 403 (Запрещено) указывает на то, что доступ к ресурсу запрещен, а код 503 (Сервис недоступен) указывает на то, что сервер временно недоступен.
JavaScript и динамический контент создать отдельный класс проблем. Если сайты размещают основной контент за кодом JavaScript, который выполняется в браузере. Простые HTTP-запросы, используемые большинством сканеров AI, получают только пустой HTML без содержания. Для обработки JavaScript требуются полнофункциональные браузерные движки, которые требуют больших вычислительных ресурсов и замедляют процесс получения данных.

