Операторы веб -сайтов по всему Интернету сообщают о повышении активности от AI Web Clawlers. Этот всплеск вызывает обеспокоенность по поводу производительности, аналитики и серверных ресурсов сайта.
Эти боты потребляют значительную полосу пропускания для сбора данных для крупных языковых моделей, что может повлиять на показатели производительности, относящиеся к рейтингу поиска.
Вот что вам нужно знать.
Содержание
Как Crawlers может повлиять на производительность сайта
Профессионалы SEO регулярно оптимизируют для традиционных сканеров в поисковых системах, но растущее присутствие игроков из таких компаний, как OpenAI, Anpropic и Amazon, представляет новые технические соображения.
Несколько операторов сайта сообщили о проблемах производительности, и увеличение нагрузки на серверы, непосредственно связанные с активностью AI Crawler.
«SourceHut продолжает столкнуться с нарушениями из -за агрессивных полей LLM». сообщается Служба git-hosting на странице статуса.
В ответ SourceHut «в одностороннем порядке заблокировал несколько облачных провайдеров, включая GCP [Google Cloud] и [Microsoft] Azure, для больших объемов трафика бота, происходящего из их сетей ».
Данные из службы облачного хостинга Вертел Показывает масштаб этого трафика: GPTBOT Openai принес 569 миллионов запросов за один месяц, в то время как Claud’s Antropic составила 370 миллионов.
Эти Clawlers AI представляли около 20 процентов объема поискового гусеника Google в течение того же периода.
Потенциальное влияние на данные аналитики
Значимый трафик бота может повлиять на данные аналитики.
В соответствии с DoubleVerifyфирма AD -метрик, «Общий недопустимый трафик — он же Givt, боты, которые не следует считать как просмотры рекламы — выросли на 86 процентов во второй половине 2024 года из -за ползания ИИ».
Фирма отметила, что «рекордные 16 процентов GIVT из известных впечатлений в 2024 году были созданы теми, которые связаны с скребками ИИ, такими как GPTBOT, Claudebot и Applebot».
Проект Read The Docs обнаружил, что блокировка Clawlers уменьшила их трафик на 75 процентов, с 800 ГБ до 200 ГБ в день, сэкономив приблизительно 1500 долларов в месяц в расходах на пропускную способность.
Идентификация узоров AI Crawler
Понимание поведения AI Crawler может помочь с анализом трафика.
То, что отличает AI -сканеров от традиционных ботов, — это их частота и глубина доступа. В то время как сканеры в поисковых системах обычно следуют предсказуемым закономерникам, Clawlers AI демонстрируют более агрессивное поведение.
Деннис Шуберт, который поддерживает инфраструктуру для социальной сети диаспоры, наблюдается Это ползание ИИ «не просто сканируют страницу один раз, а затем движутся дальше. О, нет, они возвращаются каждые 6 часов, потому что лол, почему бы и нет».
Это повторное ползание умножает потребление ресурсов, так как те же страницы доступны неоднократно без четкого обоснования.
Помимо частоты, разбрызгиватели ИИ являются более тщательными, исследуя больше контента, чем типичные посетители.
Дрю Дево, основатель SourceHut, отмеченный Эти скалеры получают доступ «каждая страница каждого журнала GIT и каждый коммит в вашем репозитории», который может быть особенно ресурсоемким для сайтов с тяжелыми контентом.
В то время как большой объем трафика возникает, выявление и управление этими сканерами представляет дополнительные проблемы.
По мере развития технологии Crawler традиционные методы блокировки оказываются все более неэффективными.
Разработчик программного обеспечения XE ISO отмеченный«Бесполезно блокировать ботов AI Crawler, потому что они лгут, меняют своего пользовательского агента, используют жилые IP -адреса в качестве прокси и многое другое».
Баланс видимости с управлением ресурсами
Владельцы веб-сайтов и специалисты SEO сталкиваются с практическим рассмотрением: управление ресурс-интенсивными сканерами при сохранении видимости для законных поисковых систем.
Чтобы определить, существенно влияют ли на ваш сайт AI Clawlers:
- Просмотреть журналы серверов на предмет необычных шаблонов трафика, особенно из облачных провайдеров IP -диапазонов
- Ищите шипы в использовании полосы пропускания, которые не соответствуют активности пользователя
- Проверьте наличие высокого трафика на страницы с интенсивным ресурсом, такие как архивы или конечные точки API
- Мониторинг необычных паттернов в ваших основных показателях веб -Vitals
Несколько вариантов доступны для тех, кто затрагивает чрезмерный трафик AI.
Google представил решение, называемое Google-Exted в файле robots.txt. Это позволяет веб -сайтам прекращать использование своего контента для обучения Google Gemini и Vertex AI службы, в то же время позволяя этим сайтам отображаться в результатах поиска.
Cloudflare недавно объявлено «Ай Лабиринт,-объясняя,-когда мы обнаружим несанкционированное ползание, а не блокируя запрос, мы свяжемся с серией страниц, созданных AI, которые достаточно убедительны, чтобы соблазнить гусеница, чтобы пройти их».
Глядя в будущее
Поскольку ИИ интегрируется в поиск и открытие, специалисты SEO должны тщательно управлять сканерами.
Вот несколько практических следующих шагов:
- Журналы сервера аудита для оценки воздействия на Clawler AI на ваши конкретные сайты
- Рассмотрите возможность реализации Google-расширенного в robots.txt для поддержания видимости поиска при ограничении доступа к обучению искусственного интеллекта
- Регулируйте аналитические фильтры, чтобы разделить трафик бота для более точной отчетности
- На участках с тяжелыми пострадавшими исследуйте более продвинутые варианты смягчения последствий
Большинство веб -сайтов будут отличаться со стандартными файлами robots.txt и мониторингом. Тем не менее, сайты с высоким трафиком могут извлечь выгоду из более продвинутых решений.
Показанное изображение: Lightspring/Shutterstock