Такие помощники искусственного интеллекта, как Chatgpt и Claude, могут галлюцинировать URL -адреса и направлять посетителей на несуществующие страницы на вашем сайте. Но как часто это происходит?
Чтобы выяснить, мы изучили статус HTTP в 16 миллионов уникальных URL -адресов, цитируемых Chatgpt, Nearploexity, Copilot, Gemini, Claude и Mistral.
Мы обнаружили, что помощники ИИ отправляют посетителей на 404 страниц 2,87 раза чаще этот поиск в Google.
CHATGPT является крупнейшим правонарушителем, с 1,01% щелчковых URL -адресов и 2,38% всех упомянутых URL -адресов, которые возвращают статус 404 (по сравнению с основными показателями 404 0,15% и 0,84% соответственно).
Вот что мы нашли:
Для первого теста мы использовали анонимные данные из нашего бесплатного инструмента анализа, Веб -аналитика. Это позволило нам увидеть фактические посещения URL -адреса, рекомендованные ИИ на реальных сайтах.
Вот методология:
- Мы использовали данные веб -анализа, чтобы найти все URL -адреса с помощью AI Assistant (например, CHATGPT или недоумение) в качестве ссылки.
- Мы пометили URL как возможную страницу 404, если заголовок страницы содержал либо «404», либо предложение «не найдено».
- Для каждого помощника ИИ мы сравнили число 404 возможных страниц с общим количеством эталонных URL, чтобы найти их 404 ставки.
CHATGPT имеет самый высокий показатель 404 страниц, причем 1,01% от всего упомянутого URL, содержащего «404» или «не найден» в заголовке их страницы.
Claude следует с 0,58%URL -адресов, за которыми следуют Co -Pilot (0,34%), недоумение (0,31%) и Близнецы (0,21%). У Мистрала самая низкая 404 (0,12%), но также посылает более низкое количество эталонного трафика, что делает его наименьшим образцом этого теста.
Референт | Вероятно, 404 страницы | Общий уникальный URL | 404 ставка |
---|---|---|---|
Кот | 84465 | 8332436 | 1,01% |
Недоумение | 3529 | 1133084 | 0,31% |
Co -pilot | 1466 | 431319 | 0,34% |
Близнецы | 734 | 351242 | 0,21% |
Клод | 550 | 95293 | 0,58% |
Мистраль | 8 | 6760 | 0,12% |
Основная 404 ставка Google
Это не идеальный тест. Около 404 страниц могут не включать «404» или «не найдено» в заголовке страницы. И все связанные ссылки помощникам ИИ будут получать клики (и поэтому не будут отображаться в данных веб -анализа), следовательно, вполне вероятно, что мы недооценим общее количество галлюцинированных URL -адресов.
Определенная доля этих 404 страниц также может быть реальной 404 -страницами, а не галлюцинированными URL. Мы можем добавить дополнительный контекст в эти данные, сравнивая с 404 -страничной «базовой скоростью». Для этого мы изучили 404 ставки для всех уникальных URL -адресов с Google в качестве ссылки (629 м уникального URL). Эта ставка 404 составила 0,15%.
С помощью этого дополнительного контекста очевидно, что 404 ставки помощников ИИ намного выше, чем 404 «базовая» ставка для Google. Кажется вероятным, что CHATGPT, CLAUDE, COPILOT, NERPLEXITY и GEMINI создают галлюцинированный URL.
Средняя ставка 404 для всех помощников по искусственному интеллекту составила 0,43%. По сравнению с показателем URL 404, упомянутой Google, помощники искусственного интеллекта отправляют посетителей на 404 страниц на 2.87x ставка поиска в Google (0.43/0.15
)
Мы также провели аналогичный тест, используя Brand Radar, наша база данных, доступная из миллионов гостей и помощников по искусственному интеллекту. Используя эти данные, мы можем увидеть все URL -адреса, которые цитируются помощниками искусственного интеллекта, и не только тех, кто получил щелчок.
- Мы нашли все URL -адреса, цитируемые CHATGPT, смущением, копилотом и Близнецами в наших радиолокационных базах данных.
- Для URL -адресов, также хранящихся в нашей базе данных Crawler (65% от общего количества URL), мы восстановили самый последний статус HTTP.
- Для каждого помощника искусственного интеллекта мы рассчитали 404 URL -скорость, упомянутую в нашей базе данных робота.
404 URL -скорость (и не только цитируется И URL Clicked) намного выше, чем в нашем предыдущем тесте.
Опять же, CHATGPT имеет самый высокий уровень 404 страниц (2,38%), за которыми следуют недоумение (0,87%) и геминиты (0,86%) в тесном наследстве. Копилот имеет самую низкую 404 показателя на 0,54%.
Этот тест также имеет ограничения. Как и прежде, ряд из этих 404 страниц сделает статус 404 по причине, отличной от галлюцинации. Мы также недооцениваем общее количество 404 URL, потому что мы можем видеть только статус HTTP только для URL -адресов, которые находятся в нашей базе данных Caterpillar (и я ожидал, что достойный процент галлюцинированных URL будет отсутствовать в нашей базе данных роботов, потому что они никогда не существовали).
Как и прежде, мы хотели сравнить эти цифры с 404 «базой». Для этого мы извлекли все уникальные URL -адреса из первых 20 позиций 400 000 SERP.
67% этих URL также появились в нашей базе данных роботов, что позволяет нам определить скорость 404 0,84%. (Или с точки зрения просто, 0,84% URL -адресов в первых 20 Google обращаются к статусу 404.)
404 показатели недоумения (0,87%) и Близнецы (0,86%) очень близки к уровню 404 для Google Serps (0,84%).
Это может быть связано с тем, что Близнецы и недоумение используют индекс поиска Google для восстановления URL: их 404 ставки отражают скорость URL 404 в базовом источнике, Google. Если это так, кажется вероятным, что они имеют более низкий уровень галлюцинации, чем CHATGPT.
Copilot использует индекс поиска Bing, поэтому возможно, что скорость 404 Copilot отражает скорость BING 404.
У вас есть помощник | Уникальный URL | URL в DB Crawler | 404 ставка |
---|---|---|---|
Кот | 2452 776 | 1524 277 | 2,38% |
Недоумение | 3471 754 | 2450 016 | 0,87% |
Co -pilot | 1485 355 | 1120,780 | 0,54% |
Близнецы | 1 354 171 | 641 603 | 0,86% |
Я подозреваю, что есть две основные причины галлюцинированных ссылок.
Часть указанного URL использовал Чтобы быть действительным, но теперь верните статус 404. Помощники ИИ используют комбинацию веб -поиска и их собственные внутренние знания. Некоторые из URL -адресов могли существовать в какой -то момент, но с тех пор были удалены или перемещены (без перенаправить исходную страницу) — в частности, когда она основана исключительно на внутренних знаниях.
(Это также объясняет, почему в нашей базе данных Crawler существует большое количество этих 404 страниц.)
Другая часть указанного URL -адреса — это настоящие галлюцинации, в том смысле, что они соответствуют ожидаемой модели URL для данного веб -сайта, но на самом деле не существуют.
Для блога Ahrefs наиболее часто посещаемыми галлюцинированными URL -адресами являются страницы, такие как /blog/internal-links/
И /blog/newsletter/
Полем Поскольку мы пишем по ссылке в нашем блоге и о том, что у нас есть информационный бюллетень, эти URL -адреса соответствуют модели типичных страниц блога AHREFS, но они на самом деле не существуют.
Некоторые из этих галлюцинированных ссылок также могут присутствовать в нашей базе данных Crawler. Если контент, генерируемый AI-AI, содержит галлюцинированный URL, наш тендерный робот попытается его восстановить. С 74% новых веб -страниц, содержащих определенное количество контента, генерируемого ИИ, это кажется очень возможным.
Если вы хотите измерить влияние галлюцинированных URL -адресов, лучшим источником данных является ваш собственный анализ веб -сайта. Вот как проверить это для себя:
1 и 1 Отфильтруйте свой веб -сайт Analytics для отображения трафика искусственного интеллекта
Начните с фильтрации анализа вашего сайта, чтобы показать посещения, полученные от помощников искусственного интеллекта. Если вы используете GA4, вам нужно будет применить регулярное выражение для измерения источника сеанса в отчете о разведке.
Тьерри Нготе в соль. Рекомендует следующую регуляцию. Вам придется обновить выражение, когда появятся новые помощники искусственного интеллекта, или они изменят свою справочную информацию:
.*gpt.*|.*chatgpt.*|.*openai.*|.*writesonic.*|.*nimble.*|.*perplexity.*|.*claude.*|.*gemini.*google.*|.*copilot.*microsoft*|.*outrider.*|.*google.*bard.*|.*bard.*google.*|.*bard.*|.*deepseek.*|.*mistral.*|.*edgeservices.*|.*neeva.*
Если вы используете веб -анализ AHREFS, просто используйте интегрированный канал «Исследование ИИ»:
Выберите период времени, который вы заинтересованы, и экспортируйте свои данные в Google Sheets.
2. Сгенерировать сценарий приложения для возврата условия HTTP
Затем попросите Chatgpt (или ваш помощник по выбору ИИ) создать сценарий приложений, чтобы вернуть состояние HTTP для URL -адресов в листе Google. Затем, в вашем листе Google, доступ Расширения> Сценарий приложенияИ клейте и сохраните свой сценарий.
Создайте новый столбец в своем листе Google, вызовите свой скрипт, нацелитесь на ячейку, содержащую ваш URL (например, Gethttpstatus (A2)) и примените ко всему столбцу.
(Это может занять некоторое время, если у вас есть тысячи URL -адресов — для больших сайтов, вместо этого было бы лучше использовать робота.)
3 и 3 Фильтр со статусом 404 и> 10 посетителей
Затем отфильтруйте свой лист, чтобы отобразить только URL -адреса, возвращающие код состояния 404 И Получить посетителей.
Я установил порог на URL -адресах, получающих более 10 посетителей в месяц, но вы можете использовать порог направления для вашего сайта.
Вы можете вручную осмотреть некоторые из этих URL, чтобы подтвердить, что они галлюцинированы (и никаких реальных страниц веб -сайта, которые не доступны по другой причине).
4 301 перенаправление (если это имеет смысл)
Если у вас есть галлюцинированные страницы, получающие большое количество посещений, это может стоить 301 перенаправление галлюцинированного URL на соответствующую страницу на вашем веб -сайте (если у вас есть).
Вам придется догадаться, какая галлюцинированная страница была в состоянии, но часто только URL будет достаточным, чтобы сделать образованное предположение (посетители галлюцинированного URL /blog/keywords/
вероятно, выиграет от нашего реального исследовательского руководства по ключевым словам).
Или, если вы не хотите создавать Rediection 301 Spider, вы можете обновить свою страницу 404, чтобы включить полезный список ресурсов, которые разочарованные посетители LLM могут найти полезным (например, ваш самый популярный контент или страница подписки на рассылку).
Мне это заботиться?
К нашей последней мере, помощники AIA (в основном The Chatppt) приняли во внимание 0,25% от общего трафика на веб -сайте против Google — 39,35%. В связи с тем, что 1,01% от трафика рефералов CHATGPT, приводящего к 404 странице, галлюцинированные URL -адреса оказывают влияние на небольшой процент от процента, уже находящихся на низком уровне от трафика среднего веб -сайта.
Это полезное упражнение, чтобы понять еще одну особенность поиска ИИ, но оно не представляет огромного рычага роста. Если вы можете минимизировать влияние галлюцинированных URL -адресов с очень мало усилийЭто, вероятно, того стоит.
По этой причине мы собираемся добавить новый фильтр в веб -анализ, который поможет вам найти галлюцинированные URL -адреса в двух кликах. Если вы ищете простую альтернативу Google Analytics, бесплатно на миллион событий в месяц, проверьте это:
Вопросы или комментарии об этом исследовании? Дайте мне знать о LinkedInПолем