Microsoft имеет поделился новым руководством о дублированном контенте, предназначенном для поиска с помощью искусственного интеллекта.
В сообщении в блоге веб-мастеров Bing обсуждается, какой URL-адрес служит «исходной страницей» для ответов ИИ, когда существует несколько похожих URL-адресов.
Microsoft описывает, как «почти повторяющиеся» страницы могут в конечном итоге группироваться для систем ИИ и как эта группировка может влиять на то, какой URL-адрес будет включен в сводки ИИ.
Содержание
Как системы искусственного интеллекта обрабатывают дубликаты
Фабрис Канель и Кришна Мадхаван, главные менеджеры по продуктам Microsoft AI, написали:
«LLM группируют почти повторяющиеся URL-адреса в один кластер, а затем выбирают одну страницу для представления набора. Если различия между страницами минимальны, модель может выбрать устаревшую версию или не ту, которую вы намеревались выделить».
Если несколько страниц взаимозаменяемы, репрезентативной страницей может быть старый URL-адрес кампании, версия параметра или региональная страница, которую вы не собирались продвигать.
Microsoft также отмечает, что многие программы LLM основаны на поисковых индексах. Если индекс засорен дубликатами, та же самая двусмысленность может проявиться в ответах ИИ.
Как дубликаты могут снизить видимость ИИ
Microsoft предлагает несколько способов, которыми может помешать дублирование.
Одним из них является ясность намерения. Если несколько страниц посвящены одной и той же теме с почти идентичным текстом, заголовками и метаданными, труднее определить, какой URL-адрес лучше всего соответствует запросу. Даже когда «правильная» страница проиндексирована, сигналы делятся на похожие.
Другое дело — представительство. Если страницы кластеризованы, вы фактически конкурируете сами с собой за то, какая версия соответствует группе.
Microsoft также проводит грань между реальной дифференциацией страниц и косметическими вариантами. Набор страниц может иметь смысл, если каждая из них удовлетворяет определенную потребность. Но когда страницы отличаются лишь незначительными изменениями, они могут не нести достаточно уникальных сигналов для систем искусственного интеллекта, чтобы рассматривать их как отдельных кандидатов.
Наконец, Microsoft связывает дублирование с задержкой обновления. Если сканеры тратят время на повторное посещение избыточных URL-адресов, изменения на странице, которая вас действительно интересует, могут занять больше времени, чтобы появиться в системах, которые полагаются на свежие сигналы индекса.
Связанный: Google может рассматривать веб-страницы как дубликаты, если URL-адреса слишком похожи
Категории дублированного контента
В руководстве упоминаются несколько рецидивистов.
Синдикация – это одно. Когда одна и та же статья появляется на разных сайтах, идентичные копии могут затруднить идентификацию оригинала. Microsoft рекомендует просить партнеров использовать канонические теги, указывающие на исходный URL-адрес, и по возможности использовать отрывки вместо полных перепечаток.
Страницы кампании — другое. Если вы запускаете несколько версий, преследующих одну и ту же цель и незначительно отличающихся друг от друга, Microsoft рекомендует выбрать основную страницу, которая собирает ссылки и взаимодействие, затем использовать канонические теги для вариантов и объединить старые страницы, которые больше не служат определенной цели.
Локализация происходит таким же образом. Почти идентичные региональные страницы могут выглядеть дубликатами, если они не содержат существенных различий. Microsoft предлагает провести локализацию с действительно важными изменениями, такими как терминология, примеры, правила или сведения о продукте.
Тогда есть технические дубликаты. В руководстве перечислены распространенные причины, такие как параметры URL-адреса, версии HTTP и HTTPS, URL-адреса в верхнем и нижнем регистре, косая черта в конце, версии для печати и общедоступные промежуточные страницы.
См. также: Microsoft объясняет, как оптимизировать контент для видимости поиска AI
Роль IndexNow
Microsoft указывает на IndexNow как на способ сократить цикл очистки после консолидации URL-адресов.
Когда вы объединяете страницы, меняете каноны или удаляете дубликаты, IndexNow может помочь участвующим поисковым системам обнаружить эти изменения раньше. Microsoft связывает это более быстрое обнаружение с меньшим количеством устаревших URL-адресов, остающихся в результатах, а также с меньшим количеством случаев, когда старый дубликат становится страницей, используемой в ответах ИИ.
Основной принцип Microsoft
Канель и Мадхаван писали:
«Когда вы уменьшаете количество перекрывающихся страниц и разрешаете одной авторитетной версии передавать ваши сигналы, поисковые системы смогут более уверенно понять ваши намерения и выбрать правильный URL-адрес для представления вашего контента».
Идея заключается в том, что сначала консолидация, а затем технические сигналы. Канонические символы, перенаправления, hreflang и IndexNow помогают, но они работают лучше всего, когда вы не поддерживаете длинный хвост почти идентичных страниц.
Почему это важно
Дублированный контент сам по себе не является наказанием. Обратной стороной является более слабая видимость, когда сигналы размыты, а намерения неясны.
Синдицированные статьи могут продолжать превосходить оригинал, если канонические статьи отсутствуют или противоречивы. Варианты кампании могут поглотить друг друга, если «различия» в основном косметические. Региональные страницы могут смешиваться друг с другом, если они явно не отвечают различным потребностям.
Регулярные проверки могут помочь вам выявить дублирование на ранней стадии. Microsoft указывает на инструменты Bing для веб-мастеров как на способ выявить такие закономерности, как идентичные заголовки и другие индикаторы дублирования.
Заглядывая в будущее
Поскольку ответы ИИ становятся все более распространенной точкой входа, проблему «какой URL представляет эту тему» становится все труднее игнорировать.
Удаление дубликатов может повлиять на то, какая версия вашего контента будет показана, когда системе искусственного интеллекта потребуется одна страница для обоснования ответа.

