В выпуске Ask An SEO на этой неделе читатель спросил:

«Есть ли какая-либо разница между тем, как системы искусственного интеллекта обрабатывают контент, отображаемый с помощью JavaScript или интерактивно скрытый контент, по сравнению с традиционным индексированием Google? Какие технические проверки могут провести оптимизаторы, чтобы подтвердить, что вся важная информация страницы доступна машинам?»

Это отличный вопрос, потому что за шумихой по поводу LLM-оптимизации стоит очень реальная техническая задача: обеспечить, чтобы ваш контент действительно был найден и прочитан LLM.

Вот уже несколько лет SEO-специалисты воодушевляются улучшениями робота Googlebot в способности сканировать и отображать страницы с большим количеством JavaScript. Однако с новыми роботами-ИИ это может оказаться не так.

В этой статье мы рассмотрим различия между двумя типами сканеров и то, как обеспечить доступность критически важного содержимого веб-страницы для обоих.

Как робот Googlebot отображает контент JavaScript?

Робот Googlebot обрабатывает JavaScript в три основных этапа: сканирование, рендеринг и индексирование. В базовом и простом объяснении каждый этап работает следующим образом:

Ползание

Робот Googlebot поставит страницы в очередь на сканирование, когда обнаружит их в Интернете. Однако не каждая страница, поставленная в очередь, будет просканирована, поскольку робот Googlebot проверит, разрешено ли сканирование. Например, он проверит, заблокировано ли сканирование страницы с помощью команды запрета в файле robots.txt.

Если страница не подлежит сканированию, робот Googlebot пропустит ее, отказываясь от HTTP-запроса. Если страница доступна для сканирования, она будет перемещена для отображения содержимого.

Рендеринг

Робот Google проверит, может ли страница быть проиндексирована, проверив отсутствие запросов на ее исключение из индекса, например, с помощью метатега noindex. Робот Googlebot поставит страницу в очередь для отображения. Рендеринг может произойти в течение нескольких секунд или может оставаться в очереди в течение более длительного периода времени. Рендеринг — это ресурсоемкий процесс, поэтому он не может быть мгновенным.

Тем временем бот получит ответ DOM; это контент, который отображается перед выполнением JavaScript. Обычно это HTML-код страницы, который будет доступен сразу после сканирования страницы.

ЧИТАТЬ  Машинное фейковое исследование приводит к цифровому инбридингу

После выполнения JavaScript робот Googlebot получит полностью созданную страницу, «рендеринг браузера».

Индексирование

Соответствующие страницы и информация будут храниться в индексе Google и доступны для использования в качестве результатов поиска в момент запроса пользователя.

Как робот Googlebot обрабатывает интерактивно скрытый контент?

Не весь контент доступен пользователям, когда они впервые попадают на страницу. Например, вам может потребоваться переходить по вкладкам, чтобы найти дополнительный контент, или развернуть аккордеон, чтобы увидеть всю информацию.

Робот Googlebot не имеет возможности переключаться между вкладками или открывать аккордеон. Поэтому важно убедиться, что он может анализировать всю информацию на странице.

Чтобы сделать это, необходимо убедиться, что информация содержится в DOM при первой загрузке страницы. Это означает, что контент может быть «скрыт от просмотра» на интерфейсе перед нажатием кнопки, но он не скрыт в коде.

Подумайте об этом так: HTML-содержимое «спрятано в коробке»; JavaScript — это ключ к открытию коробки. Если роботу Googlebot придется открыть коробку, он может не сразу увидеть это содержимое. Однако если сервер открыл ящик до того, как Googlebot запросил его, то он сможет получить доступ к этому содержимому через DOM.

Как повысить вероятность того, что робот Googlebot сможет прочитать ваш контент

Ключом к тому, чтобы робот Google мог анализировать контент, является обеспечение его доступности без необходимости обработки ботом JavaScript. Один из способов сделать это — принудительно выполнить рендеринг на самом сервере.

Рендеринг на стороне сервера — это процесс, при котором веб-страница отображается на сервере, а не в браузере. Это означает, что HTML-файл подготавливается и отправляется в браузер пользователя (или бот поисковой системы), и содержимое страницы становится доступным им без ожидания загрузки JavaScript. Это связано с тем, что сервер, по сути, создал файл, в котором уже есть содержимое; HTML и CSS доступны сразу. Между тем файлы JavaScript, хранящиеся на сервере, могут быть загружены браузером.

Это противоположность рендерингу на стороне клиента, который требует, чтобы браузер извлекал и скомпилировал JavaScript, прежде чем контент станет доступен на веб-странице. Это гораздо меньший подъем для сервера, поэтому разработчики веб-сайтов часто отдают ему предпочтение, но это означает, что ботам сложно увидеть контент на странице без предварительной обработки JavaScript.

Как боты LLM визуализируют JavaScript?

Учитывая то, что мы теперь знаем о том, как робот Googlebot отображает JavaScript, чем он отличается от ботов с искусственным интеллектом?

ЧИТАТЬ  Я не могу поверить, что эти предложения Apple в Черную пятницу все еще существуют — AirPods, Apple Watch, MacBook и многое другое.

Наиболее важным элементом, который следует понимать в отношении следующего, является то, что, в отличие от робота Googlebot, не существует «одного» руководящего органа, который представлял бы всех ботов, которые могут быть включены в категорию «боты LLM». То есть то, на что способен один бот, не обязательно будет стандартом для всех.

Боты, которые сканируют Интернет для создания баз знаний LLM, — это не то же самое, что боты, которые посещают страницу, чтобы вернуть пользователю своевременную информацию через поисковую систему.

А боты Клода не обладают такими же возможностями, как у OpenAI.

Когда мы думаем о том, как обеспечить доступ ботов ИИ к нашему контенту, нам приходится учитывать ботов с наименьшими возможностями.

Меньше известно о том, как боты LLM обрабатывают JavaScript, главным образом потому, что, в отличие от Google, боты с искусственным интеллектом не делятся этой информацией. Однако некоторые очень умные люди провели тесты, чтобы определить, как с этим справляется каждый из основных ботов LLM.

Еще в 2024 году компания Vercel опубликовала расследование в возможности рендеринга JavaScript основных ботов LLM, включая OpenAI, Anthropic, Meta, ByteDance и Perplexity. Согласно их исследованию, ни один из этих ботов не мог отображать JavaScript. Единственными, кто это сделал, были Gemini (использующий инфраструктуру Googlebot), Applebot и CCbot CommonCrawl.

Совсем недавно Гленн Гейб подтвердил выводы Верселя на собственном опыте. углубленный анализ о том, как ChatGPT, Perplexity и Claude обрабатывают JavaScript. Он также рассказывает, как протестировать ваш собственный веб-сайт в рамках LLM, чтобы увидеть, как они обрабатывают ваш контент.

Это самые известные боты от некоторых из наиболее финансируемых компаний в области искусственного интеллекта в этой области. Само собой разумеется, что если они испытывают трудности с JavaScript, то и менее финансируемые или более нишевые компании тоже будут испытывать трудности.

Как ИИ-боты обрабатывают интерактивно скрытый контент?

Нехорошо. То есть, если интерактивный контент требует выполнения JavaScript, им может быть сложно его проанализировать.

Чтобы боты могли видеть контент, скрытый за вкладками или в аккордеонах, разумно обеспечить полную загрузку контента в DOM без необходимости выполнения JavaScript. Посетители-люди по-прежнему могут взаимодействовать с контентом, чтобы раскрыть его, но ботам в этом нет необходимости.

Как проверить наличие проблем с рендерингом JavaScript

Есть два очень простых способа проверить, может ли робот Googlebot отобразить весь контент на вашей странице:

Проверьте DOM с помощью инструментов разработчика

ДОМ (Объектная модель документа) — это интерфейс веб-страницы, который представляет HTML-страницу как серию «узлов» и «объектов». По сути, он связывает исходный код HTML веб-страницы с JavaScript, что обеспечивает работу функций веб-страницы. Проще говоря, представьте себе веб-страницу как генеалогическое древо. Каждый элемент веб-страницы представляет собой «узел» дерева. Итак, тег заголовка

ЧИТАТЬ  Скрипт Google Ads, использующий GPT для написания RSA.

и тело самой страницы

все узлы генеалогического древа.

Когда браузер загружает веб-страницу, он считывает HTML и преобразует его в генеалогическое древо (DOM).

Как это проверить

Я расскажу вам об этом на примере инструментов разработчика Chrome.

Вы можете проверить DOM страницы, зайдя в браузер. В Chrome щелкните правой кнопкой мыши и выберите «Проверить». Оттуда убедитесь, что вы находитесь на вкладке «Элементы».

Чтобы узнать, виден ли контент на вашей веб-странице без необходимости выполнения JavaScript, вы можете выполнить поиск здесь. Если вы обнаружите контент полностью внутри DOM при первой загрузке страницы (и не взаимодействуете с ней в дальнейшем), то он должен быть виден роботам Googlebot и LLM.

Используйте консоль поиска Google

Чтобы проверить, виден ли контент конкретно роботу Googlebot, вы можете использовать консоль поиска Google.

Выберите страницу, которую хотите протестировать, и вставьте ее в поле «Проверить любой URL». Search Console перенаправит вас на другую страницу, где вы сможете «Проверить действующий URL». Когда вы тестируете действующую страницу, вам будет представлен другой экран, на котором вы можете выбрать «Просмотреть протестированную страницу».

Как проверить, может ли бот LLM видеть ваш контент

Согласно экспериментам Гленна Гейба, вы можете спросить самих студентов-магистров, что они могут прочитать на конкретной веб-странице. Например, вы можете предложить им прочитать текст статьи. Они ответят объяснением, если не смогут этого сделать из-за JavaScript.

Просмотр исходного HTML

Если мы стремимся к наименьшему общему знаменателю, разумно предположить, что на данный момент студенты LLM не могут читать контент в JavaScript. Чтобы убедиться, что ваш контент доступен в HTML-коде веб-страницы и боты могут получить к нему доступ, будьте абсолютно уверены, что контент вашей страницы доступен для чтения этим ботам. Убедитесь, что он находится в исходном HTML. Чтобы проверить это, вы можете зайти в Chrome и щелкнуть правой кнопкой мыши на странице. В меню выберите «Просмотреть исходный код страницы». Если вы можете «найти» текст в этом коде, вы знаете, что он находится в исходном HTML-коде страницы.

Что это значит для вашего сайта?

По сути, Googlebot разрабатывался на протяжении многих лет, чтобы гораздо лучше обрабатывать JavaScript, чем новые боты LLM. Однако очень важно понимать, что боты LLM не пытаются сканировать и отображать Интернет так же, как робот Googlebot. Не думайте, что они когда-либо попытаются имитировать поведение робота Googlebot. Не считайте их «за спиной» Googlebot. Это вообще разные звери.

Для вашего веб-сайта это означает, что вам необходимо проверить, загружает ли ваша страница всю соответствующую информацию в DOM при первой загрузке страницы, чтобы удовлетворить потребности робота Googlebot. Что касается ботов LLM, чтобы быть уверенными, что контент им доступен, проверьте свой статический HTML.

Дополнительные ресурсы:


Федеративное изображение: Пауло Бобита/Search Engine Journal



Source link