Защитник поиска Google Джон Мюллер отказался от идеи создания отдельных страниц Markdown или JSON только для больших языковых моделей (LLM), заявив, что он не понимает, зачем LLM нужны страницы, которые никто больше не видит.

Дискуссия началась, когда Лили Рэй спросила в Bluesky о «создании отдельных страниц уценки/JSON для LLM и предоставлении этих URL-адресов ботам», и может ли Google поделиться своей точкой зрения.

Рэй спросил:

Не уверен, что вы сможете ответить, но начинаю много слышать о создании отдельных страниц уценки/JSON для LLM и предоставлении этих URL-адресов ботам. Можете ли вы поделиться мнением Google по этому поводу?

Вопрос привлекает внимание к развивающейся тенденции, когда издатели создают «теневые» копии важных материалов в форматах, которые легче понять системам искусственного интеллекта.

На эту тему идет более активное обсуждение происходит на X.

Что Мюллер сказал о страницах только для LLM

Мюллер ответил что он не знает ничего со стороны Google, что потребовало бы такой установки.

Он отмечает, что LLM с самого начала работали с обычными веб-страницами:

Мне ничего не известно в этом отношении. С моей точки зрения, студенты LLM с самого начала обучались – чтению и анализу – обычным веб-страницам, и кажется само собой разумеющимся, что у них нет проблем с HTML. Зачем им видеть страницу, которую не видит ни один пользователь? И если они проверяют эквивалентность, почему бы не использовать HTML?

Когда Рэй спросил, может ли отдельный формат помочь «ускорить передачу ключевых моментов в LLM», Мюллер заявил, что если форматы файлов имеют существенное значение, вы, вероятно, услышите это непосредственно от компаний, эксплуатирующих эти системы.

ЧИТАТЬ  Тенденции Черной пятницы 2024: 6 выводов для ритейлеров и интернет-магазинов | зона Мартех

Мюллер добавил:

Если бы те, кто создает и запускает эти системы, знали, что могут получать более качественные ответы от сайтов с определенными форматами файлов, я ожидаю, что они бы очень громко заявили об этом. Компании, занимающиеся искусственным интеллектом, на самом деле не известны своей застенчивостью.

Он сказал некоторые страницы все равно могут работать лучше для систем искусственного интеллекта, чем другие, но он не думает, что это сводится к сравнению HTML с Markdown:

Тем не менее, я могу представить, что некоторые страницы работают лучше для пользователей, а некоторые — для систем искусственного интеллекта, но я сомневаюсь, что это связано с форматом файла, и его определенно нельзя обобщить на все случаи жизни. (За исключением JS, который все еще кажется сложным для многих из этих систем)».

В совокупности комментарии Мюллера показывают, что, с точки зрения Google, вам не нужно создавать клоны существующих страниц в формате Markdown или JSON только для ботов, чтобы их понимали LLM.

Как структурированные данные подходят

Другие участники ветки провели грань между спекулятивными «теневыми» форматами и случаями, когда платформы искусственного интеллекта имеют четко определенные требования к фиду.

Ответ Мэтта Райта указал на OpenAI. Фиды товаров электронной коммерции в качестве примера, когда схемы JSON имеют значение.

В этом контексте определенная спецификация определяет, как ChatGPT принимает и отображает данные о продуктах. Райт объясняет:

Интересно, что каналы продуктов электронной коммерции OpenAI уже работают: схемы JSON, похоже, уже играют ключевую роль в поиске ИИ.

Этот пример подтверждает идею о том, что структурированные каналы и схемы наиболее важны, когда платформа публикует спецификацию и просит вас ее использовать.

ЧИТАТЬ  Bing рекомендует теги LastMod для индексации поиска искусственного интеллекта

Кроме того, Райт указывает на ветку в LinkedIn, где Крис Лонг заметил что «редакционные сайты, использующие схемы продуктов, как правило, включаются в цитирование ChatGPT».

Почему это важно

Если вы задаетесь вопросом, создавать ли версии вашего контента в Markdown или JSON, «оптимизированные для LLM», этот обмен информацией может помочь вам вернуться к основам.

Комментарии Мюллера подтверждают, что студенты LLM уже давно умеют читать и анализировать стандартный HTML.

Для большинства сайтов более продуктивно продолжать улучшать скорость, читабельность и структуру контента на уже имеющихся страницах, а также внедрять схему с четким руководством по платформе.

В то же время тема Bluesky показывает, что форматы, специфичные для ИИ, начинают появляться в узких областях, таких как ленты продуктов. Их стоит отслеживать, но они связаны с явной интеграцией, а не с общим правилом, согласно которому уценка лучше для LLM.

Заглядывая в будущее

В разговоре подчеркивается, как быстро изменения в поиске, основанные на искусственном интеллекте, превращаются в технические запросы для команд SEO и разработчиков, часто еще до того, как появится документация, подтверждающая их.

Пока поставщики LLM не опубликуют более конкретные рекомендации, эта ветка указывает вам на работу, которую вы можете оправдать сегодня: держите свой HTML в чистоте, сокращайте ненужный JavaScript, когда он затрудняет анализ контента, и используйте структурированные данные там, где платформы имеют четко документированные схемы.


Рекомендованное изображение: Роман Самборский/Shutterstock





Source link