Джон Мюллер из Google ответил на вопрос о llms.txt о двойном контенте и объяснил, что не имеет смысла, что он будет считаться двойным содержанием, но он также объяснил, что может иметь смысл предотвратить шаги для предотвращения индексации.
Llms.txt
Llms.txt — это предложение по созданию новых стандартов формата контента, с помощью которых крупные языковые модели могут вызвать основной контент веб -сайта, не имея никакого отношения к другим данным, таким как реклама, навигация и все остальное, что не является основным содержанием. Он предлагает веб-издателям возможность предоставить кураторскую, форматированную версией наиболее важного контента. Файл llms.txt находится на уровне STEM веб -сайта (example.com/llms.txt).
В отличие от некоторых претензий, которые были подняты через llms.txt, он никоим образом не схож по отношению к robots.txt. Цель Robots.txt — управлять поведением робота, в то время как цель LLMS.TXT — предоставить контент для больших голосовых моделей.
Будет ли Google llms.txt отобразить как двойной контент?
Кто -то из Bluesky спросил, может ли LLMS.TXT считаться двойным контентом Google, что является хорошим вопросом. Может случиться так, что кто -то за пределами веб -сайта может ссылаться на LLMS.TXT и что Google запускает этот контент, а не или в дополнение к контенту HTML.
Это вопрос спросил:
«Будет ли отображаться файлы Google LLMS.TXT в виде двойного контента? Это кажется жестким, потому что они знают, что они не являются и что это на самом деле.
Должен ли я добавить заголовок «noindex» для llms.txt для Googlebot? «
Джон Мюллер ответил на Google:
«Это будет только двойной контент, если бы содержимое HTML -страницы соответствовало бы странице HTML, что не имеет смысла (при условии, что сам файл был полезен).
Тем не менее, использование noindex для этого может иметь смысл, поскольку веб -сайты могут быть связаны с связыванием его и в противном случае индексировать то, что было бы странно для пользователей. «
Noindex для llms.txt
Использование заголовка noindex для llms.txt является хорошей идеей, поскольку это мешает контенту вводить индекс Google. Использование robot.txt для блокировки Google не требуется, поскольку Google блокирует только ползание файла, что мешает вам увидеть noindex.
Выбранная фотография Shutterstock/Krakenimages.com