Пятница, 14 марта 2025 г.

С помощью файла robots.txt владельцы сайтов имеют простой способ контролировать, какие части веб -сайта доступны для Crawlers. Чтобы помочь владельцам сайтов еще более выразить, как поисковые системы и веб -сканеры могут использовать свои страницы, сообщество, участвующее в разработке веб -стандартов
придумал роботов meta Теги в 1996 годувсего через несколько месяцев после meta Теги были предложены для HTML (и анекдотично, также до того, как Google был основан). Позже,
X-Robots-Tag

Заголовки ответов HTTP были добавлены. Эти инструкции отправляются вместе с URL, поэтому сканеры могут принять их во внимание только в том случае, если они не запрещены ползание URL -адреса через файл robots.txt. Вместе они образуют протокол исключения роботов (Rep).

Метатеги (или элементы) это способ включить машиночитаемые метаданные. Роботы meta теги — один из «вида» meta Теги и применить к сканерам, включая сканеров поисковых систем. Они сигнализируют: заблокирован ли содержание от индексации? Должны ли ссылки на странице не соблюдаться для ползания? Легко дать эту информацию напрямую на странице с роботами meta теги.

Протокол исключения роботов для любого URL

Чтобы дать такой же уровень контроля не HTML-контенту, «X-Robots-Tag«Был создан заголовок ответа HTTP. Это
HTTP заголовки
считаются частью представителя. Заголовок поддерживает те же значения, что и роботы meta тег, и может быть добавлен в любой кусок контента, который обслуживается в Интернете. Помимо HTML, Google поддерживает его для такого контента, как PDFS, файлы документов и даже изображения. Большинство из этих форматов файлов не имеют механизма, эквивалентного meta Теги, поэтому полезный заголовок ответа HTTP.

ЧИТАТЬ  Генерация ответов Google SGE AI теперь обходится на 80 % дешевле

Синтаксис прост и расширяется. Правила, как правило, либо реализуются веб-разработчиком, либо через систему управления контентом (CMS), где владельцы сайтов могут иметь флажки или раскрывающиеся меню для выбора своих предпочтений. Эти элементы управления могут обращаться к конкретному густо, такому как Googlebot или, пропуская конкретное имя, обращаются к всем скалерам, которые поддерживают эти значения.

Например, следующие правила сообщают всем скалерам не использовать связанную страницу для индексации:

  • В форме HTML meta тег, на веб -странице:

    Глядя на существующее meta Теги или заголовки ответов немного более вовлечены и требуют прямого проверки содержания страниц или заголовков. Вы можете просмотреть HTML
    meta Теги на любой странице либо просматривают источник страницы в вашем браузере, либо используя инструменты разработчика Chrome для
    Осмотрите страницуПолем

  • В форме Заголовок ответа http:

    X-Robots-Tag: noindex

    Вы можете проверить заголовки ответов HTTP для отдельных URL -адресов с инструментами разработчика Chrome, в
    сетевая панельПолем

Другие примеры того, что вы можете сделать:

Не показывайте фрагмент для этой страницы или документа.

В заголовке http:

X-Robots-Tag: nosnippet

или в HTML:

Не индексируйте эту страницу в ExampleBot-Newsбез указания предпочтения другим.

Эти элементы управления явно указывают один густо.

X-Robots-Tag: examplebot-news: noindex

или

ExampleBot не следует показывать фрагмент, и, кроме того, все сканеры не должны перемещаться по ссылкам на этой странице.

Обратите внимание, что применяются наиболее ограничительные, действительные директивы, поэтому для ExampleBot Директива будет объединена как «nosnippet, nofollow«.

X-Robots-Tag: examplebot: nosnippet
X-Robots-Tag: nofollow

или


Выбор механизма повторения

Как вы выбираете, какой из них использовать? Фундаментально robots.txt и элементы управления на уровне страниц схожи, но не совсем взаимозаменяемы. Иногда существует конкретное действие, которое возможна только с одним из механизмов, например, если желательно остановить акт ползания (например, для бесконечных страниц результатов поиска, возможно с Robots.txt), если вам нужен элемент управления для FTP-сервера (возможно с Robots.txt), или если он не желает, чтобы не было, показано на странице (которая является лишь возможным со счетами). Если вам не нужно различать блокирование ползания и блокировки индексации, одним из подходов является использование robots.txt для более широких элементов управления (для блокировки больших частей веб-сайта) и элементов управления на уровне страниц для блокировки отдельных страниц.

Протокол исключения роботов — мощный, живой стандарт

Все эти элементы управления расширяются по своей природе. За прошедшие годы владельцы сайтов, лихорадочные операторы и поисковые системы работали вместе, чтобы развивать их. Исторически это начиналось с нескольких ценностей, включая noindex и nofollowзатем позже на большее количество значений, таких как
nosnippetВ noarchiveи max-snippet: были приняты. И иногда значения устарели, как и в случае с noodpкоторый использовал фрагменты из
DMOZ / Open Directory Project
до того, как каталог был закрыт. Существует множество значений, поддерживаемых Google для владельцев сайтов, и аналогичная сумма от других крупных операторов Crawler.

Под зонтиком представителя владельцы сайтов контролируют то, что ползают, и как ползанные данные используются в поисковых системах. Они могут сделать это на широком уровне для больших частей веб -сайтов или на очень детальном уровне для отдельных страниц, даже для изображений на страницах. Эти элементы управления хорошо известны, доступны во всех общих системах управления контентом, широко поддерживаемыми коммерческими операторами, и используются на миллиардах хостов в Интернете сегодня.


Проверьте остальную серию Robots Replesher:



Source link

ЧИТАТЬ  10 стартапов, возглавляемых женщинами, в странах Ближнего Востока и Северной Африки присоединяются к нашей новой программе искусственного интеллекта