Пятница, 14 марта 2025 г.
С помощью файла robots.txt владельцы сайтов имеют простой способ контролировать, какие части веб -сайта доступны для Crawlers. Чтобы помочь владельцам сайтов еще более выразить, как поисковые системы и веб -сканеры могут использовать свои страницы, сообщество, участвующее в разработке веб -стандартов
придумал роботов meta
Теги в 1996 годувсего через несколько месяцев после meta
Теги были предложены для HTML (и анекдотично, также до того, как Google был основан). Позже,
X-Robots-Tag
Заголовки ответов HTTP были добавлены. Эти инструкции отправляются вместе с URL, поэтому сканеры могут принять их во внимание только в том случае, если они не запрещены ползание URL -адреса через файл robots.txt. Вместе они образуют протокол исключения роботов (Rep).
Метатеги (или элементы) это способ включить машиночитаемые метаданные. Роботы meta
теги — один из «вида» meta
Теги и применить к сканерам, включая сканеров поисковых систем. Они сигнализируют: заблокирован ли содержание от индексации? Должны ли ссылки на странице не соблюдаться для ползания? Легко дать эту информацию напрямую на странице с роботами meta
теги.
Содержание
Протокол исключения роботов для любого URL
Чтобы дать такой же уровень контроля не HTML-контенту, «X-Robots-Tag
«Был создан заголовок ответа HTTP. Это
HTTP заголовки
считаются частью представителя. Заголовок поддерживает те же значения, что и роботы meta
тег, и может быть добавлен в любой кусок контента, который обслуживается в Интернете. Помимо HTML, Google поддерживает его для такого контента, как PDFS, файлы документов и даже изображения. Большинство из этих форматов файлов не имеют механизма, эквивалентного meta
Теги, поэтому полезный заголовок ответа HTTP.
Синтаксис прост и расширяется. Правила, как правило, либо реализуются веб-разработчиком, либо через систему управления контентом (CMS), где владельцы сайтов могут иметь флажки или раскрывающиеся меню для выбора своих предпочтений. Эти элементы управления могут обращаться к конкретному густо, такому как Googlebot или, пропуская конкретное имя, обращаются к всем скалерам, которые поддерживают эти значения.
Например, следующие правила сообщают всем скалерам не использовать связанную страницу для индексации:
- В форме HTML
meta
тег, на веб -странице:Глядя на существующее
meta
Теги или заголовки ответов немного более вовлечены и требуют прямого проверки содержания страниц или заголовков. Вы можете просмотреть HTML
meta
Теги на любой странице либо просматривают источник страницы в вашем браузере, либо используя инструменты разработчика Chrome для
Осмотрите страницуПолем - В форме Заголовок ответа http:
X-Robots-Tag: noindex
Вы можете проверить заголовки ответов HTTP для отдельных URL -адресов с инструментами разработчика Chrome, в
сетевая панельПолем
Другие примеры того, что вы можете сделать:
Не показывайте фрагмент для этой страницы или документа. | В заголовке http: X-Robots-Tag: nosnippet или в HTML:
|
Не индексируйте эту страницу в Эти элементы управления явно указывают один густо. | X-Robots-Tag: examplebot-news: noindex или
|
Обратите внимание, что применяются наиболее ограничительные, действительные директивы, поэтому для | X-Robots-Tag: examplebot: nosnippet X-Robots-Tag: nofollow или
|
Выбор механизма повторения
Как вы выбираете, какой из них использовать? Фундаментально robots.txt и элементы управления на уровне страниц схожи, но не совсем взаимозаменяемы. Иногда существует конкретное действие, которое возможна только с одним из механизмов, например, если желательно остановить акт ползания (например, для бесконечных страниц результатов поиска, возможно с Robots.txt), если вам нужен элемент управления для FTP-сервера (возможно с Robots.txt), или если он не желает, чтобы не было, показано на странице (которая является лишь возможным со счетами). Если вам не нужно различать блокирование ползания и блокировки индексации, одним из подходов является использование robots.txt для более широких элементов управления (для блокировки больших частей веб-сайта) и элементов управления на уровне страниц для блокировки отдельных страниц.
Протокол исключения роботов — мощный, живой стандарт
Все эти элементы управления расширяются по своей природе. За прошедшие годы владельцы сайтов, лихорадочные операторы и поисковые системы работали вместе, чтобы развивать их. Исторически это начиналось с нескольких ценностей, включая noindex
и nofollow
затем позже на большее количество значений, таких как
nosnippet
В noarchive
и max-snippet:
были приняты. И иногда значения устарели, как и в случае с noodp
который использовал фрагменты из
DMOZ / Open Directory Project
до того, как каталог был закрыт. Существует множество значений, поддерживаемых Google для владельцев сайтов, и аналогичная сумма от других крупных операторов Crawler.
Под зонтиком представителя владельцы сайтов контролируют то, что ползают, и как ползанные данные используются в поисковых системах. Они могут сделать это на широком уровне для больших частей веб -сайтов или на очень детальном уровне для отдельных страниц, даже для изображений на страницах. Эти элементы управления хорошо известны, доступны во всех общих системах управления контентом, широко поддерживаемыми коммерческими операторами, и используются на миллиардах хостов в Интернете сегодня.
Проверьте остальную серию Robots Replesher: