Метатеги Robots и X-Robots для ручного управления индексацией страниц. • Продвижение Web 2.0

Мы объясним, что такое теги Robots и X-Robots, чем они отличаются от robots.txt и как их использовать.

Метатеги robots и x-robots нужны, чтобы сообщить поисковому роботу, как индексировать страницу. С их помощью вы можете открыть или закрыть страницу для индексации, а также разрешить или запретить роботам переход по ссылкам.

Поисковый робот или сканер сканирует сайт, автоматически переходит по доступным ссылкам, анализирует содержимое страницы и передает данные на сервер поисковой системы, после чего дополняет результаты. На несканируемую страницу можно попасть только по прямой ссылке. Инструкции по индексированию сайта записаны в файле robots.txt.

Содержание

1 Метатег robots и файл robots.txt – в чем разница?
2 Мета-теги сканера и инструкции к ним
3 Мета-теги роботов
4 День X-роботов

Метатег robots и файл robots.txt – в чем разница?

Файл robots.txt находится в корне веб-сайта, и сканеры начинают сканировать страницы оттуда. Он содержит информацию о том, какие страницы следует индексировать, а какие нет. Помимо отдельных страниц, файл содержит инструкции по индексации отдельных фрагментов: текстов, изображений, фрагментов.

Статья по теме: Как создать robots.txt самостоятельно

Мета-теги — это строки кода гипертекстовой разметки внутри файла, которые управляют индексацией отдельных страниц. В отличие от robots.txt, они имеют ограниченную область применения.

Метатег x-robots-tag также используется для управления индексацией, но он используется в заголовках HTTP-ответов, а не в HTML-коде страницы. Это позволяет вам управлять индексированием даже файлов, отличных от HTML, таких как PDF-файлы или изображения.

Мета-теги сканера и инструкции к ним

Принцип работы краулеров одинаков для всех поисковых систем: они индексируют страницы и включают их в результаты поиска. Использование метатегов и внутренней разметки кода для Яндекса и Google будет разным. Обе системы для настройки индексации страниц используют два основных метатега, каждый из которых выполняет свою функцию:

Робот – определение правил загрузки и индексации сайта в HTML-коде конкретной страницы в элементе head;
Тег X-Robots — установка HTTP-заголовка для определенного URL-адреса.

Инструкция написана в исходном коде метатега. Он определяет, что вы хотите сказать поисковым роботам. Для обоих тегов доступны следующие значения директив:

ЧИТАТЬ Вы приземлились - Disney's Star Wars BDX -Droid Stripes СЕЙЧАС в Disney World

Значения политики роботов для Яндекса

У Google есть инструкции, которых нет в исходном коде Яндекса:

Nositelinkssearchbox – убирает окно поиска по сайту из результатов;
индексифембедд — Индексирование контента, встроенного с помощью тега Inframes или его эквивалента; применяется только в сочетании с noindex;
максимальный фрагмент: [число] — Ограничение количества символов в тексте, отображаемом в результатах; 0 – не содержит фрагментов для отображения (аналог nosnippet), -1 – Google самостоятельно подбирает оптимальную длину фрагмента;
максимальный предварительный просмотр изображения: [setting] — максимальный размер изображения в результатах поиска для этой страницы; нет – нет изображения; Стандарт – стандартный размер; большой – больше стандартного;
максимальный превью видео: [число] — ограничить длительность видеофрагмента в секундах; 0 – статичное изображение согласно настройкам Max Image Preview; -1 – нет ограничений;
нет перевода – запрещает перевод страницы в результатах поиска; Если вы не установите эту директиву, в результатах будут появляться фрагменты ответов на другом языке.
noimageindex — Запрет на индексацию изображений;
недоступно_кому: [date/time] — запрет на индексацию через определенный период времени.

Мета-теги роботов

В обеих поисковых системах теги имеют одинаковую структуру:

Структура метатега робота — Пример структуры метатега роботов

Все необходимые инструкции записываются в значение контента. Вы можете одновременно использовать несколько операторов, разделенных запятыми.

Директивы разрешений =all включены по умолчанию. Поэтому если других задач нет, то значение указывать не нужно. Если вы используете оба типа инструкций вместе с запретами, разрешающие инструкции имеют приоритет. Например:

Если вы хотите запретить индексацию только для роботов Яндекса, это указывается в элементе name:

 <meta name= “yandex” content= “noindex” />

Код с несколькими операторами имеет свою собственную логику:

контент = «noindex», «подписаться»/> — Роботам запрещено индексировать страницы, но разрешено переходить по ссылкам.
контент = «noindex», «nofollow»/> — Роботы не могут проиндексировать всю страницу, включая ссылки. Вы заходите на сайт только для того, чтобы проверить, есть ли запрет на индексацию.
содержание = «индекс», «подписаться»/> — Роботы могут индексировать весь сайт.

ЧИТАТЬ Yelp подает в суд на Google за доминирование в локальном поиске

Google также позволяет блокировать доступ к другим роботам-алгоритмам. Настройки по умолчанию применяются к поисковым роботам Googlebot. Чтобы исключить такие сайты, как AdsBot, из сканирования, код должен выглядеть следующим образом:

<meta name="AdsBot-Google" content="noindex">

Для настроек на уровне текста вам необходимо добавить атрибут data-nosnippet в HTML-код.

Это значит, что отдельные фрагменты текста можно целенаправленно удалять или добавлять в результаты поиска. Атрибут является логическим и поэтому может быть указан без значения. Например:

<p>Пример текста из сниппета, который можно показывать
<span data-nosnippet>но только не эту часть, пожалуйста</span></p>
<div data-nosnippet>и не эту</div>
<div data-nosnippet="true">и не эту тоже</div>
<div>

Все части HTML-кода должны иметь закрывающие теги и правильную лексику, поэтому работа с метатегами является частью базового уровня работы по поисковой оптимизации сайта. Неправильное применение может привести к проблемам с отображением нужных страниц в результатах поиска или появлению в них ненужных страниц. Использование тега «Роботы» особенно важно при продвижении крупных сайтов с большим количеством страниц. Он позволяет исключить из индексации все технические страницы и вообще всю информацию, не связанную с контентом, отображаемым в результатах поиска. А с помощью расширенных настроек инструкций Google можно удалить из поиска фрагменты текста, изображения и даже переводы страниц.

Метатеги роботов также используются на этапе разработки для предотвращения непреднамеренного раскрытия данных и удаления дубликатов, незавершенных материалов или служебных сообщений.

День X-роботов

К заголовкам метатегов применяются те же правила, что и к файлам robots. Яндекс поддерживает для этого меньше инструкций. Не включены:

нойача;
индекс [follow] Архив;
все.

Их можно добавлять в HTTP-ответы с помощью файлов конфигурации в серверном программном обеспечении сайта, поэтому требования к синтаксису исходного кода здесь даже более строгие, чем у роботов. На самом деле, даже небольшая ошибка может привести к тому, что сайт перестанет работать. Прежде чем регистрировать тег X-Robots, убедитесь, что у вас есть надежные резервные копии, чтобы не потерять данные. Однако, если вы хотите перестраховаться, попробуйте бессерверную архитектуру приложений, например Edge SEO: она может менять теги на Edge-сервере без изменения базы кода.

ЧИТАТЬ Reckitt: не используйте ИИ для повышения эффективности за счет набора юношеских талантов

Вот как будет выглядеть тег с инструкциями noindex и nofollow для PDF-файлов в Apache в поисковой системе Google:

<Files ~ "\.pdf$">  
Header set X-Robots-Tag "noindex, nofollow"
</Files>

А вот как выглядит запрет на индексацию страницы в Яндексе:

HTTP/1.1 200 OK 
Date: Tue, 25 May 2010 21:42:43 GMT 
X-Robots-Tag: noindex, nofollow 
X-Robots-Tag: noarchive

Заголовки тегов X-Robots эффективны в тех случаях, когда теги Robots недоступны. Например, их можно использовать для предотвращения индексации определенных форматов изображений по всему сайту. Он также доступен для отдельных статических файлов.

Если сканирование отключено в файле robots.txt, поисковый робот игнорирует настройки метатега. При настройке тегов убедитесь, что страницы, которые вы хотите удалить из индекса, не являются недействительными.

Блокируйте любые данные, которые не были опубликованы при сканировании и индексировании. Когда новые страницы с «disallow» в robots.txt получают органический трафик, он поступает через 301 редирект. Трафик будет продолжаться до тех пор, пока старые страницы будут включены в результаты поиска.

При разработке большого многостраничного ресурса, например интернет-магазина, часто используются так называемые «скрытые URL». Предположим, вы заранее подготовились к Черной пятнице и сразу опубликовали эти страницы на сайте и скрыли их с помощью «Запретить». Если вы хотите представить эксклюзивность, акцию или специальную скидку, это не лучшее решение, так как страницы могут быть проиндексированы преждевременно, и пользователь увидит акцию, которая еще не действует. Поэтому лучше не банить их в robots.txt, а закрыть индексацию через метатеги.

Настройка метатегов не является обязательным рекламным фактором и в некоторых случаях ею можно пренебречь. Однако любой оптимизатор должен иметь базовое представление о принципах его работы и настройки.

Несмотря на изменения в алгоритмах поисковых систем и факторах ранжирования, настройки метатегов Robots и X-Robots Tag за последние годы практически не изменились. Освоение этих инструментов подходит новичкам для ознакомления с профессией, так как с их помощью легче понять, как работают другие теги.

Source