Robots.txt — это полезный и мощный инструмент, позволяющий указать сканерам поисковых систем, как вы хотите, чтобы они сканировали ваш сайт. Управление этим файлом является ключевым компонентом хорошего технического SEO.

Он не всесилен – в Собственные слова Google«это не механизм защиты веб-страницы от Google», но он может помочь предотвратить перегрузку вашего сайта или сервера запросами сканеров.

Если на вашем сайте установлен блок сканирования, вы должны быть уверены, что он используется правильно.

Это особенно важно, если вы используете динамические URL-адреса или другие методы, которые генерируют теоретически бесконечное количество страниц.

В этом руководстве мы рассмотрим некоторые наиболее распространенные проблемы с файлом robots.txt, их влияние на ваш веб-сайт и ваше присутствие в результатах поиска, а также способы устранения этих проблем, если вы считаете, что они возникли.

Но сначала давайте кратко рассмотрим файл robots.txt и его альтернативы.

Содержание

Что такое Robots.txt?

Robots.txt использует текстовый формат и размещается в корневом каталоге вашего веб-сайта.

Он должен находиться в самом верхнем каталоге вашего сайта. Поисковые системы просто проигнорируют его, если вы поместите его в подкаталог.

ЧИТАТЬ  Приложение Feedback на Xiaomi: что это такое, нужно ли на Андроид, стоит ли удалять

Несмотря на свою огромную мощь, robots.txt зачастую является относительно простым документом, и базовый файл robots.txt можно создать за считанные секунды с помощью такого редактора, как Блокнот. Вы можете весело провести время с ними и добавить дополнительные сообщения, чтобы пользователи могли их найти.

Изображение автора, февраль 2024 г.8 распространенных проблем с файлом robots.txt и способы их устранения

Существуют и другие способы достижения тех же целей, для которых обычно используется файл robots.txt.

Отдельные страницы могут включать метатег robots в самом коде страницы.

Вы также можете использовать HTTP-заголовок X-Robots-Tag, чтобы влиять на то, как (и будет ли) контент отображаться в результатах поиска.

Что может сделать файл robots.txt?

Robots.txt может достигать различных результатов в различных типах контента:

Веб-страницы могут быть заблокированы от сканирования.

Они по-прежнему могут появляться в результатах поиска, но у них не будет текстового описания. Содержимое страницы, отличное от HTML, также не будет сканироваться.

Медиа-файлы можно заблокировать в результатах поиска Google.

Сюда входят изображения, видео и аудио файлы.

Если файл является общедоступным, он по-прежнему будет «существовать» в Интернете, его можно будет просматривать и на него можно будет ссылаться, но этот личный контент не будет отображаться в результатах поиска Google.

Файлы ресурсов, такие как неважные внешние скрипты, могут быть заблокированы..

Но это означает, что если Google сканирует страницу, для загрузки которой требуется этот ресурс, робот Googlebot «увидит» версию страницы, как если бы этот ресурс не существовал, что может повлиять на индексацию.

Вы не можете использовать robots.txt, чтобы полностью заблокировать появление веб-страницы в результатах поиска Google.

Чтобы добиться этого, вы должны использовать альтернативный метод, например, добавить метатег noindex в заголовок страницы.

Насколько опасны ошибки в robots.txt?

Ошибка в robots.txt может иметь непредвиденные последствия, но зачастую это не конец света.

Хорошей новостью является то, что, исправив файл robots.txt, вы сможете быстро и (обычно) полностью восстановиться после любых ошибок.

Руководство Google для веб-разработчиков говорит об ошибках robots.txt:

«Веб-сканеры, как правило, очень гибки и обычно не подвержены влиянию мелких ошибок в файле robots.txt. В общем, худшее, что может случиться, это то, что неправильно [or] неподдерживаемые директивы будут игнорироваться.

Однако имейте в виду, что Google не может читать мысли при интерпретации файла robots.txt; нам нужно интерпретировать полученный нами файл robots.txt. Тем не менее, если вы знаете о проблемах в файле robots.txt, их обычно легко исправить».

8 распространенных ошибок в файле Robots.txt

  1. Robots.txt отсутствует в корневом каталоге.
  2. Плохое использование подстановочных знаков.
  3. Noindex в файле robots.txt.
  4. Заблокированные скрипты и таблицы стилей.
  5. Нет URL-адреса карты сайта.
  6. Доступ к сайтам разработки.
  7. Использование абсолютных URL-адресов.
  8. Устаревшие и неподдерживаемые элементы.

Если ваш веб-сайт ведет себя странно в результатах поиска, файл robots.txt — хорошее место для поиска ошибок, синтаксических ошибок и нарушений правил.

Давайте рассмотрим каждую из вышеперечисленных ошибок более подробно и посмотрим, как убедиться, что у вас правильный файл robots.txt.

ЧИТАТЬ  5 лучших инструментов для создания эссе с искусственным интеллектом 2023 года

1. Robots.txt отсутствует в корневом каталоге.

Поисковые роботы смогут обнаружить файл только в том случае, если он находится в вашей корневой папке.

Вот почему между .com (или эквивалентным доменом) вашего веб-сайта и именем файла robots.txt в URL-адресе вашего файла robots.txt должна быть только косая черта.

Если там есть подпапка, ваш файл robots.txt, вероятно, не будет виден поисковым роботам, и ваш веб-сайт, вероятно, будет вести себя так, как будто файла robots.txt вообще не существует.

Чтобы решить эту проблему, переместите файл robots.txt в корневой каталог.

Стоит отметить, что для этого вам потребуется root-доступ к вашему серверу.

Некоторые системы управления контентом по умолчанию загружают файлы в подкаталог «media» (или что-то подобное), поэтому вам может потребоваться обойти это, чтобы разместить файл robots.txt в нужном месте.

2. Плохое использование подстановочных знаков

Robots.txt поддерживает два подстановочных знака:

  • Звездочка
  • – представляет любые экземпляры допустимого персонажа, например Джокера в колоде карт. Знак доллара ($)

– обозначает конец URL-адреса, позволяя применять правила только к последней части URL-адреса, например к расширению типа файла.

Разумно придерживаться минималистского подхода к использованию подстановочных знаков, поскольку они могут наложить ограничения на гораздо более широкую часть вашего веб-сайта.

Также сравнительно легко заблокировать доступ роботов со всего сайта с помощью неудачно расположенной звездочки.

Проверьте правила с подстановочными знаками с помощью инструмента тестирования robots.txt, чтобы убедиться, что они работают должным образом. Будьте осторожны с использованием подстановочных знаков, чтобы случайно не заблокировать или не разрешить слишком многое.

3. Noindex в robots.txt

Это чаще встречается на веб-сайтах, которым больше нескольких лет.

Google прекратил соблюдать правила noindex в файлах robots.txt с 1 сентября 2019 г.

Если ваш файл robots.txt был создан до этой даты или содержит инструкции noindex, вы, скорее всего, увидите эти страницы, проиндексированные в результатах поиска Google.

Решением этой проблемы является реализация альтернативного метода «noindex».

Одним из вариантов является метатег robots, который вы можете добавить в заголовок любой веб-страницы, которую хотите запретить Google индексировать.

4. Заблокированные скрипты и таблицы стилей

Может показаться логичным заблокировать доступ сканера к внешним JavaScript и каскадным таблицам стилей (CSS).

Однако помните, что роботу Googlebot необходим доступ к файлам CSS и JS, чтобы правильно «видеть» ваши страницы HTML и PHP.

Если ваши страницы ведут себя странно в результатах Google или кажется, что Google видит их неправильно, проверьте, не блокируете ли вы доступ сканера к необходимым внешним файлам.

Простое решение этой проблемы — удалить из файла robots.txt строку, блокирующую доступ.

Или, если у вас есть файлы, которые вам нужно заблокировать, вставьте исключение, которое восстанавливает доступ к необходимым CSS и JavaScript.

5. Нет URL-адреса карты сайта в формате XML.

Это больше касается SEO, чем чего-либо еще.

ЧИТАТЬ  Зеленский: Мы хотим мира, но я не могу просто стрелять.

Вы можете включить URL-адрес вашей XML-карты сайта в файл robots.txt.

Поскольку это первое место, куда робот Google смотрит при сканировании вашего веб-сайта, это дает сканеру преимущество в знании структуры и основных страниц вашего сайта.

Хотя это не является строго ошибкой – поскольку отсутствие карты сайта не должно отрицательно влиять на фактическую основную функциональность и внешний вид вашего веб-сайта в результатах поиска – все же стоит добавить URL-адрес карты сайта в robots.txt, если вы хотите улучшить свои усилия по SEO. способствовать росту.

6. Доступ к сайтам разработки

Блокировать поисковые роботы на вашем действующем веб-сайте нельзя, но то же самое можно сказать и о разрешении им сканировать и индексировать ваши страницы, которые все еще находятся в стадии разработки.

Лучше всего добавить инструкцию запрета в файл robots.txt строящегося веб-сайта, чтобы широкая публика не увидела его, пока он не будет завершен.

Точно так же крайне важно удалить инструкцию запрета при запуске готового веб-сайта.

Забыть удалить эту строку из файла robots.txt — одна из самых распространенных ошибок среди веб-разработчиков; это может помешать правильному сканированию и индексации всего вашего сайта.

User-Agent: *


Disallow: /

Если ваш сайт разработки получает реальный трафик или ваш недавно запущенный веб-сайт не очень хорошо работает в поиске, найдите правило запрета универсального пользовательского агента в файле robots.txt:

Если вы видите это, хотя не должны (или не видите, когда следует), внесите необходимые изменения в файл robots.txt и убедитесь, что внешний вид вашего веб-сайта при поиске обновляется соответствующим образом.

7. Использование абсолютных URL-адресов

Хотя использование абсолютных URL-адресов в таких вещах, как канонические файлы и hreflang, является лучшей практикой, для URL-адресов в файле robots.txt верно обратное.

Использование относительных путей в файле robots.txt — рекомендуемый подход для указания того, какие части сайта не должны быть доступны сканерам. Подробно это описано вДокументация Google robots.txt

в котором говорится:

Каталог или страница относительно корневого домена, которые могут сканироваться только что упомянутым пользовательским агентом.

Когда вы используете абсолютный URL-адрес, нет никакой гарантии, что сканеры интерпретируют его должным образом и что правило запрета/разрешения будет соблюдено.

8. Устаревшие и неподдерживаемые элементы

Хотя правила использования файлов robots.txt за прошедшие годы не сильно изменились, в них часто включаются два элемента:

Хотя Bing поддерживает задержку сканирования, Google ее не поддерживает, но веб-мастера часто указывают ее. Раньше вы могли устанавливать настройки сканирования в Google Search Console, но в конце 2023 года это было удалено.

Google объявил, что прекратит поддержку директивы noindex в файлах robots.txt в июле 2019 года. До этой даты веб-мастера могли использовать директиву noindex в своем файле robots.txt.

Эта практика не получила широкой поддержки и не была стандартизирована, и предпочтительным методом noindex было использование on-page robots или мер x-robots на уровне страницы.

Как исправить ошибку robots.txt

Если ошибка в файле robots.txt оказывает нежелательное влияние на внешний вид вашего веб-сайта при поиске, первым делом нужно исправить файл robots.txt и убедиться, что новые правила оказывают желаемый эффект.

Некоторые инструменты SEO-сканирования могут помочь, и вам не придется ждать, пока поисковые системы просканируют ваш сайт.

Если вы уверены, что файл robots.txt ведет себя должным образом, вы можете попытаться как можно скорее выполнить повторное сканирование вашего сайта. Такие платформы, как Консоль поиска Google и Инструменты Bing для веб-мастеров

может помочь.

Отправьте обновленную карту сайта и запросите повторное сканирование всех страниц, которые были ошибочно исключены из списка.

К сожалению, вы находитесь во власти робота Googlebot: нет никакой гарантии относительно того, сколько времени потребуется, чтобы недостающие страницы снова появились в поисковом индексе Google.

Все, что вы можете сделать, — это принять правильные меры, чтобы максимально сократить это время, и продолжать проверку до тех пор, пока робот Googlebot не внедрит исправленный файл robots.txt.

Последние мысли

Что касается ошибок robots.txt, профилактика всегда лучше, чем лечение.

На крупном веб-сайте, приносящем доход, случайный подстановочный знак, удаляющий весь ваш сайт из Google, может немедленно повлиять на доходы.

Изменения в файле robots.txt должны тщательно вноситься опытными разработчиками, дважды проверяться и, при необходимости, учитывать мнение третьей стороны.

Если возможно, протестируйте в редакторе-песочнице, прежде чем запускать работу на своем реальном сервере, чтобы избежать непреднамеренного создания проблем с доступностью.

Помните: когда случается худшее, важно не паниковать.

Выявите проблему, внесите необходимые исправления в файл robots.txt и повторно отправьте карту сайта для нового сканирования.

Надеемся, ваше место в поисковых рейтингах будет восстановлено в течение нескольких дней.


Дополнительные ресурсы:

Рекомендованное изображение: M-SUR/Shutterstock



Source link