Ранее на этой неделе Google удалил справочный документ Robots.txt FAQ из документации для разработчиков поиска. Когда его спросили, Джон Мюллер из Google ответил к Алексей Рылько говоря: «Мы обновляем документацию время от времени. Не стесняйтесь оставлять отзывы, если вы чувствуете, что чего-то не хватает. Robots.txt определенно все еще актуален».

Документ FAQ по роботам находился здесь: Developers.google.com/search/docs/crawling-indexing/robots/robots-faq

Теперь это перенаправляет на основной Страница справки Google robots.txt.

Что говорилось на странице часто задаваемых вопросов о роботах? Вейбэк-машина есть копия, так что я сделаю заархивируйте это здесь:

(В) Нужен ли моему сайту файл robots.txt?

(A) Нет. Когда робот Googlebot посещает веб-сайт, мы сначала запрашиваем разрешение на сканирование, пытаясь получить файл robots.txt. Веб-сайт без файла robots.txt, метатега robots или HTTP-заголовков X-Robots-Tag обычно сканируется и индексируется нормально.

(В) Какой метод следует использовать для блокировки сканеров?

(А) Это зависит. Короче говоря, есть веские причины использовать каждый из этих методов:

  • robots.txt: используйте его, если сканирование вашего контента вызывает проблемы на вашем сервере. Например, вы можете запретить сканирование бесконечных сценариев календаря. Не используйте файл robots.txt для блокировки частного контента (вместо этого используйте аутентификацию на стороне сервера) или обработки канонизации. Чтобы убедиться, что URL-адрес не проиндексирован, используйте вместо него метатег robots или HTTP-заголовок X-Robots-Tag.
  • Метатег robots: используйте его, если вам нужно контролировать отображение отдельной HTML-страницы в результатах поиска или убедиться, что она не отображается.
  • HTTP-заголовок X-Robots-Tag: используйте его, если вам нужно контролировать отображение контента в результатах поиска или убедиться, что он не отображается.

(В) Могу ли я использовать robots.txt, метатег robots или HTTP-заголовок X-Robots-Tag, чтобы удалить чужой сайт из результатов поиска?

(A) Нет. Эти методы применимы только к сайтам, на которых вы можете изменять код или добавлять файлы. Узнайте больше о том, как удалить информацию из Google.

(В) Как я могу замедлить сканирование моего сайта Google?

(A) Обычно вы можете настроить скорость сканирования в своей учетной записи Google Search Console.

(В) Я использую один и тот же файл robots.txt для нескольких веб-сайтов. Могу ли я использовать полный URL-адрес вместо относительного пути?

(A) Нет. Правила в файле robots.txt (за исключением карты сайта:) действительны только для относительных путей.

(В) Могу ли я поместить файл robots.txt в подкаталог?

ЧИТАТЬ  Samsung уже анонсировала обновление для Samsung Galaxy Z Fold 6.

(A) Нет. Файл должен быть размещен в самом верхнем каталоге веб-сайта.

(В) Я хочу заблокировать личную папку. Могу ли я запретить другим людям читать мой файл robots.txt?

(A) Нет. Файл robots.txt может быть прочитан разными пользователями. Если папки или имена файлов контента не предназначены для общего доступа, не указывайте их в файле robots.txt. Не рекомендуется использовать разные файлы robots.txt на основе пользовательского агента или других атрибутов.

(В) Нужно ли включать разрешающее правило, чтобы разрешить сканирование?

(A) Нет, вам не нужно включать разрешающее правило. Все URL-адреса неявно разрешены, а правило разрешения используется для переопределения правил запрета в том же файле robots.txt.

(В) Что произойдет, если я допущу ошибку в файле robots.txt или использую неподдерживаемое правило?

(A) Веб-сканеры, как правило, очень гибки и обычно не подвержены влиянию мелких ошибок в файле robots.txt. В общем, худшее, что может случиться, — это то, что неправильные или неподдерживаемые правила будут игнорироваться. Однако имейте в виду, что Google не может читать мысли при интерпретации файла robots.txt; нам нужно интерпретировать полученный нами файл robots.txt. Тем не менее, если вы знаете о проблемах в файле robots.txt, их обычно легко исправить.

(В) Какую программу следует использовать для создания файла robots.txt?

(A) Вы можете использовать все, что создает действительный текстовый файл. Обычно для создания файлов robots.txt используются программы Notepad, TextEdit, vi или emacs. Узнайте больше о создании файлов robots.txt. После создания файла проверьте его с помощью тестера robots.txt.

(В) Если я заблокирую Google сканирование страницы с помощью правила запрета в файле robots.txt, исчезнет ли она из результатов поиска?

(A) Если Google заблокирует сканирование страницы, она, скорее всего, будет удалена из индекса Google.

Однако запрет robots.txt не гарантирует, что страница не появится в результатах: Google все равно может решить на основе внешней информации, такой как входящие ссылки, что она релевантна, и отобразить URL-адрес в результатах. Если вы хотите явно заблокировать индексирование страницы, используйте метатег noindex robots или HTTP-заголовок X-Robots-Tag. В этом случае не запрещайте страницу в файле robots.txt, поскольку для того, чтобы тег был виден и исполнялся, страницу необходимо просканировать. Узнайте, как контролировать то, чем вы делитесь с Google.

ЧИТАТЬ  Google Search Console Insights за кулисами | Центральный блог поиска Google | Разработчики Google

(В) Через какое время изменения в моем файле robots.txt повлияют на результаты поиска?

(A) Во-первых, необходимо обновить кеш файла robots.txt (обычно мы кэшируем содержимое на срок до одного дня). Вы можете ускорить этот процесс, отправив обновленный файл robots.txt в Google. Даже после обнаружения изменения сканирование и индексирование — это сложный процесс, который иногда может занять довольно много времени для отдельных URL-адресов, поэтому невозможно указать точные сроки. Кроме того, имейте в виду, что даже если ваш файл robots.txt запрещает доступ к URL-адресу, этот URL-адрес может оставаться видимым в результатах поиска, несмотря на то, что мы не можем его просканировать. Если вы хотите ускорить удаление страниц, которые вы заблокировали в Google, отправьте запрос на удаление.

(В) Как я могу временно приостановить сканирование моего веб-сайта?

(A) Вы можете временно приостановить все сканирование, вернув код состояния HTTP 503 (служба недоступна) для всех URL-адресов, включая файл robots.txt. Файл robots.txt будет периодически повторяться, пока к нему снова не появится доступ. Мы не рекомендуем изменять файл robots.txt, чтобы запретить сканирование.

(В) Мой сервер не чувствителен к регистру. Как я могу полностью запретить сканирование некоторых папок?

(A) Правила в файле robots.txt чувствительны к регистру. В этом случае рекомендуется убедиться, что индексируется только одна версия URL с помощью методов канонизации. Благодаря этому в файле robots.txt будет меньше строк, и вам будет проще им управлять. Если это невозможно, мы рекомендуем вам указать распространенные комбинации имени папки или максимально сократить его, используя только несколько первых символов вместо полного имени. Например, вместо того, чтобы перечислять все варианты /MyPrivateFolder в верхнем и нижнем регистре, вы можете перечислить варианты /MyP (если вы уверены, что других доступных для сканирования URL-адресов с этими первыми символами не существует). Альтернативно, возможно, имеет смысл использовать метатег robots или HTTP-заголовок X-Robots-Tag, если сканирование не является проблемой.

(В) Я возвращаю 403 Forbidden для всех URL-адресов, включая файл robots.txt. Почему сайт все еще сканируется?

(A) Код состояния HTTP 403 Forbidden, а также другие коды состояния HTTP 4xx интерпретируются как отсутствие файла robots.txt. Это означает, что сканеры обычно предполагают, что они могут сканировать все URL-адреса веб-сайта. Чтобы заблокировать сканирование веб-сайта, файл robots.txt должен быть возвращен с кодом состояния HTTP 200 OK и содержать соответствующее правило запрета.

ЧИТАТЬ  Настройка местоположения Google Ads для использования мультимедиа из бизнес-профилей Google

(В) Является ли метатег robots заменой файла robots.txt?

(A) Нет. Файл robots.txt контролирует доступ к страницам. Метатег robots контролирует, индексируется ли страница, но чтобы увидеть этот тег, страницу необходимо просканировать. Если сканирование страницы затруднено (например, если страница вызывает высокую нагрузку на сервер), используйте файл robots.txt. Если вопрос только в том, отображается ли страница в результатах поиска, вы можете использовать метатег robots.

(В) Можно ли использовать метатег robots для блокировки индексации части страницы?

(A) Нет, метатег robots — это настройка на уровне страницы.

(В) Могу ли я использовать метатег robots вне

раздел?

(A) Нет, метатег robots должен находиться в

раздел страницы.

(В) Запрещает ли метатег robots сканирование?

(A) Нет. Даже если в метатеге robots в настоящее время указано noindex, нам придется время от времени повторно сканировать этот URL-адрес, чтобы проверить, не изменился ли метатег.

(В) Чем метатег nofollow robots соотносится с атрибутом ссылки rel=»nofollow»?

(A) Метатег nofollow robots применяется ко всем ссылкам на странице. Атрибут ссылки rel=»nofollow» применяется только к определенным ссылкам на странице. Дополнительную информацию об атрибуте ссылки rel=»nofollow» см. в нашей документации по спаму, создаваемому пользователями, и атрибуту rel=»nofollow».

(В) Как я могу проверить X-Robots-Tag на наличие URL-адреса?

(A) Простой способ просмотреть заголовки серверов — использовать функцию проверки URL-адресов в консоли поиска Google. Чтобы проверить заголовки ответов любого URL-адреса, попробуйте выполнить поиск по запросу «проверка заголовка сервера».

Я предполагаю, что, возможно, Google считает это лишним по сравнению с тем, что уже опубликовано на других страницах?

Обсуждение на форуме Икс.





Source link