Robots Represher: robots.txt — Гибкий способ контроля того, как машины изучают ваш сайт

Оставаться организованным с коллекциями

Сохраните и классифицируйте контент на основе ваших предпочтений.

Пятница, 7 марта 2025 г.

Давний инструмент для владельцев веб-сайтов, Robots.txt работает в течение более 30 лет и широко поддерживается операторами Crawler (например, инструменты для владельцев сайтов, услуг и поисковых систем). В этом выпуске серии Robots Represher мы более внимательно рассмотрим robots.txt как гибкий способ рассказать роботам, что вы хотите, чтобы они сделали (или не сделали) на вашем сайте.

Начало работы с robots.txt

То, как работают эти файлы, просто: вы делаете текстовый файл с именем «robots.txt», а затем загружаете его на свой веб -сайт — и если вы используете систему управления контентом (CMS), это, вероятно, еще проще. Вы можете оставить свой файл robots.txt пустым (или не иметь его вообще), если весь ваш сайт может быть заполнен, или вы можете добавить правила для управления ползанием. Например, чтобы рассказать всем ботам (также известным как сканеры, роботы, пауки), чтобы остаться на своей странице «Добавить в корзину», вы можете написать это в своем файле robots.txt:

user-agent: *
disallow: /cart

Более конкретные вещи, которые вы можете сделать с robots.txt

Robots.txt — это швейцарский армейский нож, выражающий то, что вы хотите, чтобы разные роботы делали или не делали на вашем веб -сайте: это может быть всего лишь несколько строк, или это может быть сложным с более сложными правилами, нацеленными на очень конкретные модели URL. Вы можете использовать файл robots.txt для решения технических вопросов (таких как ненужные страницы на страницах, или по редакционным или личным причинам (например, просто не желая заполнения определенных вещей). Например, вы можете:

ЧИТАТЬ  Топ-3 криптоинвестиций на 2024 год: прогнозы цен на XRP (XRP), Litecoin (LTC) и Uwerx (WERX)

Информировать несколько ботов (но не все) об одном и том же правиле

Эта группа рассказывает оба examplebot и otherbot держаться подальше от /search путь.

user-agent: examplebot
user-agent: otherbot
disallow: /search

Скажите одному боту, чтобы избежать путей, которые содержат определенную часть текста

Например, вы можете сказать documentsbot не ползти ни одного файла, который содержит «.pdf» на его имя.

user-agent: documentsbot
disallow: *.pdf

Скажите боту, что он может ползти по вашему блогу, но не на черновиках

user-agent: documentsbot
allow: /blog/
disallow: /blog/drafts/

Заблокируйте гусеница с части вашего сайта, позволяя другим сканерам получить доступ к вашему сайту

Этот файл robots.txt не общается с упомянутым aicorp-trainer-bot от доступа к чему -либо, кроме домашней страницы, позволяя другим скалерам (например, поисковым системам) получить доступ к сайту.


user-agent: *
allow: /

user-agent: aicorp-trainer-bot
disallow: /
allow: /$

Оставьте комментарий для своего будущего

Вы можете начать линию с # Чтобы напомнить себе о том, почему вы поставили там определенное правило.

# I don't want bots in my highschool photos
user-agent: *
disallow: /photos/highschool/

Более того, вы можете проверить наш список полезных правил robots.txt.

Внесение изменений в ваш файл robots.txt (практически)

А Протокол исключения роботов (Rep) Работает, составляя правила («позволять» или «запрещать«) И указать, к каким роботам применяются эти правила. Вам не нужно изучать программирование или скрипку с инструментами; вы можете просто поместить эти правила в текстовый файл и загружать его на свой веб -сайт.

Для большинства веб -сайтов это еще проще! Если вы используете CMS, он обычно имеет что -то уже встроенное, чтобы помочь вам изменить ваш файл robots.txt. Например, некоторые CMSE позволяют вам настроить файл robots.txt с помощью флажков или простой формы, и у многих есть плагины, которые помогают вам настройку и записывают правила для вашего файла robots.txt. Чтобы проверить, что возможно в вашем CMS, вы можете выполнить поиск имени вашего файла CMS +»Edit robots.txt».

После того, как вы настраиваете вещи, вы также можете проверить, чтобы убедиться, что ваш файл настроен на то, как вы намеревались. Есть много инструментов тестирования, созданного веб -сообществом, чтобы помочь с этим, например, как
Инструмент тестирования Tamethebot.
и это robots.txt parser которые используют Работатор с открытым исходным кодом.Полем

Если у вас есть какие -либо вопросы о robots.txt, вы можете найти нас на LinkedIn
или общаться с единомышленниками в Наши форумы сообществаПолем


Проверьте остальную серию Robots Replesher:



Source link

ЧИТАТЬ  Выразите свою любовь с помощью этих 12 замечательных идей подарков для любителя кофе в вашей жизни