Robots Represher: robots.txt — Гибкий способ контроля того, как машины изучают ваш сайт
Оставаться организованным с коллекциями
Сохраните и классифицируйте контент на основе ваших предпочтений.
Пятница, 7 марта 2025 г.
Давний инструмент для владельцев веб-сайтов, Robots.txt работает в течение более 30 лет и широко поддерживается операторами Crawler (например, инструменты для владельцев сайтов, услуг и поисковых систем). В этом выпуске серии Robots Represher мы более внимательно рассмотрим robots.txt как гибкий способ рассказать роботам, что вы хотите, чтобы они сделали (или не сделали) на вашем сайте.
Содержание
Начало работы с robots.txt
То, как работают эти файлы, просто: вы делаете текстовый файл с именем «robots.txt», а затем загружаете его на свой веб -сайт — и если вы используете систему управления контентом (CMS), это, вероятно, еще проще. Вы можете оставить свой файл robots.txt пустым (или не иметь его вообще), если весь ваш сайт может быть заполнен, или вы можете добавить правила для управления ползанием. Например, чтобы рассказать всем ботам (также известным как сканеры, роботы, пауки), чтобы остаться на своей странице «Добавить в корзину», вы можете написать это в своем файле robots.txt:
user-agent: * disallow: /cart
Более конкретные вещи, которые вы можете сделать с robots.txt
Robots.txt — это швейцарский армейский нож, выражающий то, что вы хотите, чтобы разные роботы делали или не делали на вашем веб -сайте: это может быть всего лишь несколько строк, или это может быть сложным с более сложными правилами, нацеленными на очень конкретные модели URL. Вы можете использовать файл robots.txt для решения технических вопросов (таких как ненужные страницы на страницах, или по редакционным или личным причинам (например, просто не желая заполнения определенных вещей). Например, вы можете:
Информировать несколько ботов (но не все) об одном и том же правиле Эта группа рассказывает оба | user-agent: examplebot user-agent: otherbot disallow: /search |
Скажите одному боту, чтобы избежать путей, которые содержат определенную часть текста Например, вы можете сказать | user-agent: documentsbot disallow: *.pdf |
Скажите боту, что он может ползти по вашему блогу, но не на черновиках | user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/ |
Заблокируйте гусеница с части вашего сайта, позволяя другим сканерам получить доступ к вашему сайту Этот файл robots.txt не общается с упомянутым | user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$ |
Оставьте комментарий для своего будущего Вы можете начать линию с | # I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/ |
Более того, вы можете проверить наш список полезных правил robots.txt.
Внесение изменений в ваш файл robots.txt (практически)
А Протокол исключения роботов (Rep) Работает, составляя правила («позволять» или «запрещать«) И указать, к каким роботам применяются эти правила. Вам не нужно изучать программирование или скрипку с инструментами; вы можете просто поместить эти правила в текстовый файл и загружать его на свой веб -сайт.
Для большинства веб -сайтов это еще проще! Если вы используете CMS, он обычно имеет что -то уже встроенное, чтобы помочь вам изменить ваш файл robots.txt. Например, некоторые CMSE позволяют вам настроить файл robots.txt с помощью флажков или простой формы, и у многих есть плагины, которые помогают вам настройку и записывают правила для вашего файла robots.txt. Чтобы проверить, что возможно в вашем CMS, вы можете выполнить поиск имени вашего файла CMS +»Edit robots.txt».
После того, как вы настраиваете вещи, вы также можете проверить, чтобы убедиться, что ваш файл настроен на то, как вы намеревались. Есть много инструментов тестирования, созданного веб -сообществом, чтобы помочь с этим, например, как
Инструмент тестирования Tamethebot.
и это robots.txt parser которые используют Работатор с открытым исходным кодом.Полем
Если у вас есть какие -либо вопросы о robots.txt, вы можете найти нас на LinkedIn
или общаться с единомышленниками в Наши форумы сообществаПолем
Проверьте остальную серию Robots Replesher: