Файл Humble Robots.txt часто тихо сидит в фоновом режиме сайта WordPress, но по умолчанию несколько простых из коробки и, конечно, не способствует любым индивидуальным директивам, которые вы можете принять.
Больше не нужно вступления — давайте погрузимся прямо в то, что еще вы можете включить, чтобы улучшить его.
(Небольшая примечание для добавления: этот пост полезен только для установки WordPress только в корневом каталоге домена или субдомена, например, Domain.com или пример.domain.com.)
Содержание
- 1 Где именно файл WordPress Robots.txt?
- 2 WordPress Robots.txt по умолчанию (и почему этого недостаточно)
- 3 Всегда включайте свою карту сайтов XML
- 4 Некоторые вещи не должны блокировать
- 5 Управление проставочными сайтами
- 6 Очистить некоторые неосведомленные основные пути WordPress
- 7 Отбросить конкретные параметры запроса
- 8 Неудорование таксономий и северных низких значений
- 9 Мониторинг на статистику ползания
- 10 Последние мысли
Где именно файл WordPress Robots.txt?
По умолчанию WordPress генерирует файл виртуальных robots.txt. Вы можете увидеть это, посетив /robots.txt вашей установки, например:
Этот файл по умолчанию существует только в памяти и не представлен файлом на вашем сервере.
Если вы хотите использовать пользовательский файл robots.txt, все, что вам нужно сделать, это загрузить один в корневую папку установки.
Вы можете сделать это либо с помощью FTP -приложения, либо плагина, например Yoast SEO (SEO → Инструменты → Редактор файлов), который включает в себя редактор robots.txt, к которому вы можете получить доступ в области администратора WordPress.
WordPress Robots.txt по умолчанию (и почему этого недостаточно)
Если вы не создаете файл robots.txt, вывод WordPress ‘Вывод по умолчанию выглядит так:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
Хотя это безопасно, это не оптимально. Пойдем дальше.
Всегда включайте свою карту сайтов XML
Убедитесь, что все сайты XML явно перечислены, так как это помогает поисковым системам обнаружить все соответствующие URL -адреса.
Sitemap: Sitemap:
Некоторые вещи не должны блокировать
В настоящее время существуют датированные предложения, чтобы запретить некоторые основные каталоги WordPress, такие как/wp-includes/,/wp-content/plugins/или veser/wp-content/uploads/. Не!
Вот почему вы не должны их блокировать:
- Google достаточно умный, чтобы игнорировать нерелевантные файлы. Блокирование CSS и JavaScript может повредить рендеризации и вызвать проблемы индексации.
- Вы можете непреднамеренно блокировать ценные изображения/видео/другие медиа, особенно те, которые загружены из/wp-content/uploads/, которые содержит все загруженные носители, которые вы определенно хотите заполнить.
Вместо этого позвольте Crawlers забрать CSS, JavaScript и изображения, которые им нужны для правильного рендеринга.
Управление проставочными сайтами
Желательно гарантировать, что стационарные сайты не заполняются как для SEO, так и для общих целей безопасности.
Я всегда советую запретить весь сайт.
Вы все равно должны использовать метатеги NoIndex, но для обеспечения покрытия другого слоя все еще рекомендуется сделать оба.
Если вы перемещаетесь Настройки> Чтениевы можете отметить опцию «Отговаривать поисковые системы из индексации этого сайта», которая выполняет следующее в файле robots.txt (или вы можете добавить это в себя).
User-agent: * Disallow: /
Google может по -прежнему индексировать страницы, если он обнаруживает ссылки в других местах (обычно вызванные вызовами для постановки производства, когда миграция не идеальна).
ВАЖНО: Когда вы переходите к производству, убедитесь, что вы снова проверьте эту настройку, чтобы убедиться, что вы возвращаете любые неразборки или неиндексирование.
Очистить некоторые неосведомленные основные пути WordPress
Не все должно быть заблокировано, но многие пути по умолчанию не добавляют значения SEO, например, ниже:
Disallow: /trackback/ Disallow: /comments/feed/ Disallow: */feed/ Disallow: */embed/ Disallow: /cgi-bin/ Disallow: /wp-login.php Disallow: /wp-json/
Отбросить конкретные параметры запроса
Иногда вам захочется остановить поисковые системы от ползающих URL-адресов с известными параметрами запросов низкой стоимости, такими как параметры отслеживания, ответы комментариев или печатные версии.
Вот пример:
User-agent: * Disallow: /*?replytocom= Disallow: /*?print=
Вы можете использовать инструмент URL-параметров Google Search Console для мониторинга шаблонов индексации, управляемых параметрами, и решить, достойны ли дополнительные Disallows.
Неудорование таксономий и северных низких значений
Если ваш сайт WordPress включает в себя архивы тегов или страницы внутренних результатов поиска, которые не предлагают дополнительного значения, вы тоже можете их заблокировать:
User-agent: * Disallow: /tag/ Disallow: /page/ Disallow: /?s=
Как всегда, весите это против вашей конкретной контент -стратегии.
Если вы используете теги -таксономические страницы как часть контента, вы хотите, чтобы проиндексировали и ползали, тогда игнорируйте это, но, как правило, они не добавляют никаких преимуществ.
Кроме того, убедитесь, что ваша внутренняя структура связывания поддерживает ваше решение и сводит к минимуму любые внутренние связи с областями, которые вы не намерены индексировать или ползать.
Мониторинг на статистику ползания
Как только ваш robots.txt на месте, мониторинг статистики сканирования через консоль поиска Google:
- Посмотрите на статистику Crawl в рамках настройки, чтобы увидеть, тратят ли боты ресурсы.
- Используйте инструмент проверки URL, чтобы подтвердить, индексируется ли заблокированный URL -адрес.
- Проверьте Sitemaps и убедитесь, что они только ссылочные страницы, которые вы действительно хотите, заползли и индексировали.
Кроме того, некоторые инструменты управления сервером, такие как PLESK, CPANEL и CloudFlare, могут предоставить чрезвычайно подробную статистику сканирования за пределами Google.
Наконец, используйте переопределение конфигурации Screaming Frog, чтобы имитировать изменения и вернуться к функциям оптимизации ползания Yoast SEO, некоторые из которых решают вышеупомянутое.
Последние мысли
Хотя WordPress является отличным CMS, он не настроен с самыми идеальными роботами по умолчанию.
Всего несколько строк кода и менее 30 минут вашего времени могут сэкономить вам тысячи ненужных запросов для ползания на ваш сайт, которые вообще не достойны идентифицировать вообще, а также обеспечить потенциальную проблему масштабирования в будущем.
Больше ресурсов:
Показанное изображение: Sklyareek/Shutterstock