Гэри Иллес из Google подтвердил распространенное наблюдение, что robots.txt имеет ограниченный контроль над несанкционированным доступом краулеров. Затем Гэри предложил обзор средств управления доступом, которые должны знать все SEO-специалисты и владельцы веб-сайтов.

Распространенный аргумент о Robots.txt

Похоже, всякий раз, когда поднимается тема Robots.txt, обязательно найдется человек, которому придется указать, что он не может блокировать все поисковые роботы.

Гэри согласился с этим:

«robots.txt не может предотвратить несанкционированный доступ к контенту», распространенный аргумент, всплывающий в обсуждениях robots.txt в наши дни; да, я перефразировал. Это утверждение верно, однако я не думаю, что кто-либо, знакомый с robots.txt, утверждал обратное».

Затем он глубоко погрузился в деконструкцию того, что на самом деле означает блокировка краулеров. Он сформулировал процесс блокировки краулеров как выбор решения, которое по сути контролирует или уступает контроль веб-сайту. Он сформулировал это как запрос на доступ (браузер или краулер) и сервер, отвечающий несколькими способами.

Он перечислил примеры контроля:

  • Файл robots.txt (оставляет сканеру право решать, сканировать его или нет).
  • Брандмауэры (WAF, также известный как брандмауэр веб-приложений – брандмауэр контролирует доступ)
  • Защита паролем

Вот его замечания:

«Если вам нужна авторизация доступа, вам нужно что-то, что аутентифицирует запрашивающую сторону, а затем контролирует доступ. Брандмауэры могут выполнять аутентификацию на основе IP, ваш веб-сервер — на основе учетных данных, переданных HTTP Auth, или сертификата его SSL/TLS-клиенту, или ваша CMS — на основе имени пользователя и пароля, а затем 1P cookie.

Всегда есть некоторая часть информации, которую запрашивающая сторона передает сетевому компоненту, что позволит этому компоненту идентифицировать запрашивающую сторону и контролировать ее доступ к ресурсу. robots.txt или любые другие директивы хостинга файлов, если на то пошло, передают решение о доступе к ресурсу запрашивающей стороне, что может быть не тем, что вам нужно. Эти файлы больше похожи на те раздражающие стойки контроля полосы движения в аэропортах, через которые все хотят просто прорваться, но не делают этого.

Есть место для стоек, но также есть место для взрывозащитных дверей и диафрагм над вашими Звездными вратами.

TL;DR: не думайте о robots.txt (или других файлах, содержащих директивы) как о форме авторизации доступа, используйте для этого соответствующие инструменты, поскольку их предостаточно».

Используйте правильные инструменты для управления ботами

Существует множество способов заблокировать скраперы, хакерских ботов, поисковые краулеры, посещения пользовательских агентов AI и поисковых краулеров. Помимо блокировки поисковых краулеров, хорошим решением является брандмауэр определенного типа, поскольку он может блокировать по поведению (например, скорость сканирования), IP-адресу, пользовательскому агенту и стране, среди многих других способов. Типичные решения могут быть на уровне сервера с чем-то вроде Fail2Ban, на основе облака, например Cloudflare WAF, или как плагин безопасности WordPress, например Wordfence.

ЧИТАТЬ  Ежедневный обзор форума поиска: 8 июля 2024 г.

Прочитайте публикацию Гэри Иллайеса на LinkedIn:

robots.txt не может предотвратить несанкционированный доступ к контенту

Главное изображение от Shutterstock/Ollyy



Source link