Гэри Иллес из Google подтвердил распространенное наблюдение, что robots.txt имеет ограниченный контроль над несанкционированным доступом краулеров. Затем Гэри предложил обзор средств управления доступом, которые должны знать все SEO-специалисты и владельцы веб-сайтов.
Распространенный аргумент о Robots.txt
Похоже, всякий раз, когда поднимается тема Robots.txt, обязательно найдется человек, которому придется указать, что он не может блокировать все поисковые роботы.
Гэри согласился с этим:
«robots.txt не может предотвратить несанкционированный доступ к контенту», распространенный аргумент, всплывающий в обсуждениях robots.txt в наши дни; да, я перефразировал. Это утверждение верно, однако я не думаю, что кто-либо, знакомый с robots.txt, утверждал обратное».
Затем он глубоко погрузился в деконструкцию того, что на самом деле означает блокировка краулеров. Он сформулировал процесс блокировки краулеров как выбор решения, которое по сути контролирует или уступает контроль веб-сайту. Он сформулировал это как запрос на доступ (браузер или краулер) и сервер, отвечающий несколькими способами.
Он перечислил примеры контроля:
- Файл robots.txt (оставляет сканеру право решать, сканировать его или нет).
- Брандмауэры (WAF, также известный как брандмауэр веб-приложений – брандмауэр контролирует доступ)
- Защита паролем
Вот его замечания:
«Если вам нужна авторизация доступа, вам нужно что-то, что аутентифицирует запрашивающую сторону, а затем контролирует доступ. Брандмауэры могут выполнять аутентификацию на основе IP, ваш веб-сервер — на основе учетных данных, переданных HTTP Auth, или сертификата его SSL/TLS-клиенту, или ваша CMS — на основе имени пользователя и пароля, а затем 1P cookie.
Всегда есть некоторая часть информации, которую запрашивающая сторона передает сетевому компоненту, что позволит этому компоненту идентифицировать запрашивающую сторону и контролировать ее доступ к ресурсу. robots.txt или любые другие директивы хостинга файлов, если на то пошло, передают решение о доступе к ресурсу запрашивающей стороне, что может быть не тем, что вам нужно. Эти файлы больше похожи на те раздражающие стойки контроля полосы движения в аэропортах, через которые все хотят просто прорваться, но не делают этого.
Есть место для стоек, но также есть место для взрывозащитных дверей и диафрагм над вашими Звездными вратами.
TL;DR: не думайте о robots.txt (или других файлах, содержащих директивы) как о форме авторизации доступа, используйте для этого соответствующие инструменты, поскольку их предостаточно».
Используйте правильные инструменты для управления ботами
Существует множество способов заблокировать скраперы, хакерских ботов, поисковые краулеры, посещения пользовательских агентов AI и поисковых краулеров. Помимо блокировки поисковых краулеров, хорошим решением является брандмауэр определенного типа, поскольку он может блокировать по поведению (например, скорость сканирования), IP-адресу, пользовательскому агенту и стране, среди многих других способов. Типичные решения могут быть на уровне сервера с чем-то вроде Fail2Ban, на основе облака, например Cloudflare WAF, или как плагин безопасности WordPress, например Wordfence.
Прочитайте публикацию Гэри Иллайеса на LinkedIn:
robots.txt не может предотвратить несанкционированный доступ к контенту
Главное изображение от Shutterstock/Ollyy