Google подтверждает, что Robots.txt не может предотвратить несанкционированный доступ • Продвижение Web 2.0

Гэри Иллес из Google подтвердил распространенное наблюдение, что robots.txt имеет ограниченный контроль над несанкционированным доступом краулеров. Затем Гэри предложил обзор средств управления доступом, которые должны знать все SEO-специалисты и владельцы веб-сайтов.

Распространенный аргумент о Robots.txt

Похоже, всякий раз, когда поднимается тема Robots.txt, обязательно найдется человек, которому придется указать, что он не может блокировать все поисковые роботы.

Гэри согласился с этим:

«robots.txt не может предотвратить несанкционированный доступ к контенту», распространенный аргумент, всплывающий в обсуждениях robots.txt в наши дни; да, я перефразировал. Это утверждение верно, однако я не думаю, что кто-либо, знакомый с robots.txt, утверждал обратное».

Затем он глубоко погрузился в деконструкцию того, что на самом деле означает блокировка краулеров. Он сформулировал процесс блокировки краулеров как выбор решения, которое по сути контролирует или уступает контроль веб-сайту. Он сформулировал это как запрос на доступ (браузер или краулер) и сервер, отвечающий несколькими способами.

Он перечислил примеры контроля:

Файл robots.txt (оставляет сканеру право решать, сканировать его или нет).
Брандмауэры (WAF, также известный как брандмауэр веб-приложений – брандмауэр контролирует доступ)
Защита паролем

Вот его замечания:

«Если вам нужна авторизация доступа, вам нужно что-то, что аутентифицирует запрашивающую сторону, а затем контролирует доступ. Брандмауэры могут выполнять аутентификацию на основе IP, ваш веб-сервер — на основе учетных данных, переданных HTTP Auth, или сертификата его SSL/TLS-клиенту, или ваша CMS — на основе имени пользователя и пароля, а затем 1P cookie.

Всегда есть некоторая часть информации, которую запрашивающая сторона передает сетевому компоненту, что позволит этому компоненту идентифицировать запрашивающую сторону и контролировать ее доступ к ресурсу. robots.txt или любые другие директивы хостинга файлов, если на то пошло, передают решение о доступе к ресурсу запрашивающей стороне, что может быть не тем, что вам нужно. Эти файлы больше похожи на те раздражающие стойки контроля полосы движения в аэропортах, через которые все хотят просто прорваться, но не делают этого.

Есть место для стоек, но также есть место для взрывозащитных дверей и диафрагм над вашими Звездными вратами.

TL;DR: не думайте о robots.txt (или других файлах, содержащих директивы) как о форме авторизации доступа, используйте для этого соответствующие инструменты, поскольку их предостаточно».

Используйте правильные инструменты для управления ботами

Существует множество способов заблокировать скраперы, хакерских ботов, поисковые краулеры, посещения пользовательских агентов AI и поисковых краулеров. Помимо блокировки поисковых краулеров, хорошим решением является брандмауэр определенного типа, поскольку он может блокировать по поведению (например, скорость сканирования), IP-адресу, пользовательскому агенту и стране, среди многих других способов. Типичные решения могут быть на уровне сервера с чем-то вроде Fail2Ban, на основе облака, например Cloudflare WAF, или как плагин безопасности WordPress, например Wordfence.

ЧИТАТЬ Google Bard отказывается от списка ожидания и получает поиск, карты, объектив и другие функции

Прочитайте публикацию Гэри Иллайеса на LinkedIn:

robots.txt не может предотвратить несанкционированный доступ к контенту

Главное изображение от Shutterstock/Ollyy

Source link