Google незаметно обновил свой список средств выборки, запускаемых пользователем, новой документацией для Google NotebookLM. Важность этого, казалось бы, незначительного изменения заключается в том, что ясно, что Google NotebookLM не будет подчиняться robots.txt.
Содержание
Google БлокнотLM
NotebookLM — это инструмент для исследования и написания ИИ, который позволяет пользователям добавлять URL-адрес веб-страницы, которая будет обрабатывать контент, а затем задавать ряд вопросов и генерировать сводки на основе контента.
Инструмент Google может автоматически создавать интерактивную интеллектуальную карту, которая систематизирует темы веб-сайта и извлекает из них выводы.
Сборщики, запускаемые пользователем, игнорируют файл robots.txt
Сборщики данных Google, запускаемые пользователем, — это веб-агенты, которые запускаются пользователями и по умолчанию игнорируют протокол robots.txt.
По данным сборщиков данных, запускаемых пользователем, Google документация:
«Поскольку выборка была запрошена пользователем, эти сборщики обычно игнорируют правила robots.txt».
Google-NotebookLM игнорирует файл robots.txt
Цель robots.txt — предоставить издателям контроль над ботами, индексирующими веб-страницы. Но такие агенты, как сборщик Google-NotebookLM, не индексируют веб-контент, а действуют от имени пользователей, которые взаимодействуют с содержимым веб-сайта через Google NotebookLM.
Как заблокировать NotebookLM
Google использует Google-НоутбукLM пользовательский агент при извлечении содержимого веб-сайта. Таким образом, издатели, желающие заблокировать пользователям доступ к своему контенту, могут создать правила, которые автоматически блокируют этот пользовательский агент. Например, простым решением для издателей WordPress является использование Wordfence для создания специального правила для блокировки всех посетителей веб-сайта, использующих пользовательский агент Google-NotebookLM.
Другой способ сделать это — использовать .htaccess, используя следующее правило:
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} Google-NotebookLM [NC] RewriteRule .* - [F,L]