Новые интернет-правила будут блокировать обучающих ботов ИИ • Продвижение Web 2.0

Разрабатываются новые стандарты для расширения протокола исключения роботов и тегов Meta Robots, что позволит им блокировать использование всеми сканерами искусственного интеллекта общедоступного веб-контента в учебных целях. Предложение, составленное Кришной Мадхаваном, главным менеджером по продуктам Microsoft AI, и Фабрисом Канелем, главным менеджером по продуктам в Microsoft Bing, позволит легко заблокировать все основные сканеры AI Training с помощью одного простого правила, которое можно применить к каждому отдельному сканеру.

Практически все законные сканеры подчиняются тегам Robots.txt и Meta Robots, что делает это предложение реальностью для издателей, которые не хотят, чтобы их контент использовался в целях обучения ИИ.

Содержание

1 Целевая группа по интернет-инжинирингу (IETF)
2 Три способа заблокировать обучающих ботов ИИ
3 Robots.Txt для блокировки роботов AI
4 Обеспечивает больший контроль

Целевая группа по интернет-инжинирингу (IETF)

Инженерная группа Интернета (IETF) — это международная группа по разработке стандартов Интернета, основанная в 1986 году, которая координирует разработку и кодификацию стандартов, с которыми каждый может добровольно согласиться. Например, протокол исключения роботов был независимо создан в 1994 году, а в 2019 году Google предложил IETF принять его в качестве официального стандарта с согласованными определениями. В 2022 году IETF опубликовал официальный протокол исключения роботов, который определяет, что это такое, и расширяет исходный протокол.

Три способа заблокировать обучающих ботов ИИ

Проект предложения по блокировке обучающих ботов ИИ предлагает три способа заблокировать ботов:

Протоколы robots.txt
Мета-роботы HTML-элементы
Заголовок ответа прикладного уровня

Robots.Txt для блокировки роботов AI

Проект предложения направлен на создание дополнительных правил, которые распространят Протокол исключения роботов (Robots.txt) на роботов для обучения ИИ. Это наведет некоторый порядок и даст издателям возможность выбирать, каким роботам разрешено сканировать их сайты.

ЧИТАТЬ Ежедневный обзор поискового форума: 13 января 2025 г.

Соблюдение протокола Robots.txt является добровольным, но все законные сканеры, как правило, подчиняются ему.

В проекте объясняется цель новых правил Robots.txt:

«Хотя протокол исключения роботов позволяет владельцам сервисов контролировать, как автоматические клиенты, известные как сканеры, могут получить доступ к URI в своих сервисах, как это определено [RFC8288]протокол не обеспечивает контроль над тем, как данные, возвращаемые их службой, могут использоваться при обучении базовых моделей генеративного ИИ.

Разработчикам приложений предлагается соблюдать эти теги. Однако теги не являются формой авторизации доступа».

Важным качеством новых правил robots.txt и HTML-элементов мета-роботов является то, что законные сканеры, обучающие ИИ, склонны добровольно соглашаться следовать этим протоколам, что делают все законные боты. Это упростит блокировку ботов для издателей.

Ниже приведены предлагаемые правила Robots.txt:

DisallowAITraining — указывает парсеру не использовать данные для языковой модели обучения ИИ.

AllowAITraining — сообщает синтаксическому анализатору, что данные могут быть использованы для языковой модели обучения ИИ.

Ниже приведены предлагаемые директивы мета-роботов:

Обеспечивает больший контроль

Компаниям, занимающимся искусственным интеллектом, безуспешно предъявили иск в суде за использование общедоступных данных. Компании, занимающиеся искусственным интеллектом, утверждают, что сканирование общедоступных веб-сайтов является справедливым, как это делали поисковые системы на протяжении десятилетий.

Эти новые протоколы дают веб-издателям контроль над сканерами, целью которых является использование обучающих данных, что приводит к согласованию этих сканеров с поисковыми сканерами.

Прочтите предложение на IETF:

Расширение протокола исключения роботов для управления использованием контента ИИ

Рекомендованное изображение: Shutterstock/ViDI Studio

Source link