Пока Google открыть обсуждение при обучении больших языковых моделей (LLM) для продуктов генеративного ИИ они сосредотачиваются на файле robots.txt.
Однако, на мой взгляд, это не тот инструмент, на который стоит смотреть.
Мой бывший коллега Пьер Фар (Pierre Far) написал отличную статью о поисковых роботах, поисковых системах и великолепии генеративных ИИ-предприятий, в которой он осветил некоторые огромные проблемы, с которыми в настоящее время сталкивается индустрия онлайн-изданий. Как и его статья, я буду поддерживать это предложение на высоком уровне, поскольку события в этой области происходят чрезвычайно быстро.
Почему бы не использовать robots.txt
Есть несколько причин, по которым использование robots.txt не является подходящей отправной точкой для обсуждения того, как соблюдать авторские права издателей.
Не все LLM используют сканеры и идентифицируют себя
Оператор веб-сайта несет ответственность за выявление и блокировку отдельных поисковых роботов, которые могут использовать и/или продавать свои данные для генеративных продуктов ИИ. Это создает много дополнительной (и ненужной) работы, особенно для небольших издателей.
Это также предполагает, что у издателя есть права на редактирование своего файла robots.txt, что не всегда имеет место в случае размещенных решений.
Это неустойчивое решение, так как количество поисковых роботов продолжает расти.
Полезный размер файла robots.txt составляет ограничено 500 КБв соответствии с предложен новый стандарт robots.txt.
Это означает, что у крупного издателя могут возникнуть проблемы с файлом robots.txt, если ему необходимо заблокировать большое количество поисковых роботов LLM и/или отточенных шаблонов URL в дополнение к другим ботам.
Подход «все или ничего» неприемлем.
Для более крупных поисковых роботов, таких как Googlebot и Bingbot, нельзя делать различий между данными, используемыми для страниц результатов поисковой системы (традиционно, когда существует «соглашение» между издателем и поисковой системой в форме «цитата» к исходному источник) и генеративные продукты ИИ.
Блокировка Googlebot или Bingbot для их генеративных продуктов искусственного интеллекта также блокирует любую потенциальную видимость в соответствующих результатах поиска. Это недопустимая ситуация, когда издатель вынужден делать выбор «все или ничего».
Robots.txt касается управления сканированием, а обсуждение авторских прав касается того, как используются данные.
Последнее касается фазы индексации/обработки. Таким образом, robots.txt на самом деле не имеет отношения к этому обсуждению, а скорее является последним средством, если ничего не работает, и действительно не должен быть отправной точкой для этого конкретного обсуждения.
Файлы robots.txt прекрасно подходят для поисковых роботов, и их не нужно изменять для нужд LLM. Да, сканеры LLM должны идентифицировать себя, но нам действительно нужно поговорить об индексации/обработке просканированных данных.
Изобретать колесо
К счастью, в Интернете уже есть хорошо зарекомендовавшие себя решения, которые можно использовать для управления использованием данных об авторских правах. Это называется Креатив Коммонс.
Большинство лицензий Creative Commons подходят для целей LLM. Проиллюстрировать:
- CC0 позволяет LLM распространять, ремикшировать, адаптировать и расширять материал на любом носителе или в любом формате без каких-либо условий.
- CC PER позволяет LLM распространять, ремикшировать, адаптировать и основываться на материале на любом носителе или в любом формате, если указана авторство создателя. Лицензия разрешает коммерческое использование, но должно быть указано имя создателя.
- CC BY-SA позволяет LLM распространять, ремикшировать, адаптировать и основываться на материале на любом носителе или в любом формате, если указана авторство создателя. Лицензия разрешает коммерческое использование. Если LLM переделывают, адаптируют или полагаются на материал, они должны лицензировать измененный материал на тех же условиях.
- CC BY-NC разрешает LLM распространять, ремикшировать, адаптировать и использовать материал на любом носителе или в любом формате только в некоммерческих целях при условии указания авторства.
- CC BY-NC-SA разрешает LLM распространять, ремикшировать, адаптировать и использовать материал на любом носителе или в любом формате только в некоммерческих целях при условии указания авторства. Если LLM переделывают, адаптируют или полагаются на материал, они должны лицензировать измененный материал на тех же условиях.
- CC BY-ND разрешает LLM копировать и распространять материал на любом носителе или в неприемлемом формате только при условии указания авторства. Лицензия разрешает коммерческое использование, и автору должен быть предоставлен кредит, но никакие производные или адаптации произведения не допускаются.
- CC BY-NC-ND разрешает LLM копировать и распространять материал на любом носителе или в неподходящем формате только в неподходящей форме, только для некоммерческих целей, и до тех пор, пока авторство указано на создателя и никакие производные или адаптации произведения не разрешены.
Последние две лицензии вряд ли можно будет использовать для LLM.
Однако первые пять лицензий означают, что LLM должны подумать о том, как они используют добытые/полученные данные, и убедиться, что они придерживаются требований, предъявляемых при использовании данных издателя, таких как атрибуция и совместное использование продуктов на основе данных.
Это возложило бы бремя на «несколько» LLM в мире, а не на «многие» издатели.
Первые три лицензии также поддерживают «традиционное» использование данных, например, в результатах поиска, где атрибуция/кредит предоставляется через ссылку на исходный веб-сайт. В то время как четвертая и пятая лицензии также поддерживают исследования и разработки LLM с открытым исходным кодом.
Дополнительное примечание: имейте в виду, что все эти компании-разработчики программного обеспечения здание LLM часто используют программное обеспечение с открытым исходным кодом, когда у них возникают те же проблемы с лицензированием авторских прав в отношении библиотек программного обеспечения и операционных систем, которые они используют, чтобы избежать нарушения авторских прав на код. Так зачем изобретать велосипед, когда мы можем использовать аналогичную систему для данных, обрабатываемых этим кодом?
После того как издатель определил подходящую лицензию, об этой лицензии все равно необходимо сообщить. Опять же, здесь robots.txt кажется неправильным подходом.
Тот факт, что страницу нельзя сканировать поисковыми системами, не означает, что ее нельзя использовать или она бесполезна для LLM. Это два разных варианта использования.
Таким образом, чтобы разделить эти варианты использования и обеспечить более совершенный, но в то же время более простой подход для редакторов, я рекомендую вместо этого использовать метатег.
Метатеги — это фрагменты кода, которые можно вставлять на уровне страницы, в тему или в контент (знаю, это технически неправильно, но HTML достаточно снисходителен и может использоваться в крайнем случае, когда у издателя ограниченный доступ). к кодовой базе). Они не требуют от издателя каких-либо дополнительных прав доступа, кроме возможности редактировать HTML-код опубликованного контента.
Использование метатегов не останавливает сканирование, как мета-ноу-индекс. Однако это позволяет вам сообщать права на использование опубликованных данных.
И хотя существуют существующие теги авторского права, которые можно использовать, в том числе Дублинское ядро, стандартные права (предложение отклонено), копирайт-мета (подчеркивает имя владельца, а не лицензию) и другие попытки — текущая реализация их на некоторых веб-сайтах может противоречить тому, что мы пытаемся сделать здесь.
Таким образом, может потребоваться новый метатег, хотя я с удовольствием повторно использую существующий или старый тег, такой как «стандарт прав». Для этого обсуждения я предлагаю следующий новый метатег:
<meta name="usage-rights" content="CC-BY-SA" />
Кроме того, я рекомендую, чтобы этот метатег также поддерживался при использовании в HTTP-заголовкитак как noindex поддерживается в X-Robots-Tagчтобы помочь ботам LLM лучше управлять своими ресурсами сканирования (им просто нужно проверять заголовки HTTP для подтверждения прав на использование).
X-Robots-Tag: usage-rights: CC-BY-SA
Это можно использовать в сочетании с другими метатегами. В приведенном ниже примере страницу нельзя использовать для результатов поиска, но ее можно использовать для коммерческих LLM, если указан источник:
X-Robots-Tag: usage-rights: CC-BY, noindex
Примечание. Название «права использования» META-тега является предложением и может быть изменено.
Надежное решение
Конечно, есть плохие поисковые роботы и плохие актеры, создающие свои LLM и продукты для генеративного ИИ.
Предлагаемое решение с метатегами не предотвратит использование контента таким образом, как и файл robots.txt.
Важно признать, что оба метода зависят от признания и соответствия компаний, использующих данные для своих продуктов ИИ.
Заключение
Я надеюсь, что эта статья иллюстрирует, как использование robots.txt для управления использованием данных в LLM, на мой взгляд, является неправильным подходом/отправной точкой для работы с использованием и авторскими правами в эту новую эру LLM и продуктов генеративного ИИ.
Эта реализация метатегов позволит издателям указывать информацию об авторских правах на уровне страницы с помощью Creative Commons, не препятствуя сканированию или индексированию страницы для других целей (например, результатов поиска). Он также позволяет делать заявления об авторских правах для различных целей, включая LLM, генеративные продукты ИИ и потенциальные будущие продукты ИИ.
Мнения, высказанные в этой статье, принадлежат приглашенному автору, а не обязательно Search Engine Land. Штатные авторы перечислены здесь.