Большие языковые модели (LLM), такие как ChatGPT, Bard и даже версии с открытым исходным кодом, обучаются на общедоступном интернет-контенте. Но есть также признаки того, что популярные ИИ также могут обучаться на наборах данных, созданных из пиратских книг.

Долли 2.0 обучена работе с пиратским контентом?

Dolly 2.0 — это недавно выпущенный ИИ с открытым исходным кодом. Цель Dolly — демократизировать ИИ, сделав его доступным для всех, кто хочет создавать с его помощью что-то, даже коммерческие продукты.

Но есть и проблема конфиденциальности, связанная с концентрацией технологий искусственного интеллекта в руках трех крупных корпораций и передачей им личных данных.

Если бы у них был выбор, многие компании предпочли бы не передавать личные данные третьим сторонам, таким как Google, OpenAI и Meta.

Даже Mozilla, производитель браузеров и приложений с открытым исходным кодом, инвестирует в развитие экосистемы искусственного интеллекта с открытым исходным кодом.

Намерение искусственного интеллекта с открытым исходным кодом, несомненно, хорошее.

Но есть проблема с данными, которые используются для обучения этих больших языковых моделей, потому что некоторые из них состоят из пиратского контента.

Клон ChatGPT с открытым исходным кодом, Dolly 2.0, был создан компанией DataBricks (узнайте больше о Dolly 2.0)

Dolly 2.0 основана на модели большого языка с открытым исходным кодом (LLM), называемой Пифия (который был создан группой с открытым исходным кодом под названием ЭлеутерАИ).

EleutherAI создал восемь версий LLM разных размеров в рамках семейства LLM Pythia.

Одна версия Pythia, версия с 12 миллиардами параметров, используется DataBricks для создания Dolly 2.0, а также с набором данных, который DataBricks создали сами (набор данных вопросов и ответов, который использовался для обучения ИИ Dolly 2.0 принимать инструкции)

Особенность EleutherAI Pythia LLM в том, что она была обучена с использованием набора данных под названием Pile.

Набор данных Pile состоит из нескольких наборов текстов на английском языке, одним из которых является набор данных под названием Books3. Набор данных Books3 содержит тексты книг, которые были пиратскими и размещены на пиратском сайте bibliotik.

Это то, что DataBricks объявление говорит:

«Dolly 2.0 — это языковая модель с параметрами 12B, основанная на семействе моделей EleutherAI pythia и настроенная исключительно на новую высококачественную инструкцию, сгенерированную человеком, в соответствии с набором данных, собранным сотрудниками Databricks».

Pythia LLM была создана с использованием набора данных Pile

Исследовательский документ по пифии от EleutherAI, в котором упоминается, что Pythia обучалась с использованием набора данных Pile.

ЧИТАТЬ  Как испортить много хороших фильмов дыркой

Это цитата из исследовательской работы Pythia:

«Мы обучаем 8 размеров моделей как на Pile …, так и на Pile после дедупликации, предоставляя 2 копии пакета, которые можно сравнить».

Дедупликация означает удаление избыточных данных, это процесс создания более чистого набора данных.

Так что же в Пайле? Есть исследовательская работа Pile, в которой объясняется, что содержится в этом наборе данных.

Вот цитата из исследовательская работа для кучи где написано, что они используют набор данных Books3:

«Кроме того, мы включили несколько существующих высококачественных наборов данных: Books3 (Прессер2020)…”

Исследовательская статья набора данных Pile ссылается на твит Шоном Прессером, в котором говорится о том, что находится в наборе данных Books3:

«Предположим, вы хотите обучить модель GPT мирового класса, как OpenAI. Как? У вас нет данных.

Теперь ты. Теперь все это делают.

Презентация «books3», она же «все библиотеки»

– 196 640 книг
— в обычном .txt
– надежная прямая загрузка в течение многих лет:

Итак… в приведенной выше цитате ясно сказано, что набор данных Pile использовался для обучения Pythia LLM, который, в свою очередь, послужил основой для искусственного интеллекта с открытым исходным кодом Dolly 2.0.

Google Bard обучен работе с пиратским контентом?

The Washington Post недавно опубликовала обзор набора данных Google Colossal Clean Crawled Corpus (также известного как C4 — PDF исследовательская работа здесь), в котором они обнаружили, что набор данных Google также содержит пиратский контент.

Набор данных C4 важен, потому что это один из наборов данных, используемых для обучения Google LaMDA LLM, версия которого является основой Bard.

Фактический набор данных называется Infiniset, а набор данных C4 составляет около 12,5% всего текста, используемого для обучения LaMDA. Цитаты на эти факты о Барде можно найти здесь.

Новостная статья Washington Post опубликовала:

«Три самых больших сайта: Patents.google.com № 1, который содержит тексты из патентов, выданных по всему миру; wikipedia.org № 2, бесплатная онлайн-энциклопедия; и scribd.com № 3, цифровая библиотека, доступная только по подписке.

Также высоко в списке: b-ok.org № 190, печально известный рынок пиратских электронных книг, который с тех пор был конфискован Министерством юстиции США.

В наборе данных присутствовало как минимум 27 других сайтов, определенных правительством США как рынки пиратства и контрафакта».

Недостаток анализа Washington Post заключается в том, что они рассматривают версию C4, но не обязательно ту, на которой обучался LaMDA.

Исследовательский документ для набора данных C4 был опубликован в июле 2020 года. В течение года после публикации был опубликован еще один исследовательский документ, в котором было обнаружено, что набор данных C4 был предвзят в отношении цветных людей и ЛГБТ-сообщества.

Научная работа называется, Документирование больших веб-текстовых корпусов: пример колоссального чистого просканированного корпуса (PDF исследовательская работа здесь).

ЧИТАТЬ  5 тенденций в сфере жилищного строительства, за которыми стоит следить в 2024 году

Исследователи обнаружили, что набор данных содержал негативные настроения в отношении людей арабской идентичности и исключал документы, связанные с чернокожими и латиноамериканцами, а также документы, в которых упоминается сексуальная ориентация.

Исследователи писали:

«Наше исследование исключенных данных показывает, что документы, связанные с чернокожими и латиноамериканскими авторами, и документы, в которых упоминается сексуальная ориентация, значительно чаще исключаются фильтрацией черного списка C4.EN, и что многие исключенные документы содержали не оскорбительный или несексуальный контент ( например, законодательные обсуждения однополых браков, научное и медицинское содержание).

Это исключение является формой распределяемого вреда… и усугубляет существующее (языковое) расовое неравенство, а также стигматизацию идентичности ЛГБТК+…

Кроме того, прямое следствие удаления такого текста из наборов данных, используемых для обучения языковых моделей, заключается в том, что модели будут плохо работать при применении к тексту от людей, принадлежащих к меньшинствам, и о них, фактически исключая их из преимуществ таких технологий, как машинный перевод или поиск. ”

Был сделан вывод, что фильтрация «плохих слов» и другие попытки «очистить» набор данных были слишком упрощенными и оправданы более тонким подходом.

Эти выводы важны, потому что они показывают, что было хорошо известно, что набор данных C4 был ошибочным.

LaMDA был разработан в 2022 году (через два года после набора данных C4), и связанный с ним Исследовательский документ LaMDA говорит, что обучался с C4.

Но это всего лишь исследовательская работа. То, что происходит в реальной жизни на производственной модели, может сильно отличаться от того, что описано в исследовательской работе.

При обсуждении исследовательской работы важно помнить, что Google постоянно говорит, что то, что содержится в патенте или исследовательской статье, не обязательно используется в алгоритме Google.

Google, скорее всего, знает об этих выводах, и вполне разумно предположить, что Google разработал новую версию C4 для производственной модели не только для устранения неравенства в наборе данных, но и для его обновления.

Google не говорит, что в их алгоритме, это черный ящик. Поэтому мы не можем с уверенностью сказать, что технология, лежащая в основе Google Bard, была обучена работе с пиратским контентом.

Чтобы было еще понятнее, Bard был выпущен в 2023 году с использованием облегченной версии LaMDA. Google не определил, что такое облегченная версия LaMDA.

Таким образом, невозможно узнать, какой контент содержался в наборах данных, используемых для обучения облегченной версии LaMDA, на которой работает Bard.

Можно только догадываться, какой контент использовался для обучения Барда.

Использует ли GPT-4 пиратский контент?

OpenAI крайне конфиденциально относится к наборам данных, используемым для обучения GPT-4. В последний раз OpenAI упоминал наборы данных в PDF исследовательская работа для GPT-3 опубликован в 2020 году, и даже там он несколько расплывчат и неточен в отношении того, что находится в наборах данных.

ЧИТАТЬ  Джоно Алдерсон покидает Yoast

Сайт TowardsDataScience в 2021 году опубликовал интересный обзор доступной информации, в котором делают вывод, что действительно для обучения ранних версий GPT использовался некоторый пиратский контент.

Они писать:

«… мы находим доказательства того, что BookCorpus напрямую нарушал ограничения авторского права для сотен книг, которые не должны были распространяться через бесплатный набор данных.

Например, в более чем 200 книгах в BookCorpus прямо указано, что они «не могут воспроизводиться, копироваться и распространяться в коммерческих или некоммерческих целях».

Трудно сделать вывод, использовал ли GPT-4 какой-либо пиратский контент.

Есть ли проблема с использованием пиратского контента?

Можно было бы подумать, что использование пиратского контента для обучения большой языковой модели и получения прибыли от использования этого контента может быть неэтичным.

Но законы могут фактически разрешать такое использование.

Я спросил Кентона Дж. Хатчерсона, интернет-прокурора в Закон Хатчерсона что он думает об использовании пиратского контента в контексте обучения больших языковых моделей.

В частности, я спросил, если кто-то использует Dolly 2.0, которая может быть частично создана из пиратских книг, будут ли коммерческие организации, создающие приложения с Dolly 2.0, подвергаться претензиям о нарушении авторских прав?

Кентон ответил:

«Иск о нарушении авторских прав от правообладателей пиратских книг, скорее всего, будет отклонен из-за добросовестного использования.

Добросовестное использование защищает преобразующее использование произведений, защищенных авторским правом.

Здесь пиратские книги используются не как книги для чтения, а как входные данные для набора данных для обучения искусственного интеллекта.

Похожий пример возник с использованием миниатюр на страницах результатов поиска. Миниатюры не заменяют веб-страницы, которые они просматривают. Они выполняют совершенно другую функцию — они просматривают страницу.

Это преобразующее использование».

Карен Дж. Бернштейн из Бернштейн ИП высказывал аналогичное мнение.

«Является ли использование пиратского контента добросовестным? Добросовестное использование является широко используемой защитой в таких случаях.

Концепция защиты добросовестного использования существует только в соответствии с законодательством США об авторском праве.

Добросовестное использование анализируется в рамках многофакторного анализа, который Верховный суд изложил в знаменательном деле 1994 года.

При таком сценарии возникнут вопросы о том, сколько пиратского контента было взято из книг и что было сделано с контентом (было ли оно «преобразовательным»), и не отбирает ли такой контент рынок у создателя авторских прав».

Технологии искусственного интеллекта развиваются беспрецедентными темпами, по-видимому, развиваясь каждую неделю. Возможно, отражая конкуренцию и неожиданную финансовую выгоду от успеха, Google и OpenAI становятся все более конфиденциальными в отношении того, как обучаются их модели ИИ.

Должны ли они быть более открытыми в отношении такой информации? Можно ли им доверять, что их наборы данных честны и непредвзяты?

Использование пиратского контента для создания этих моделей ИИ может быть юридически защищено как добросовестное использование, но только потому, что можно, означает ли это, что нужно?

Избранное изображение Shutterstock/Roman Samborskyi





Source link