Компания Databricks объявила о выпуске первой языковой модели с открытым исходным кодом, настроенной под инструкции, под названием Dolly 2.0. Он был обучен с использованием той же методологии, что и InstructGPT, но с заявленным набором данных более высокого качества, который на 100% является открытым исходным кодом.
Эту модель можно использовать бесплатно, в том числе в коммерческих целях, потому что каждая часть модели на 100 % имеет открытый исходный код.
Обучение работе с открытым исходным кодом
Что делает ChatGPT способным следовать указаниям, так это обучение, которое он получает с использованием методов, изложенных в Исследовательская работа InstructGPT.
Прорыв, обнаруженный с помощью InstructGPT, заключается в том, что языковые модели не нуждаются во все больших и больших обучающих наборах.
Благодаря обучению вопросам и ответам, оцениваемым человеком, OpenAI смог обучить лучшую языковую модель, используя в сто раз меньше параметров, чем предыдущая модель GPT-3.
Databricks использовали аналогичный подход для создания набора данных подсказок и ответов, который они вызывают. Databricks-Dolly-15k.
Их набор данных подсказок/ответов был создан без парсинга веб-форумов или Reddit.
databricks-dolly-15k – это набор данных, созданный сотрудниками Databricks, на 100 % оригинальный, сгенерированный человеком 15 000 пар подсказок и ответов, предназначенный для обучения языковой модели Dolly 2.0 таким же образом, как модель ChatGPT была создана с помощью InstructGPT.
Страница GitHub для набора данных объясняет, как они это сделали:
«databricks-dolly-15k — это набор данных с открытым исходным кодом записей о выполнении инструкций, используемый в обучении databricks/dolly-v2-12b, который был создан тысячами сотрудников Databricks в нескольких поведенческих категориях, описанных в статье InstructGPT, включая мозговой штурм, классификацию , закрытый контроль качества, генерация, извлечение информации, открытый контроль качества и обобщение.
… Сотрудникам Databricks было предложено создать пары подсказок/ответов в каждой из восьми различных категорий инструкций, включая семь, изложенных в документе InstructGPT, а также в открытой категории в произвольной форме.
Участникам было дано указание избегать использования информации из любого источника в Интернете, за исключением Википедии (для определенных подмножеств категорий инструкций), и явно указано избегать использования генеративного ИИ при формулировании инструкций или ответов. Были предоставлены примеры каждого поведения, чтобы мотивировать типы вопросов и инструкций, соответствующих каждой категории.
В середине процесса генерации данных участникам была предоставлена возможность ответить на вопросы, заданные другими участниками. Им было предложено перефразировать первоначальный вопрос и выбрать только те вопросы, на которые можно было разумно ответить правильно».
Databricks утверждает, что это может быть самый первый созданный человеком набор данных инструкций, созданный для обучения языковой модели следованию инструкциям, как это делает ChatGPT.
Задача состояла в том, чтобы создать 100% оригинальный набор данных, который не имел бы никаких связей с ChatGPT или любым другим источником с ограничительной лицензией.
Сотрудники были поощрены конкурсом, чтобы внести свой вклад в создание 15 000 подсказок / ответов по семи категориям задач, таких как мозговой штурм, классификация и творческое письмо.
Databricks утверждает, что обучающий набор databricks-dolly-15k может превосходить набор данных, используемый для обучения ChatGPT.
Они отмечают, что хотя их набор данных меньше, чем тот, который использовался для обучения модели Stanford Alpaca, их модель работала лучше, потому что их данные более высокого качества.
Они пишут:
«Модель Dolly 2.0, основанная на pythia-12b от EleutherAI, продемонстрировала высокое качество выполнения инструкций. Оглядываясь назад, это не удивительно.
Многие наборы данных по настройке инструкций, выпущенные в последние месяцы, содержат синтезированные данные, которые часто содержат галлюцинации и фактические ошибки.
databricks-dolly-15k, с другой стороны, создан профессионалами, отличается высоким качеством и содержит подробные ответы на большинство задач.
…мы не ожидаем, что Dolly будет самой современной с точки зрения эффективности.
Однако мы ожидаем, что Dolly и набор данных с открытым исходным кодом послужат основой для множества последующих работ, которые могут послужить для запуска еще более мощных языковых моделей».
Ограничения набора данных
Страница GitHub для набора данных признает, что в наборе данных могут быть некоторые недостатки.
Данные Википедии использовались для части обучения в контексте создания подсказок и ответов. Таким образом, вполне возможно, что любая предвзятость, содержащаяся в Википедии, может в конечном итоге отразиться в результирующем наборе данных.
Некоторые из сотрудников, которые работали над созданием набора данных, не были носителями английского языка, что могло внести некоторые аномалии в набор данных.
Демографический состав сотрудников, создавших набор данных, может сам по себе повлиять на то, что набор данных будет содержать предубеждения, характерные для этих сотрудников.
Несмотря на эти возможные недостатки в наборе данных, Databricks заявили, что их набор более высокого качества.
Кроме того, Dolly 2.0 предназначена для того, чтобы служить отправной точкой для создания и усовершенствования еще более совершенных версий.
Databricks настаивает на том, что ИИ с открытым исходным кодом лучше
Одна из причин создания Dolly 2.0 заключается в том, что пользователи данных могут владеть созданными ими моделями и лучше защищать свои данные, не делясь ими с третьими лицами.
Они также считают, что безопасность ИИ не должна быть сосредоточена в руках трех крупных корпораций, а должна быть распространена среди всех заинтересованных сторон.
Открытый исходный код набирает обороты, и будет интересно посмотреть, на каком этапе развития окажется эта отрасль в ближайшие два года.
Более подробную информацию о том, где скачать модель Dolly 2.0 и как ею пользоваться, можно найти в их объявлении.
Free Dolly: представляем первую в мире LLM с действительно открытыми инструкциями
Избранное изображение Shutterstock/Камиля Макниака