Hugging Face недавно представила Falcon 180B, крупнейшую модель большого языка с открытым исходным кодом, которая, как говорят, работает так же хорошо, как современный искусственный интеллект Google, Palm 2. И у нее также нет никаких ограждений, которые удерживали бы ее от создания небезопасных и вредных выходных данных.
Содержание
Falcon 180B достигает высочайшего уровня производительности
Фраза «современное состояние» означает, что что-то работает на максимально возможном уровне, равном или превосходящем текущий образец лучшего.
Это большое событие, когда исследователи объявляют, что алгоритм или большая языковая модель достигают высочайшего уровня производительности.
И это именно то, что Hugging Face говорит о Falcon 180B.
Falcon 180B демонстрирует высочайшую производительность при решении задач на естественном языке, превосходит предыдущие модели с открытым исходным кодом, а также «соперничает» с Palm 2 от Google по производительности.
И это не просто хвастовство.
Заявление Hugging Face о том, что Falcon 180B конкурирует с Palm 2, подтверждается данными.
Данные показывают, что Falcon 180B превосходит предыдущую самую мощную модель с открытым исходным кодом Llama 270B в ряде задач, используемых для измерения мощности модели искусственного интеллекта.
Falcon 180B даже превосходит GPT-3.5 OpenAI.
Данные тестирования также показывают, что Falcon 180B работает на том же уровне, что и Palm 2 от Google.
Скриншот сравнения производительности
В объявлении пояснялось:
«Falcon 180B — лучший открыто выпущенный LLM на сегодняшний день, превосходящий по производительности Llama 2 70B и OpenAI GPT-3.5…
Falcon 180B обычно находится где-то между GPT 3.5 и GPT4, в зависимости от оценочного теста…»
Далее в объявлении подразумевается, что дополнительная точная настройка модели пользователями может еще больше повысить производительность.
Незначительные технические проблемы, которые запутывают индексацию, например, запуск 301-перенаправления по внутренним ссылкам на старые URL-адреса, в которых была обновлена структура категорий.
Набор данных, используемый для обучения Falcon 180B
Компания Hugging Face опубликовала исследовательскую работу (PDF-версия здесь), содержащий подробную информацию о наборе данных, использованном для обучения Falcon 180B.
Он называется The RefinedWeb Dataset.
Этот набор данных состоит только из контента из Интернета, полученного из общедоступного набора данных Common Crawl с открытым исходным кодом.
Впоследствии набор данных фильтруется и подвергается процессу дедупликации (удалению повторяющихся или избыточных данных) для улучшения качества того, что осталось.
С помощью фильтрации исследователи пытаются удалить спам, сгенерированный компьютером, повторяющийся контент, шаблонный контент, плагиат и данные, не соответствующие естественному языку.
В исследовательской работе объясняется:
«Из-за ошибок сканирования и источников низкого качества многие документы содержат повторяющиеся последовательности: это может вызвать патологическое поведение в окончательной модели…
…Значительная часть страниц представляет собой спам, сгенерированный компьютером, состоящий преимущественно из списков ключевых слов, шаблонного текста или последовательностей специальных символов.
Такие документы не подходят для языкового моделирования…
…Мы применяем агрессивную стратегию дедупликации, сочетающую как нечеткие совпадения документов, так и удаление точных последовательностей».
Очевидно, становится необходимым фильтровать и иным образом очищать набор данных, поскольку он состоит исключительно из веб-данных, в отличие от других наборов данных, которые добавляют не-сетевые данные.
Попытки исследователей отфильтровать ерунду привели к получению набора данных, который, по их утверждению, ничуть не уступает более тщательно подобранным наборам данных, состоящим из пиратских книг и других источников данных, не связанных с Интернетом.
В заключение они заявляют, что их набор данных успешен:
«Мы продемонстрировали, что строгая фильтрация и дедупликация могут привести к созданию набора данных, состоящего только из Интернета, в пять триллионов токенов, подходящего для создания моделей, конкурентоспособных по сравнению с самыми современными и даже превосходящих по эффективности LLM, обученных на курируемых корпусах».
У Falcon 180B нет ограждений
В Falcon 180B примечательно то, что не было сделано никаких настроек выравнивания, чтобы предотвратить создание вредных или небезопасных выходных данных, а также ничего, что не мешало бы ему выдумывать факты и откровенную ложь.
Как следствие, модель можно настроить для генерации результатов, которые невозможно получить с помощью продуктов OpenAI и Google.
Это указано в разделе объявления под названием «Ограничения».
Обнимающее Лицо советует:
«Ограничения: модель может и будет выдавать фактически неверную информацию, галлюцинируя факты и действия.
Поскольку он не подвергался какой-либо расширенной настройке/согласовке, он может выдавать проблемные результаты, особенно если его об этом попросят».
Коммерческое использование Falcon 180B
Hugging Face позволяет коммерческое использование Falcon 180B.
Однако он выпущен под ограничительная лицензия.
Hugging Face рекомендует тем, кто желает использовать Falcon 180B, сначала проконсультироваться с юристом.
Falcon 180B — отправная точка
Наконец, модель не проходила обучение, а это означает, что ее необходимо обучить, чтобы она могла работать в качестве чат-бота с искусственным интеллектом.
Так что это похоже на базовую модель, которой нужно больше, чтобы она стала такой, какой ее хотят видеть пользователи. Hugging Face также выпустила модель чата но это, видимо, «простой».
Обнимающее Лицо объясняет:
«Базовая модель не имеет формата подсказки. Помните, что это не диалоговая модель и не обученная с помощью инструкций, поэтому не ждите, что она будет генерировать диалоговые ответы: предварительно обученная модель является отличной платформой для дальнейшей тонкой настройки, но вам, вероятно, не следует использовать ее напрямую «из коробки».
Модель чата имеет очень простую структуру разговора».
Прочтите официальное объявление:
Расправьте крылья: Falcon 180B уже здесь
Рекомендованное изображение: Shutterstock/Giu Studios