Hugging Face, сообщество машинного обучения и платформа инструментов искусственного интеллекта, объявила о выпуске HuggingChat, клона ChatGPT с открытым исходным кодом, который каждый может использовать или загрузить для себя.

обнимающее лицо

Hugging Face — это компания и сообщество ИИ. Он предоставляет доступ к бесплатным инструментам с открытым исходным кодом для разработки приложений машинного обучения и искусственного интеллекта.

Один из недавно завершенных проектов Hugging Face — это большая языковая модель со 176 миллиардами параметров под названием Цвестикоторая доступна всем, кто соглашается соблюдать свою лицензию ответственного ИИ.

Существует доступ к моделям с открытым исходным кодом в различных категориях, таких как мультимодальность, зрение, аудио, обработка естественного языка и обучение с подкреплением.

Hugging Face также размещает наборы данных и библиотеки с открытым исходным кодом и служит средством совместной работы команд, включая репозиторий, аналогичный GitHub.

Многие услуги доступны на бесплатном, профессиональном и корпоративном уровнях.

ОбниматьсяЧат

Клон HuggingChat ChatGPT основан на модели разговорного ИИ Open Assistant.

Сам Open Assistant является проектом некоммерческой организации Крупномасштабная открытая сеть искусственного интеллекта (англ.ЛАИОН).

LAION — это глобальная некоммерческая организация, занимающаяся предоставлением доступа к передовым технологиям с открытым исходным кодом.

Они пишут:

НАША ВЕРА
Мы считаем, что исследования в области машинного обучения и его приложения могут оказать огромное положительное влияние на наш мир и поэтому должны быть демократизированы.

НАШИ ОСНОВНЫЕ ЦЕЛИ
Выпуск открытых наборов данных, кода и моделей машинного обучения.

Мы хотим научить основам крупномасштабных исследований машинного обучения и управления данными.

Делая модели, наборы данных и код повторно используемыми без необходимости постоянно обучаться с нуля, мы хотим способствовать эффективному использованию энергии и вычислительных ресурсов для решения проблем, связанных с изменением климата».

На странице GitHub для модели чата Open Assistant говорится:

«Open Assistant — это проект, призванный предоставить каждому доступ к великолепной языковой модели на основе чата.

Мы верим, что этим мы совершим революцию в языковых инновациях.

Точно так же, как стабильное распространение помогло миру создавать искусство и изображения по-новому, мы надеемся, что Open Assistant поможет улучшить мир, улучшив сам язык».

Обучающий набор данных HuggingChat

HuggingChat был обучен с использованием набора данных OpenAssistant Conversations (ОАССТ1)который является очень новым и содержит данные, собранные до 12 апреля 2023 года.

ЧИТАТЬ  Ключи к успешной первой инвестиции в недвижимость - BTB Immobilier

Исследовательская работа для набора данных датируется апрелем 2023 года (OpenAssistant Conversations — демократизация выравнивания модели большого языкаPDF).

В этой модели используется та же методология обучения, созданная OpenAI, которая называется обучением с подкреплением на основе обратной связи с человеком (RLHF).

RLHF — это метод создания высококачественного аннотированного и оцененного по качеству набора данных вопросов и ответов, который можно использовать для обучения ИИ выполнению указаний.

В этом выпуске они достигли своей цели — сделать технику RLHF доступной для всех, кто хочет обучать ИИ.

В исследовательской работе говорилось:

«Стремясь демократизировать исследования по крупномасштабному согласованию, мы выпускаем OpenAssistant Conversations, созданный человеком и аннотированный человеком корпус диалогов в стиле помощника, состоящий из 161 443 сообщений, распределенных по 66 497 деревьям диалогов, на 35 различных языках, аннотированных с качеством 461 292. рейтинги».

Набор данных является продуктом всемирных краудсорсинговых усилий более 13 000 добровольцев.

Краудсорсинг был хорошим способом создания многоязычных обучающих данных, которые способствовали созданию высококачественного набора данных.

Однако, по мнению исследователей, краудсорсинговый подход также вносил ограничения в качество набора данных в виде культурных и субъективных предубеждений лиц, которые создавали и оценивали обучающие данные.

Они также предупредили, что участники, которые были более вовлечены, как правило, вносили больший вклад, что создавало неравномерное распределение их ценностей и предубеждений.

Исследователи пришли к выводу, что набор данных может не отражать разнообразие точек зрения всех участников.

Например, они разослали опрос на свой канал Discord (только на английском языке), задав своим участникам с открытым исходным кодом вопросы, связанные с их демографией (но не этнической принадлежностью).

Если оставить в стороне языковую предвзятость, результаты опроса показали, что из 226 респондентов 201 мужчина, 10 женщин, пятеро идентифицированы как небинарные/другие и 10 отказались отвечать.

ЧИТАТЬ  Установка жесткого забора: Шаги с нуля

Тем не менее, хотя они и не гарантируют на 100 %, что набор данных свободен от вредоносного контента, они по-прежнему поддерживают его, потому что он был создан в соответствии со строгими рекомендациями по обеспечению качества.

Исследователи пишут:

«Чтобы обеспечить качество нашего набора данных, мы установили строгие правила для участников, которым должны следовать все пользователи.

Эти рекомендации предназначены для предотвращения добавления вредоносного контента в наш набор данных и для поощрения участников к получению высококачественных ответов».

HuggingChat доступен

HuggingChat открыт для пользователей прямо сейчас. Для его использования не требуется регистрация для создания учетной записи.

Не ожидайте уровня вывода ChatGPT, сервис еще не на этом уровне. На странице приложения указана версия 0.0, что должно дать представление о том, насколько оно зрело на данный момент.

Тем не менее, это замечательное достижение и первые шаги для сообщества разработчиков ПО с открытым исходным кодом, и его использование совершенно бесплатно.

Посетите веб-страницу HuggingChat здесь:

Веб-страница HuggingChat и пользовательский интерфейс





Source link