л'Институт Аллена по искусственному интеллекту недавно представленный Унифицированный-IO 2новую усовершенствованную модель искусственного интеллекта, которая может представлять собой следующее поколение таких моделей, как ГПТ-5. Эта передовая модель способна обрабатывать и создавать текст, изображения, аудио, видео и последовательности действий. С его 7 миллиардов параметровUnified-IO 2 был обучен с нуля на широком спектре мультимодальных данных и поддерживает запросы.

Мультимодальное обучение на миллиардах точек данных

Unified-IO 2 был обучен на одном миллиарде пар изображение-текст. триллион текстовых токенов, 180 миллионов видеоклипов, 130 миллионов изображений с текстом, 3 миллиона 3D-ресурсов и 1 миллион последовательностей движений роботов-агентов.. В целом команда объединила более 120 наборов данных в пакет объемом 600 терабайт, охватывающий 220 визуальных, лингвистических, слуховых и практических задач.

Единственная в своем роде модель

Обучение Unified-IO 2 позволяет ему обрабатывать, понимать и создавать текст. Например, модель может отвечать на вопросы, составлять текст по инструкциям и анализировать текстовый контент. Модель также может распознавать содержимое изображения, предоставлять описания изображений, выполнять задачи по обработке изображений и создавать новые изображения на основе текстовых описаний.

Разнообразный набор режимов

Unified-IO 2 может генерировать музыку или звуки на основе описаний или инструкций, а также анализировать видео и отвечать на вопросы по ним. Обучая роботизированные данные, Unified-IO 2 также может генерировать действия для роботизированных систем, например преобразовывать инструкции в последовательности действий для роботов. Благодаря мультимодальному обучению он также может обрабатывать различные модальности и, например, идентифицировать инструменты звуковой дорожки на изображении.

Отличные выступления и новые рекорды

Unified-IO 2 доказал свою высокую производительность 35 эталонов, включая генерацию и понимание изображений, понимание естественного языка, понимание видео и аудио, а также манипулирование роботами. Модель достигает результатов, сравнимых или превосходящих результаты специализированных моделей в большинстве задач. Кроме того, он учредил новый рекорд в тесте GRIT для задач обработки изображенийкоторый оценивает, как модели справляются с шумом и другими проблемами изображения.

ЧИТАТЬ  150+ лучших каналов YouTube в каждой категории

Предшественник Unified-IO 2

Предшественник Unified-IO 2, Unified-IO, был представлен в июне 2022 года и стал одной из первых мультимодальных моделей, способных обрабатывать изображения и язык. В то же время OpenAI проводила внутреннее тестирование GPT-4 перед тем, как представить большую языковую модель с видением GPT-4 в марте 2023 года.

Таким образом, Unified-IO стал первым взглядом на будущее крупномасштабных моделей ИИ, которые теперь стали обычным явлением для моделей OpenAI и мультимодально обученных моделей. Гугл Близнецы. Unified-IO 2 теперь показывает, чего мы можем ожидать в 2024 году: новые модели искусственного интеллекта, которые могут обрабатывать еще больше модальностей, выполнять множество задач посредством углубленного обучения и иметь элементарные знания о взаимодействии с объектами и роботами. Последнее также может оказать положительное влияние на производительность в других областях.

Будущее Unified-IO 2

Команда планирует и дальше улучшать качество данных и масштабировать Unified-IO 2, преобразуя модель кодера-декодера в стандартную архитектуру модели декодера. Более подробную информацию и исходный код можно найти на странице проекта.



Source link