Новая модель искусственного интеллекта с открытым исходным кодом под названием Obsidian. объявлено в сообщении Reddit от 30 октября представляет собой прорыв в доступности мультимодального ИИ. Обсидиан — это первый мультимодальный ИИ с 3 параметрами, что делает его модель достаточно компактной, чтобы эффективно работать на обычном ноутбуке.
Мультимодальный ИИ относится к системам ИИ, которые могут обрабатывать и связывать данные из разных режимов, такие как текст, изображения, аудио и видео — в этом случае модель принимает текст и изображения в качестве входных данных, как и последняя версия OpenAI GPT-4V. . Хотя мультимодальные модели искусственного интеллекта, такие как DALL-E 3 и GPT-4, продемонстрировали впечатляющие возможности, их огромный размер делает их ресурсоемкими для запуска и требует дорогостоящего высокопроизводительного оборудования. их, даже если у вас было необходимое специализированное оборудование.
Модель искусственного интеллекта Obsidian объединяет мультимодальный интеллект в памяти стандартного ноутбука.
Обсидиан меняет это, упаковывая мультимодальный интеллектуальность в модели, достаточно маленькой, чтобы поместиться в память стандартного ноутбука и работать на практических скоростях. Обладая 3 миллиардами параметров, Obsidian опирается на архитектуру модели Capybara-3B, которая обеспечивает высочайшую производительность по сравнению с моделями аналогичного размера. Разработчик также объявил на Reddit, что вскоре последует мультимодальная модель, основанная на получившей высокую оценку модели Mistral 7B с открытым исходным кодом.
Компактный размер Obsidian обусловлен технологиями, адаптированными на основе архитектуры модели LLaMA. Согласно сообщению Reddit, анонсирующему Obsidian, он был предварительно обучен на разнообразном синтезированном мультимодальном наборе данных, включая текст в сочетании с соответствующими изображениями. Эта методология обучения позволила ему развить сильные языковые и зрительные способности, несмотря на уменьшенные параметры.
В результате появился ИИ-помощник с навыками общения и визуальным пониманием, который может поместиться в вашем рюкзаке. Obsidian разрушает барьеры для доступа к искусственному интеллекту, открывая новые возможности для интеллектуального анализа на устройстве.
Несмотря на то, что Obsidian все еще является ранней версией, эффективный форм-фактор Obsidian создает захватывающий прецедент. Это демонстрирует, что мультимодальный ИИ не обязательно размещать в гигантских центрах обработки данных, а можно сделать достаточно компактным для широкого распространения.
Рекомендованное изображение: От Создание изображений в Aimesoft; Спасибо!