В 100 раз меньше вычислительной мощности при производительности LLM на уровне GPT: как малоизвестный проект с открытым исходным кодом может помочь разгадать тайну производительности графического процессора - RWKV выглядит многообещающе, но проблемы остаются • Продвижение Web 2.0

Рекуррентные нейронные сети (RNN) — это тип искусственного интеллекта, который в основном используется в области глубокого обучения. В отличие от традиционных нейронных сетей, RNN имеют память, в которую записывает информацию о том, что уже было вычислено. Другими словами, они используют свое понимание предыдущих входных данных, чтобы повлиять на результат, который они произведут.

RNN называются «рекуррентными», поскольку они выполняют одну и ту же задачу для каждого элемента последовательности, причем результат зависит от предыдущих вычислений. RNN до сих пор используются для поддержки интеллектуальных технологий, таких как Siri от Apple и Google Translate.

Однако с появлением таких преобразователей, как ChatGPT, ландшафт обработки естественного языка (NLP) изменился. Хотя Трансформеры произвели революцию в задачах НЛП, их память и вычислительная сложность масштабировались квадратично в зависимости от длины последовательности, что требовало больше ресурсов.

Введите RWKV

Теперь новый проект с открытым исходным кодом, РВКВпредлагает многообещающие решения проблемы производительности графического процессора. Проект, поддерживаемый Linux Foundation, направлен на резкое сокращение вычислительных потребностей моделей изучения языка (LLM) на уровне GPT, потенциально до 100 раз.

RNN имеют линейное масштабирование требований к памяти и вычислениям, но не могут сравниться по производительности с трансформаторами из-за их ограничений в распараллеливании и масштабируемости. Здесь в игру вступает RWKV.

RWKV (взвешенное ключевое значение по восприятию) — это новая архитектура модели, которая сочетает в себе распараллеливаемую эффективность обучения преобразователей с эффективным выводом RNN. Результат? Модель, которая требует значительно меньше ресурсов (VRAM, CPU, GPU и т.д.) для работы и обучения при сохранении качественной производительности. Он также линейно масштабируется до любой длины контекста и, как правило, больше подходит для языков, отличных от английского.

ЧИТАТЬ Объединение Search Console и внутренних данных в Looker Studio | Центральный блог поиска Google | Разработчики Google

Несмотря на эти многообещающие особенности, модель RWKV не лишена проблем. Он чувствителен к быстрому форматированию и слабее справляется с задачами, требующими оглядки. Однако эти проблемы решаются, и потенциальные преимущества модели намного перевешивают текущие ограничения.

Влияние проекта RWKV огромно. Вместо того, чтобы использовать 100 графических процессоров для обучения модели LLM, модель RWKV может дать аналогичные результаты с менее чем 10 графическими процессорами. Это не только делает технологию более доступной, но и открывает возможности для дальнейшего развития.

Больше от TechRadar Pro

Source