Google опубликовал исследовательскую работу по новой технологии под названием Infini-attention, которая позволяет обрабатывать огромные объемы данных с «бесконечно длинными контекстами», а также ее можно легко вставлять в другие модели, чтобы значительно улучшить их возможности.

Последняя часть должна представлять интерес для тех, кто интересуется алгоритмом Google. Infini-attention работает по принципу «подключи и работай», что означает, что его относительно легко вставить в другие модели, в том числе те, которые используются основным алгоритмом Google. Часть о «бесконечно длинных контекстах» может иметь значение для обновления некоторых поисковых систем Google.

Название научной работы: Не оставляйте контекст позади: эффективные преобразователи бесконечного контекста с бесконечным вниманием

Память требует больших вычислительных затрат для студентов LLM

Модели большого языка (LLM) имеют ограничения на объем данных, которые они могут обрабатывать за один раз, поскольку сложность вычислений и использование памяти могут значительно возрасти. Infini-Attention дает LLM возможность обрабатывать более длинные контексты, сохраняя при этом ненужную память и необходимую вычислительную мощность.

В исследовательской работе объясняется:

«Память служит краеугольным камнем интеллекта, поскольку позволяет проводить эффективные вычисления, адаптированные к конкретным контекстам. Однако Трансформеры… и LLM на основе Трансформеров… имеют ограниченную контекстно-зависимую память из-за природы механизма внимания.

Действительно, масштабирование LLM до более длинных последовательностей (например, 1 млн токенов) является сложной задачей при использовании стандартных архитектур Transformer, а обслуживание все более и более длинных контекстных моделей становится дорогостоящим с финансовой точки зрения».

И в другом месте исследовательская статья объясняет:

«Модели трансформаторов тока ограничены в своей способности обрабатывать длинные последовательности из-за квадратичного увеличения затрат на вычисления и память. Infini-attention стремится решить эту проблему масштабируемости».

Исследователи предположили, что Infini-attention может масштабироваться для обработки чрезвычайно длинных последовательностей с помощью Transformers без обычного увеличения вычислительных ресурсов и ресурсов памяти.

ЧИТАТЬ  СВС против общественности в Telegram. Обзор причин и выводы для блоггеров

Три важные особенности

Infini-attention от Google устраняет недостатки моделей преобразователей, включая три функции, которые позволяют LLM на основе преобразователей обрабатывать более длинные последовательности без проблем с памятью, а также использовать контекст из более ранних данных в последовательности и сопоставлять его с контекстом, находящимся дальше по направлению к конец последовательности.

Особенности Инфини-Внимание

  • Сжатая система памяти
  • Долгосрочное линейное внимание
  • Местное замаскированное внимание

Сжатая система памяти

Infini-attention использует так называемую систему сжатия памяти. По мере ввода большего количества данных (как часть длинной последовательности данных) система сжатия памяти сжимает часть старой информации, чтобы уменьшить объем пространства, необходимого для хранения данных.

Долгосрочное линейное внимание

Infini-внимание также использует так называемые «механизмы долгосрочного линейного внимания», которые позволяют LLM обрабатывать данные, которые существуют ранее в последовательности.

Это важно для задач, где контекст существует в более широкой плоскости данных. Это похоже на возможность обсудить всю книгу в контексте всех глав и объяснить, как первая глава связана с другой главой в середине книги.

Местное замаскированное внимание

Помимо долговременного внимания, Infini-внимание также использует так называемое локальное замаскированное внимание. Этот вид внимания обрабатывает близлежащие (локализованные) части входных данных, что полезно для ответов, которые зависят от более близких частей данных.

Объединение долгосрочного и локального внимания помогает решить проблему ограниченности преобразователей объемом входных данных, которые они могут запомнить и использовать для контекста.

Исследователи объясняют:

«Инфини-внимание включает в себя сжимающую память в ванильный механизм внимания и объединяет механизмы как замаскированного локального внимания, так и механизмы долговременного линейного внимания в одном блоке Трансформера».

Результаты экспериментов и испытаний

Infini-attention тестировался с использованием обычных моделей для сравнения нескольких тестов, включающих длинные входные последовательности, таких как языковое моделирование с длинным контекстом, получение пароля и задачи обобщения книг. Получение ключа доступа — это тест, в котором языковая модель должна извлечь определенные данные из чрезвычайно длинной текстовой последовательности.

ЧИТАТЬ  Как произвести хорошее первое впечатление на клиента - Le Managemental

Список трех тестов:

  1. Долгоконтекстное языковое моделирование
  2. Проверка пароля
  3. Краткое содержание книги

Длинноконтекстное языковое моделирование и показатель недоумения

Исследователи пишут, что модели с Infini-вниманием превзошли базовые модели и что увеличение длины обучающей последовательности привело к еще большему улучшению результатов. Оценка недоумения. Оценка Perplexity — это показатель, измеряющий производительность языковой модели: более низкие оценки указывают на более высокую производительность.

Исследователи поделились своими выводами:

«Infini-Transformer превосходит базовые показатели Transformer-XL… и Memorizing Transformers, сохраняя при этом в 114 раз меньше параметров памяти, чем модель Memorizing Transformer с KV-памятью на основе векторного поиска и длиной 65 КБ на 9-м уровне. Infini-Transformer превосходит трансформаторы с памятью с длиной памяти 65 КБ и обеспечивает степень сжатия 114x.

Мы дополнительно увеличили длину обучающей последовательности с 32 КБ до 100 КБ и обучили модели на наборе данных Arxiv-math. Обучение на 100 тысячах еще больше снизило показатель недоумения до 2,21 и 2,20 для моделей «Линейная» и «Линейная + Дельта».

Проверка пароля

Тест ключа доступа заключается в том, что случайное число скрывается в длинной текстовой последовательности, и задача состоит в том, чтобы модель извлекла скрытый текст. Ключ доступа скрыт в начале, середине или конце длинного текста. Модель смогла решить тест пароля длиной до 1 миллиона.

«LLM 1B естественным образом масштабируется до длины последовательности 1M и решает задачу извлечения ключа доступа при введении внимания Infini. Infini-Transformers решили задачу с ключом доступа с длиной контекста до 1 М при точной настройке входных данных длиной 5 КБ. Мы сообщаем о точности извлечения на уровне токена ключей доступа, спрятанных в разных частях (начале/середине/конце) длинных входных данных длиной от 32 КБ до 1 М».

Итоговый тест по книге

Infini-attention также преуспел в итоговом тесте книги, превзойдя высшие тесты и достигнув нового уровня производительности (SOTA).

ЧИТАТЬ  Как отслеживать офлайн-конверсии из ваших объявлений Google

Результаты описаны:

«Наконец, мы показываем, что модель 8B с вниманием Infini достигает нового результата SOTA в задаче обобщения книги длиной 500 тысяч после непрерывного предварительного обучения и тонкой настройки задачи.

…Мы дополнительно масштабировали наш подход, непрерывно предварительно обучая модель 8B LLM с входной длиной 8 КБ для 30 000 шагов. Затем мы доработали задачу реферирования книги BookSum (Kry´sci´nski et al., 2021), цель которой – создать краткое изложение всего текста книги.

Наша модель превосходит предыдущие лучшие результаты и достигает нового SOTA для BookSum за счет обработки всего текста из книги. …Существует явная тенденция, показывающая, что чем больше текста поступает из книг, наши Infini-Transformers улучшают свои показатели производительности обобщения».

Последствия Infini-Attention для SEO

Infini-attention — это прорыв в моделировании внимания на дальние и короткие дистанции с большей эффективностью, чем предыдущие модели без Infini-внимания. Он также поддерживает «Непрерывное предварительное обучение по принципу «включай и работай» и адаптация к долгосрочному контекстуЭто означает, что его можно легко интегрировать в существующие модели.

Наконец, «постоянная предварительная подготовка и долгосрочная адаптацияделает его идеальным для сценариев, в которых имеется поток новых данных, которые необходимо постоянно добавлять для обучения модели. Эта последняя часть очень интересна, потому что она может оказаться полезной для приложений на внутренней стороне поисковых систем Google, особенно там, где необходимо иметь возможность анализировать длинные последовательности информации и понимать релевантность одной части в начале последовательности. в другую часть, которая ближе к концу.

Тот факт, что исследователи заявляют о «бесконечно длинных входных данных», удивителен, но что действительно важно для SEO, так это то, что этот механизм — это способность обрабатывать длинные последовательности данных, чтобы «не оставлять позади никакого контекста», а также аспект «включай и работай». это. Это дает представление о том, как можно улучшить некоторые системы Google, если Google адаптирует внимание Infini к системам в рамках своего основного алгоритма.

Прочтите исследовательскую работу:

Не оставляйте контекст позади: эффективные преобразователи бесконечного контекста с бесконечным вниманием

Рекомендованное изображение: Shutterstock/JHVEPhoto



Source link