Новая модель искусственного интеллекта превосходит мощный PaLM-2 от Google • Продвижение Web 2.0

Inflection AI, создатели PI AI Personal Assistant, объявили о создании новой мощной большой языковой модели под названием Inflection-2, которая превосходит языковую модель Google PaLM в ряде наборов данных сравнительного анализа.

Содержание

1 Персональный помощник Пи
2 Большая языковая модель Inflection-2
3 MMLU – универсальное многозадачное понимание языка
4 MBPP — производительность кода и математических рассуждений
- 4.1 Результаты MBPP:
5 Снимок экрана с полными оценками MBPP
6 Тест набора данных HumanEval
7 Снимок экрана с полными оценками HumanEval
8 Грядет еще более мощный LLM

Персональный помощник Пи

Pi — это личный помощник, доступный в Интернете и в виде приложения для мобильных устройств Android и Apple.

Его также можно добавить в качестве контакта в WhatsApp и получить к нему доступ через прямое сообщение в Facebook и Instagram.

Pi создан как помощник в чат-боте, который может отвечать на вопросы, исследовать что-либо, включая продукты, науку или продукты, и может функционировать как собеседник, дающий советы.

Новый LLM будет включен в PI AI вскоре после прохождения испытаний на безопасность.

Большая языковая модель Inflection-2

Inflection-2 — это большая языковая модель, превосходящая по производительности большую модель PaLM 2 от Google, которая на данный момент является самой сложной моделью Google.

Inflection-2 был протестирован в нескольких тестах и сравнен с PaLM 2, LLaMA 2 от Meta и другими моделями большого языка (LLM).

Например, PaLM 2 от Google едва обогнал Inflection-2 в корпусе естественных вопросов, наборе данных реальных вопросов.

PaLM 2 набрал 37,5, а Inflection-2 — 37,3, причем оба превосходят LLaMA 2, который набрал 33,0.

MMLU – универсальное многозадачное понимание языка

Inflection AI опубликовала результаты сравнительного тестирования набора данных MMLU, который предназначен для тестирования LLM аналогично тестированию людей.

ЧИТАТЬ Google AIO: 4 способа выяснить, виден ли ваш бренд в Generative AI [With Prompts]

Тест проводится по 57 предметам STEM (наука, технология, инженерия и математика), а также широкому кругу других предметов, таких как право.

Цель набора данных — определить, где LLM наиболее силен, а где слаб.

Согласно Научно-исследовательская работа для этого набора данных сравнительного анализа:

«Мы предлагаем новый тест для измерения многозадачной точности текстовой модели.

Тест охватывает 57 задач, включая элементарную математику, историю США, информатику, право и многое другое.

Чтобы достичь высокой точности в этом тесте, модели должны обладать обширными знаниями о мире и способностью решать проблемы.

Мы обнаружили, что, хотя большинство последних моделей имеют точность, близкую к случайной, самая крупная модель GPT-3 превосходит случайную вероятность в среднем почти на 20 процентных пунктов.

Однако по каждой из 57 задач лучшие модели все еще нуждаются в существенных улучшениях, прежде чем они смогут достичь точности экспертного уровня.

Модели также имеют однобокую производительность и часто не знают, когда они ошибаются.

Хуже того, они по-прежнему имеют почти случайную точность в некоторых социально важных вопросах, таких как мораль и право.

Всесторонне оценивая широту и глубину академического и профессионального понимания модели, наш тест можно использовать для анализа моделей во многих задачах и выявления важных недостатков».

Это оценки наборов данных сравнительного анализа MMLU в порядке от самого слабого к самому сильному:

ЛЛаМА 270b 68,9
ГПТ-3,5 70,0
Грок-1 73,0
ПалМ-2 Большой 78,3
Клод-2 _CoT 78.5
Перегиб-2 79,6
ГПТ-4 86,4

Как видно выше, только GPT-4 оценивается выше, чем Inflection-2.

MBPP — производительность кода и математических рассуждений

Inflection AI провел прямое сравнение между GPT-4, PaLM 2, LLaMA и Inflection-2 в тестах по математике и рассуждению кода и показал на удивление хорошие результаты, учитывая, что он не был специально обучен решению математических задач.

ЧИТАТЬ Вы больше не можете регистрироваться на своем компьютере с распознаванием лица? Новый патч обновлений Windows 11, вероятно, является ошибкой -если вы можете установить обновление вообще

Используемый набор данных для сравнительного анализа называется MBPP (Mostly Basic Python Programming). Этот набор данных состоит из более чем 1000 задач программирования на Python, полученных из краудсорсинга.

Что делает эти оценки особенно примечательными, так это то, что Inflection AI тестировался на PaLM-2S, который представляет собой вариант модели большого языка, специально настроенный для кодирования.

Результаты MBPP:

ЛЛаМА-2 70Б: 45,0
ПалМ-2С: 50,0
Перегиб-2: 53,0

Снимок экрана с полными оценками MBPP

Тест набора данных HumanEval

Inflection-2 также превзошел PaLM-2 в наборе данных для решения проблем HumanEval, который был разработан и выпущен OpenAI.

Обнимающее лицо описывает этот набор данных:

«Набор данных HumanEval, выпущенный OpenAI, включает 164 задачи программирования с сигнатурой функции, строкой документации, телом и несколькими модульными тестами.

Они были написаны от руки, чтобы их нельзя было включить в обучающий набор моделей генерации кода.

Задачи по программированию написаны на Python и содержат естественный текст на английском языке в комментариях и строках документации.

Набор данных был создан вручную инженерами и исследователями OpenAI».

Это баллы:

ЛЛаМА-2 70Б: 29,9
ПалМ-2С: 37,6
Перегиб-2: 44,5
ГПТ-4: 67,0

Как видно выше, только GPT-4 набрал больше баллов, чем Inflection-2. Однако следует еще раз отметить, что Inflection-2 не был приспособлен для решения подобных проблем, что делает эти результаты впечатляющим достижением.

Снимок экрана с полными оценками HumanEval

Inflection AI объясняет, почему эти оценки важны:

«Результаты математических тестов и тестов кодирования.

Хотя нашей основной целью для Inflection-2 не было оптимизация этих возможностей кодирования, мы видим высокую производительность в обоих случаях из нашей предварительно обученной модели.

Возможности кодирования нашей модели можно еще больше расширить за счет точной настройки набора данных с большим количеством кода».

Грядет еще более мощный LLM

В объявлении Inflection AI говорилось, что Inflection-2 был обучен на 5000 графических процессорах NVIDIA H100. Они планируют обучить еще более крупную модель на кластере с 22 000 графических процессоров, что на несколько порядков больше, чем кластер Inflection-2 с 5 000 графических процессоров.

ЧИТАТЬ Линди: Агенты искусственного интеллекта проводят исследования, анализ, креатив и кампании, пока вы спите | зона Мартех

Google и OpenAI сталкиваются с сильной конкуренцией со стороны стартапов как с закрытым, так и с открытым исходным кодом. Inflection AI пополняет ряды лучших стартапов с мощным ИИ, находящимся в стадии разработки.

Персональный помощник PI — это диалоговая платформа искусственного интеллекта, в основе которой лежит самая современная технология, способная стать еще более мощной, чем другие платформы, взимающие плату за доступ.

Прочтите официальное объявление:

Перегиб-2: следующий шаг вверх

Посещать Личный помощник PI онлайн

Рекомендованное изображение: Shutterstock/Malchevska

Source link