Технический директор Microsoft в Германии Андреас Браун подтвердил, что GPT-4 появится в течение недели после 9 марта 2023 года и будет мультимодальным. Мультимодальный ИИ означает, что он сможет работать с несколькими видами ввода, такими как видео, изображения и звук.

Мультимодальные модели больших языков

Главный вывод из объявления заключается в том, что GPT-4 является мультимодальным (SEJ предсказывала, что GPT-4 будет мультимодальным в январе 2023 года).

Модальность — это ссылка на тип ввода, с которым (в данном случае) имеет дело большая языковая модель.

Мультимодальность может охватывать текст, речь, изображения и видео.

GPT-3 и GPT-3.5 работали только в одной модальности, текстовой.

Согласно немецкому новостному сообщению, GPT-4 может работать как минимум в четырех режимах: изображения, звук (слуховой), текст и видео.

Цитируется доктор Андреас Браун, технический директор Microsoft в Германии:

«Мы представим GPT-4 на следующей неделе, там у нас будут мультимодальные модели, которые будут предлагать совершенно другие возможности — например, видео…»

В отчетах отсутствовали подробности для GPT-4, поэтому неясно, было ли то, что было сказано о мультимодальности, специфичным для GPT-4 или только в целом.

Бизнес-стратегия директора Microsoft Хольгер Кенн объяснил мультимодальность, но в отчете было неясно, имел ли он в виду мультимодальность GPT-4 или мультимодальность в целом.

Я считаю, что его ссылки на мультимодальность были специфичны для GPT-4.

Новостной репортаж поделился:

«Кенн объяснил, что такое мультимодальный ИИ, который может переводить текст не только в изображения, но также в музыку и видео».

Еще одним интересным фактом является то, что Microsoft работает над «метрики доверия», чтобы обосновать свой ИИ фактами, чтобы сделать его более надежным.

ЧИТАТЬ  Разработка выигрышной рыночной стратегии (GTM): основа и фокус | зона Мартех

Майкрософт Космос-1

Что-то, что, по-видимому, было занижено в Соединенных Штатах, заключается в том, что Microsoft выпустила мультимодальную языковую модель под названием Kosmos-1 в начале марта 2023 года.

Об этом сообщает немецкий новостной сайт. Heise.dе:

«…команда подвергла предварительно обученную модель различным тестам с хорошими результатами в классификации изображений, ответах на вопросы о содержании изображения, автоматической маркировке изображений, оптическом распознавании текста и задачах генерации речи.

…Визуальное рассуждение, т.е. умение делать выводы об изображениях без использования языка в качестве промежуточного шага, по-видимому, является здесь ключевым моментом…»

Kosmos-1 — мультимодальный модал, объединяющий модальности текста и изображений.

GPT-4 идет дальше, чем Космос-1, потому что добавляет третью модальность, видео, а также, по-видимому, включает модальность звука.

Работает на нескольких языках

GPT-4 работает на всех языках. Это описывается как возможность получить вопрос на немецком языке и ответить на немецком языке.

Какой-то странный пример, потому что кто задаст вопрос на немецком и захочет получить ответ на итальянском?

Вот что подтвердилось:

«…технология зашла так далеко, что фактически «работает на всех языках»: можно задать вопрос на немецком и получить ответ на итальянском.

Благодаря мультимодальности Microsoft (-OpenAI) «сделает модели всеобъемлющими».

Я считаю, что смысл прорыва в том, что модель превосходит язык благодаря своей способности извлекать знания из разных языков. Поэтому, если ответ на итальянском языке, он узнает об этом и сможет предоставить ответ на том языке, на котором был задан вопрос.

Это сделало бы его похожим на цель мультимодального искусственного интеллекта Google под названием MUM. Говорят, что мама может давать ответы на английском языке, для которых данные существуют только на другом языке, например, на японском.

ЧИТАТЬ  Quordle Today – советы и ответы на понедельник, 12 февраля (игра № 749)

Приложения GPT-4

В настоящее время нет объявлений о том, где появится GPT-4. А вот Azure-OpenAI упоминался особо.

Google изо всех сил пытается догнать Microsoft, интегрируя конкурирующую технологию в свою собственную поисковую систему. Это развитие событий еще больше усугубляет восприятие того, что Google отстает и не имеет лидерства в области искусственного интеллекта, ориентированного на потребителя.

Google уже интегрирует искусственный интеллект в несколько продуктов, таких как Google Lens, Google Maps и другие области, с которыми потребители взаимодействуют с Google.

Просто то, как Microsoft реализует это, более заметно.

Оригинал немецкого репортажа читайте здесь:

GPT-4 появится на следующей неделе, и он будет мультимодальным, говорит Microsoft Germany.

Избранное изображение Shutterstock/Master1305





Source link