Google представила Gemini, свою самую продвинутую и мощную модель искусственного интеллекта (ИИ) с расширенными мультимодальными возможностями.

Эта революционная модель представляет собой шаг вперед в технологии искусственного интеллекта, предлагая самую современную производительность по сравнению с существующими моделями больших языков (LLM).

Сундар Пичаи, генеральный директор Google и Alphabet, подчеркнул, что искусственный интеллект формирует глубокий технологический сдвиг, потенциально превосходящий влияние мобильной и веб-революций.

Он подчеркнул значение искусственного интеллекта в стимулировании инноваций и экономического прогресса, расширении человеческих знаний, творчества и производительности.

Что такое Google Gemini?

Разработанная компанией Google DeepMind под руководством генерального директора и соучредителя Демиса Хассабиса, Gemini является свидетельством постоянного стремления Google стать компанией, ориентированной на искусственный интеллект.

Модель демонстрирует впечатляющий набор возможностей, особенно в ее мультимодальном понимании — функции, позволяющей ей обрабатывать и плавно комбинировать различные типы информации, включая текст, код, аудио, изображения и видео.

Модели Google Gemini: Ultra, Pro и Nano

Gemini 1.0, первая версия модели, выпускается в трёх вариантах: Gemini Ultra, Gemini Pro и Gemini Nano.

Скриншот с сайта DeepMind, декабрь 2023 г.

Каждый из них оптимизирован для конкретных задач: Gemini Ultra предназначен для очень сложных задач, Gemini Pro — для широкого спектра задач, а Gemini Nano — для эффективных задач на устройстве.

Google представляет Gemini и обновляет Bard до Gemini ProСкриншот Google, декабрь 2023 г.

Производительность Google Gemini: текстовые тесты

Производительность модели исключительна: она превосходит экспертов-людей в области массового многозадачного понимания языка (MMLU) с результатом 90,0%.

ЧИТАТЬ  Сравнение вывода трендового контента в ChatGPT, Gemini и Claude

Кроме того, Gemini Ultra превосходит существующие модели по 30 из 32 широко используемых академических тестов в исследованиях больших языковых моделей.

Google Gemini Text тестирует производительность gpt-4Скриншот с сайта DeepMind, декабрь 2023 г.

Мультимодальные возможности и производительность Google Gemini

Инновационный подход Gemini к мультимодальности отличает его от предыдущих моделей.

Традиционные мультимодальные модели часто ограничены своим дизайном, который включает в себя обучение отдельных компонентов для разных модальностей и их последующее объединение.

Напротив, Gemini изначально создавался как мультимодальный, что позволяет ему гораздо эффективнее понимать и анализировать различные входные данные.

Мультимодальные возможности Google Gemini, производительность gpt-4vСкриншот с сайта DeepMind, декабрь 2023 г.

Эта возможность делает Gemini мощным инструментом в различных областях, от науки до финансов, где он может извлекать ценную информацию из огромных объемов данных и обеспечивать расширенные рассуждения по сложным предметам, таким как математика и физика.

Примеры из отчета Google DeepMind о Google Gemin демонстрируют мультимодальные возможности Gemini, такие как генерация изображений.

Google представляет Gemini и обновляет Bard до Gemini ProСкриншот Google, декабрь 2023 г.

В этом видео Google тестирует Gemini с помощью Emoji Kitchen.

Он также может обрабатывать текст, изображения и аудио, как показано ниже.

Google представляет Gemini и обновляет Bard до Gemini ProСкриншот Google, декабрь 2023 г.

Это видео от Google дает больше информации о способности Gemini обрабатывать необработанный звук.

Сравнительные показатели Gemini с внешними конкурентами

Как Google Gemini соотносится с лучшими моделями искусственного интеллекта OpenAI, Inflection, Anthropic, Meta и xAI? Ниже показана производительность Gemini Ultra и Pro в текстовых тестах по сравнению с конкурентами.

близнецы gpt-4 перегиб-2 лама 2 грок 1 клод-2 тесты сравнения производительностиСкриншот Google, декабрь 2023 г.

Близнецы преуспевают в программировании

Помимо своих мультимодальных возможностей, Gemini отлично справляется с задачами кодирования. Его способность понимать, объяснять и генерировать высококачественный код на нескольких языках программирования делает его ведущей моделью кодирования.

Google представляет Gemini и обновляет Bard до Gemini ProСкриншот Google, декабрь 2023 г.

Он также формирует основу для более совершенных систем кодирования, таких как AlphaCode 2, что значительно улучшает проблемы конкурентного программирования.

ЧИТАТЬ  TW-BERT: комплексное взвешивание терминов запроса и будущее поиска Google

Эффективность и масштабируемость модели подкрепляются разработанными Google тензорными процессорами (TPU) v4 и v5e, что делает ее наиболее надежной и масштабируемой моделью для обучения и обслуживания.

Google Bard теперь работает на Gemini Pro

Google также объявила о значительном обновлении Bard, интегрировавшем Gemini Pro для расширения возможностей ИИ.

Google представляет Gemini и обновляет Bard до Gemini ProСкриншот из Google Bard, декабрь 2023 г.

Это обновление представляет собой самое большое улучшение, которое Бард получил на сегодняшний день.

Gemini Pro был доработан в Bard, чтобы значительно улучшить его производительность в понимании и обобщении информации, рассуждениях, кодировании и планировании.

Google представляет Gemini и обновляет Bard до Gemini ProСкриншот из Google Bard, декабрь 2023 г.

Теперь пользователи могут использовать Bard на базе Gemini Pro для текстового взаимодействия, и в ближайшее время планируется расширить поддержку других модальностей.

Первоначально это обновление было доступно на английском языке в более чем 170 странах и территориях, но вскоре оно будет распространено на другие языки и регионы, включая Европу.

Понимание намерений с помощью Gemini для персонализированного UX

Это видео демонстрирует способность Gemini понимать намерения пользователей и создавать персонализированный пользовательский опыт.

Все начинается с понимания цели пользователя и сбора соответствующей информации, прежде чем рассуждать и создавать индивидуальный интерфейс для исследования.

Пользователь может взаимодействовать с интерфейсом и получать дополнительную информацию в зависимости от своих потребностей, демонстрируя способность Gemini адаптироваться и предоставлять персонализированный опыт.

Мультимодальные подсказки с Близнецами

В Google для разработчиков блогвы найдете примеры мультимодальных подсказок с помощью Близнецов в действии.

Мультимодальное продвижение — это метод взаимодействия с моделями ИИ, который включает предоставление входных данных в различных формах, таких как текст и изображения, и получение прогнозируемых ответов от ИИ.

Этот метод подсказок сочетает в себе текстовые и графические подсказки для решения различных задач: от решения логических головоломок до понимания последовательности изображений.

ЧИТАТЬ  AL Voice Honor: что это за приложение на Huawei и почему не поддерживается в вашем устройстве

Это также помогает Близнецам овладеть навыками распознавания образов и улучшить свои навыки рассуждения.

В таких областях, как разработка игр или создание музыкальных запросов, мультимодальное продвижение помогает писать код и создавать как текстовые, так и графические ответы.

Интеграция с другими инструментами и приложениями демонстрирует потенциал для практических и профессиональных приложений, таких как дизайн, кодирование и создание контента.

Google Pixel 8 Pro: первый смартфон со встроенным искусственным интеллектом на базе Gemini Nano

Последнее обновление Google представляет Gemini Nano, усовершенствованную модель искусственного интеллекта, которая теперь интегрирована в смартфон Pixel 8 Pro.

Это обновление отмечает Pixel 8 Pro как первый телефон, разработанный для искусственного интеллекта с Gemini Nano и технологией Google Tensor G3.

Ключевые функции включают «Суммирование в рекордере» для обобщения аудиозаписей на устройстве и «Умный ответ в Gboard» для контекстно-зависимых текстовых ответов. Эти функции повышают конфиденциальность и функциональность пользователя без необходимости подключения к сети.

Кроме того, Google объявила о предстоящих улучшениях Assistant with Bard в линейке Pixel, что еще больше расширит возможности искусственного интеллекта.

Обновление также включает улучшения фото и видео на основе искусственного интеллекта, такие как улучшенная стабилизация видео, видео Night Sight и функция размытия фотографий для более четкого изображения домашних животных.

Для повышения производительности предусмотрены новые инструменты, такие как предварительный просмотр на двух экранах в Pixel Fold, улучшенные видеозвонки с использованием телефонов Pixel в качестве веб-камер и очистка отсканированных документов.

Диспетчер паролей Google теперь поддерживает ключи доступа, а устройства Pixel получили новые функции безопасности, такие как режим восстановления. Pixel Watch предлагает удобные функции разблокировки телефона и проверки вызовов, а Pixel Tablet предлагает функцию Clear Calling и поддержку пространственного звука.

Гугл также расширяется поддержка языка в приложении Recorder и расширяет возможности Direct My Call и Hold for Me для большего количества регионов и устройств.

Ответственная разработка ИИ

Google уделяет приоритетное внимание ответственной разработке искусственного интеллекта, обеспечивая всестороннюю оценку безопасности Gemini на предмет предвзятости и токсичности.

Компания сотрудничает с различными внешними экспертами и партнерами для тщательного тестирования модели и устранения потенциальных рисков.

Как получить Близнецов

Gemini 1.0 постепенно интегрируется в различные продукты и платформы Google и вскоре станет доступен разработчикам и корпоративным клиентам через Google AI Studio и Google Cloud Vertex AI.

В рамках стремления Google ответственно продвигать искусственный интеллект, Gemini Ultra перед его более широким выпуском пройдет тщательную проверку доверия и безопасности.

введение Gemini от Google знаменует собой важную веху в развитии искусственного интеллекта.

Его расширенные возможности, начиная от сложных мультимодальных рассуждений и заканчивая эффективным кодированием, сигнализируют о начале новой эры в искусственном интеллекте, открывая замечательные возможности для инноваций во многих областях.

Рекомендованное изображение: VDB Photos/Shutterstock





Source link