Что говорят клиенты
Клиенты Google Cloud уже используют встроенные звуковые возможности Gemini для достижения реальных бизнес-результатов — от обработки ипотечных кредитов до звонков клиентам.
- «Пользователи часто забывают, что разговаривают с ИИ, уже через минуту после использования Sidekick, а в некоторых случаях благодарят бота после долгого разговора… Новые функции AI Live API, предлагаемые через Gemini. [2.5 Flash Native Audio] дайте нашим торговцам возможность победить. – Дэвид Вюрц, вице-президент по продукту, Shopify
- «Интегрировав модель Gemini 2.5 Flash Native Audio… мы значительно расширили возможности Mia с момента ее запуска в мае 2025 года. Эта мощная комбинация позволила нам выдать более 14 000 кредитов для наших партнеров-брокеров.» – Джейсон Бресслер, технический директор United Wholesale Mortgage (UWM)
- «Работа с моделью Gemini 2.5 Flash Native Audio через Vertex AI позволяет администраторам Newo.ai AI достичь беспрецедентного разговорного интеллекта… Они могут идентифицировать основного говорящего даже в шумной обстановке, менять язык в середине разговора и звучать удивительно естественно и эмоционально выразительно. – Дэвид Янг, соучредитель Newo.ai
Живой голосовой перевод
Gemini теперь изначально поддерживает новые функции живого перевода речи в речь, предназначенные как для непрерывного прослушивания, так и для двустороннего разговора.
При непрерывном прослушивании Gemini автоматически переводит речь с нескольких языков на один целевой язык. Это позволяет вам надеть наушники и слышать окружающий мир на своем языке.
Для двусторонних разговоров Gemini Live Voice Translation выполняет перевод между двумя языками в режиме реального времени, автоматически меняя выходной язык в зависимости от того, кто говорит. Например, если вы говорите по-английски и хотите поговорить с человеком, говорящим на хинди, вы услышите перевод на английский язык в режиме реального времени в наушниках, а ваш телефон будет транслировать хинди, когда вы закончите говорить.
Gemini Live Voice Translation имеет ряд ключевых функций, полезных в реальном мире:
- Лингвистический охват: Переводите речь на более чем 70 языков и 2000 языковых пар, объединяя мировые знания и многоязычные возможности Gemini с его собственными звуковыми возможностями.
- Перенос стилей: Улавливает нюансы человеческой речи, сохраняя интонацию, ритм и высоту тона говорящего, поэтому перевод звучит естественно.
- Многоязычный ввод: Понимает несколько языков одновременно за один сеанс, помогая вам следить за многоязычными разговорами без необходимости менять языковые настройки.
- Автоматическое обнаружение: Определяет разговорный язык и начинает перевод, поэтому вам даже не нужно знать, на каком языке говорят, чтобы начать перевод.
- Устойчивость к шуму: фильтрует окружающий шум, чтобы вы могли комфортно разговаривать даже в шумной обстановке на открытом воздухе.

