Google обновил Search Live с помощью Gemini 2.5 Flash Native Audio, улучшив голосовые возможности в Поиске и одновременно расширив использование модели, включив в нее перевод и живые голосовые агенты. Обновление вводит более естественные устные ответы в Search Live и отражает усилия Google по улучшению запросов на естественном языке, рассматривая голос как центральный интерфейс, который дает пользователям все, что они могут от обычного поиска, позволяя им задавать вопросы о физическом мире вокруг них и мгновенно получать голосовые переводы между двумя людьми, говорящими на разных языках.
Новые обновленные голосовые функции, которые появятся в США на этой неделе, делают голосовые ответы Google более естественными, а для образовательного контента их можно даже замедлить.
По данным Google:
«Когда вы выполняете поиск в реальном времени, вы можете вести голосовой разговор в режиме искусственного интеллекта, чтобы получать помощь в режиме реального времени и быстро находить нужные сайты в Интернете. А благодаря нашей последней модели Gemini для собственного звука ответы в Search Live теперь будут более плавными и выразительными, чем когда-либо прежде».
Содержание
Более полное введение в Gemini Native Audio
Это обновление поиска является частью более широкого обновления Gemini 2.5 Flash Native Audio, распространяемого по всей экосистеме Google, включая Gemini Live (в приложении Gemini), Google AI Studio и Vertex AI. Модель обрабатывает разговорный звук в режиме реального времени и воспроизводит плавные речевые ответы, разрушая барьеры для естественного общения и уменьшая трения в живом общении. Хотя в объявлении Google не упоминалось, что это модель преобразования речи в речь (в отличие от преобразования речи в текст, а затем преобразования текста в речь), это обновление последовало за объявлением Google о преобразовании речи в речь (S2R) в октябре. Это модель машинного обучения на основе нейронной сети, которая обучается на больших наборах данных парных аудиозапросов.
Эти изменения демонстрируют, что Google рассматривает нативный звук как основную функцию всех потребительских продуктов, упрощая пользователям естественный запрос и получение информации о физическом мире вокруг них, что раньше было невозможно.
Улучшения для голосовых систем
Google утверждает, что для разработчиков и компаний, создающих голосовые системы, обновленная модель повышает надежность в нескольких областях. Gemini 2.5 Flash Native Audio более последовательно запускает внешние функции во время разговора, следует сложным инструкциям и поддерживает контекст на протяжении нескольких ходов. Эти улучшения делают голосовые агенты более надежными в реальных рабочих процессах, где неверно истолкованные инструкции или прерванные потоки разговоров влияют на взаимодействие с пользователем.
Плавный разговорный перевод
Помимо поисковых и голосовых агентов, обновление представляет встроенную поддержку «живого перевода речи в речь». Gemini переводит разговорную речь в реальном времени, либо непрерывно переводя окружающую речь на целевой язык, либо осуществляя двустороннюю беседу между носителями разных языков. Система сохраняет голосовые характеристики, такие как речевой ритм и интонация, обеспечивая более плавный и разговорный перевод.
Google выделяет несколько функций, поддерживающих эту функцию перевода, включая широкий языковой охват, автоматическое распознавание речи, многоязычную обработку ввода и фильтрацию шума для повседневной среды. Эти функции уменьшают сложность настройки и позволяют выполнять пассивный перевод во время разговора, а не посредством ручного управления. В результате получается опыт перевода, похожий на перевод реального человека между двумя людьми.
Голосовой поиск реализует амбиции Google
Обновление отражает продолжающуюся эволюцию голосового поиска Google в направлении идеала, первоначально вдохновленного научно-фантастическими голосовыми взаимодействиями между людьми и компьютерами в популярном сериале «Звездный путь».
Читать далее:
Google объявляет о новой эре голосового поиска
Когда вы сделаете поиск в реальном времени, вы сможете вести более плавный и выразительный разговор.
Улучшенные аудиомодели Gemini для мощного голосового взаимодействия.
5 способов получить помощь в режиме реального времени, сделав поиск живым
Рекомендованное изображение с сайта Shutterstock/Jackbin

