Фредрик, который возглавляет команду аудиоинженерии на встрече, увидел, как способствует его команда. Его команда начала работать над переводом слова около двух лет назад; В то время существующие модели могли управлять переводом в автономном режиме, но задача мгновенно происходит в рендеринге — что было бы необходимо для живых вызовов знакомств Google. Но они знали, что это возможно, поэтому они начали работать с командой Google DeepMind. «Когда мы начали, мы подумали:« Может быть, это займет пять лет », — объясняет Фредрик. Два года спустя мы там. По мере того, как дела идут с ИИ, — объясняет он, — все прошло быстрее. Теперь существует целое сообщество Google с инженерами из Pixel, Cloud, Chrome и больше работает с Google DeepMind, чтобы сделать перевод речи в режиме реального времени ».

Застегнута в технологию перевода

Предыдущие технологии трансляции аудио, опираясь на процесс на нескольких этапах: транскрибирийную речь, перевод текста, а затем преобразование его в дискурс. Этот канал привел к значительной задержке, часто от 10 до 20 секунд, что делает естественный разговор невозможным. И переведенные голоса были общими, не захватывают уникальные характеристики динамика.

Настоящий прорыв, как объясняет Хуиб (который руководит управлением продуктами для качества звука), был благодаря «большим моделям» — не обязательно крупных моделей языка (LLM), но модели, способных к переводу «при ударе». «Вы отправляете звук и почти сразу же модель начинает выходить из звука», — отмечает он. Это значительно снизило задержку, чтобы практически подражать тому, как человеческий интерпретатор занимается и говорит. «Мы обнаружили, что две -три секунды были как -то идеальным местом», — сказал Хуиб. Было трудно понять; Медленнее не поддается естественному разговору. Но как только они достигли этого времени, это означало, что использование этой модели, перевод в Google Meet может вести разговор одновременно на разных языках.

ЧИТАТЬ  Стратегии эффективных менеджеров в 2025 году: более 40 генеральных директоров и владельцев бизнеса на Саммит бизнес -мудрости | Unnight

Решение проблем и значительные улучшения

Развитие этой сложной функциональности не было без препятствий. Одним из наиболее важных аспектов было обеспечение высококачественного перевода, что может значительно различаться в зависимости от таких факторов, как акцент громкоговорителя, фоновый шум или условия сети. Несмотря на проблемы развития, команды Meet и Deepmind работали вместе, чтобы уточнить эти икоты, тестировать модели и корректировать их в соответствии с реальной производительностью.

Часть этих тестов включала в себя работу с лингвистами и другими экспертами языка, чтобы действительно понять оттенки не только перевода, но и акцентов. Языки с более узким сродством, такие как испанский, итальянский, португальский и французский, были легче интегрироваться, в то время как структурно разные языки, такие как немецкий, представляли более серьезные проблемы из -за вариаций во всем, от грамматики до общих идиомов. В настоящее время модель также буквально переводит большинство выражений, что может привести к веселью, Хуиб и Фредерик заметки. Тем не менее, они ожидают обновлений, используя расширенные LLMS схватить и перевести такие оттенки более точно, даже захватывая тон и иронию.

Source