Бесшовная интеграция возможностей искусственного интеллекта PaLM 2 в экосистему Google, включая Bard, была ключевой темой конференции. Google I/O 2023 Случай. Хотя Google считает, что есть некоторые функции, которые не следует выпускать сразу.
Во время основного доклада Google I/O Джеймс Маньика, старший вице-президент компании по технологиям и обществу, выразил обеспокоенность по поводу потенциальной напряженности между дезинформацией и некоторыми возможностями ИИ, а именно технологиями, лежащими в основе дипфейков.
Он имеет в виду языковые модели, которые дипфейки используют для дублирования голосов в видео — вы знаете те, где монолог известного актера из одного из лучших телешоу или фильмов внезапно заменяется синхронизацией губ.
Таким образом, Google предпринимает некоторые шаги, чтобы установить так называемые «ограничители», чтобы предотвратить злоупотребление некоторыми из этих новых функций, оставляя артефакты на фотографиях и видео, такие как водяные знаки и метаданные. Новый инструмент, который будет чрезвычайно полезным и выгодным, но которым легко злоупотреблять, — это прототип, который Google использует для определенного количества партнеров, получивший название «Универсальный переводчик».
Универсальный переводчик Google — это экспериментальная служба синхронизации видео с искусственным интеллектом, которая переводит речь в режиме реального времени, поэтому вы можете мгновенно читать то, что кто-то говорит на другом языке, во время просмотра видео. Во время мероприятия был продемонстрирован прототип, на котором были показаны видеоролики с теста, который был частью онлайн-курса колледжа, созданного в сотрудничестве с Университетом штата Аризона.
Модель работает в четыре этапа. На первом этапе модель сопоставляет движения губ в видео со словами, которые она распознает. Второй шаг запускает алгоритм, позволяющий мгновенно генерировать речь. На третьем этапе модели используется интонация, которая измеряет рост и падение естественной скорости речи человека, чтобы помочь в переводе. Наконец, как только он воспроизвел стиль и тон движений губ говорящего, он собирает все это вместе для получения перевода.
Согласно Google, первые результаты были многообещающими. Студенты университетов, прошедшие курс, имеют большее количество степеней в квоте курса. Хотя эта функция еще не доступна за пределами небольшой группы бета-тестирования, как только Google примет меры безопасности, она может быть распространена, например, на такие сервисы, как YouTube.
Хотите узнать больше о последних новостях Google I/O? Посетите наш живой блог Google I/O 2023, чтобы подробно ознакомиться с анонсами мероприятия.