Еще в августе 2023 года Meta представила универсальную модель перевода с использованием искусственного интеллекта, которая может понимать почти 100 различных языков.
SyntheLessM4T (массовый многоязычный и мультимодальный машинный перевод) — это попытка Meta создать «универсальный переводчик», похожий на Вавилонскую рыбу из классического научно-фантастического сериала Дугласа Адамса. Трейлер Путеводитель по Галактике.
Команда, создавшая инструмент SeamlessM4T, подробно описала свою работу в статье в журнале. ПриродаПредставление передовой системы представляет собой комплексное решение для перевода текста в текст, речи в текст, речи в речь и перевода текста в речь на впечатляющий и постоянно растущий диапазон языков.
Более 400 лет чистого звука
SeamlessM4T, который используется для автоматического дублирования видео в Facebook и Instagram, среди прочего — перевод текста для 96 языков, перевод текста в речь с 96 на 36 языков и автоматическое распознавание речи для 96 языков. Этот унифицированный подход преодолевает ограничения традиционных каскадных систем, которые часто требуют отдельных подсистем для распознавания речи, перевода и синтеза речи.
Оптимизируя эти процессы, Meta превосходит существующие модели SeamlessM4T, достигая до 23 % более высокого показателя Bleu (двуязычная оценка) в точности перевода и демонстрируя впечатляющую устойчивость к фоновому шуму и изменениям динамиков.
Чтобы создать SeamlessM4T, Meta начала с 4 миллионов часов (более 400 лет) необработанного многоязычного аудио, полученного из общедоступного репозитория очищенных веб-данных. Команда разработала SeamlessAlign, мультимодальный корпус, содержащий более 470 000 часов согласованной речи, и объединила набор данных с самыми современными методами машинного обучения, включая Sonar (мультимодальные представления на уровне предложений и языко-независимые представления), которые позволяют использовать многоязычные и независимые от языка представления. Модально-независимое кодирование текста и речи.
По мнению Меты, SeamlessM4T может стать ценным инструментом глобальной коммуникации, решая социальные и этические проблемы посредством использования защитных мер. Эти меры защиты уменьшают гендерную предвзятость – ошибки в грамматическом определении пола – и смягчают проблему дополнительной токсичности, когда оскорбительные слова появляются в переводах, но не в оригинальном источнике.