Исследователи из Amazon представил крупнейшая на сегодняшний день модель преобразования текста в речь, которая, как говорят, обладает улучшенными свойствами, которые позволяют ей лучше формулировать сложные предложения.
Модель BASE TTS (Text-to-Speech), которая означает Big Adaptive Streamable TTS с Emergent возможностями, может заложить основу для более человеческого взаимодействия.
Согласно исследованию, похоже, что комплексное обучение моделям TTS может повысить надежность и универсальность, точно так же, как мы наблюдаем в случае с большими языковыми моделями (LLM), используемыми для искусственного интеллекта.
BASE TTS от Amazon впечатляет исследователей
Модель преобразования текста в речь была обучена на 100 000 часов речевых данных, хранящихся в открытом доступе, что придало инструменту «современную естественность». Преимущественно использовались данные на английском языке, а также некоторые данные на немецком, голландском и испанском языках.
Кроме того, исследователи обнаружили, что даже тренировка модели TTS в течение 10 000 часов языковых занятий может привести к улучшению способности более естественно формулировать сложные предложения.
Имея 980 миллионов параметров, BASE-large считается крупнейшей когда-либо созданной моделью преобразования текста в речь. Для сравнения результатов команда также обучила более мелкие модели с 400 миллионами и 150 миллионами параметров и 10 000 и 1 000 языковых часов соответственно.
Команда Amazon описывает BASE TTS как «высокоточную модель, способную имитировать характеристики динамиков всего за несколько секунд эталонного звука», и, признавая необходимость дальнейших исследований, они также осознают ее потенциал.
Некоторыми из ключевых областей, на которых сосредоточились исследователи, были сложные существительные, эмоции, иностранные слова, паралингвистика, пунктуация, вопросы и синтаксическая сложность — примеры можно найти на специальной странице. Веб-сайт.
Поскольку революционный искусственный интеллект будет в центре внимания на протяжении большей части 2023 года, подобные прорывы в области преобразования текста в речь могут продолжать приносить некогда футуристические технологии в руки масс в 2024 году, но осторожный подход исследовательской группы подчеркивает необходимость соответствующего регулирования в сектор охраны и безопасности. Боязнь конфиденциальности.