По качеству превосходит аналоги.
Технология параллельной генерации звука Google называется SoundStorm. Он принимает семантические токены AudioLM в качестве входных данных, но воспроизводит то же качество звука с более высокой согласованностью голоса и акустических условий. Разработчики гарантируют вдвое большую скорость генерации: SoundStorm синтезирует 30-секундный звук на TPU-v4 за полсекунды.
Разработчики описывают свою технологию как образец качественного и эффективного синтеза звука на основе нейронных аудиокодеков. Он должен заменить AudioLM и Spears-TTS. Они не исключают возможных ошибок воспроизведения, обусловленных особенностями речи и интонации, а также особенностями самого голоса. Однако разработчики предупреждают о возможных рисках. Например, случаи, когда злоумышленники решают обойти биометрическую идентификацию, чтобы выдать себя за кого-то другого. Google считает необходимым принять меры против неправомерного использования ИИ.
Посмотреть примеры работы новой генеративной модели можно на ярлык.