Очистка звука обычно подразумевает очистку временной шкалы и настройку фильтров, но Мета считает, что это должно быть так же просто, как описание звука, который вы хотите. Компания имеет выпущенный новая модель искусственного интеллекта с открытым исходным кодом под названием SAM Audio, которая может изолировать практически любой звук из сложной записи с помощью простых текстовых подсказок.

Пользователи могут воспроизводить определенные звуки, такие как голоса, инструменты или фоновые шумы, без необходимости использовать сложное программное обеспечение для редактирования. Модель уже доступна на сайте Сегмент Meta’s Anything Playground который включает в себя другие инструменты редактирования изображений и видео на основе подсказок.

🔉 Представляем SAM Audio, первую унифицированную модель, которая изолирует каждый звук от сложных аудиомиксов с помощью текстовых, визуальных или интервальных подсказок.

Мы делимся с сообществом SAM Audio, а также моделью перцептивного кодера, тестами и исследовательскими работами, чтобы другие могли… pic.twitter.com/FuMJyULmJR

— ИИ в Мете (@AIatMeta) 16 декабря 2025 г.

В целом, SAM Audio создан для того, чтобы понять, с каким звуком вы хотите работать, и четко отделить его от всего остального. По словам Меты, это открывает возможности для более быстрого редактирования аудио в таких случаях, как производство музыки, подкастинг, кино и телевидение, инструменты обеспечения доступности и исследования.

Например, создатель может изолировать вокал из магнитофонной записи, удалить шум дорожного движения из подкаста или удалить лающую собаку из идеальной записи — и все это путем описания того, к чему должна стремиться модель.

Вот как работает SAM Audio

SAM Audio — это мультимодальная модель, поддерживающая три разных типа объявлений. Пользователи могут описать звук текстом, щелкнуть человека или объект в видео, чтобы визуально определить звук, который они хотят изолировать, или отметить период времени, когда звук впервые появляется. Эти подсказки можно использовать по отдельности или в комбинации, предоставляя пользователям детальный контроль над тем, что следует отделять.

ЧИТАТЬ  Подход Google к обучению в эпоху искусственного интеллекта

Под капотом система основана на аудиовизуальном движке Perception Encoder компании Meta. Это способность модели обнаруживать и понимать звуки, прежде чем исключать их из микса.

Чтобы улучшить оценку разделения звука, Meta также представила SAM Audio-Bench, тест для измерения того, насколько хорошо модели обрабатывают речь, музыку и звуковые эффекты. Его сопровождает программа SAM Audio Judge, которая оценивает, насколько естественно и точно отдельные аудиосигналы звучат для слушателей, даже без сравнения треков.

Мета утверждает, что эти оценки показывают, что SAM Audio работает лучше всего при сочетании различных типов подсказок и что он может обрабатывать звук быстрее, чем в реальном времени, даже в больших масштабах.

Однако модель имеет явные ограничения. Он не поддерживает звуковые объявления, не может выполнить полное разделение без объявлений и имеет проблемы с подобными перекрывающимися звуками, например: B. выделение одного голоса из хора.

Meta заявляет, что планирует улучшить эти области и уже изучает реальные возможности применения, включая работу по обеспечению доступности с производителями слуховых аппаратов и организациями, поддерживающими людей с ограниченными возможностями.

Запуск SAM Audio происходит в контексте более широкого продвижения Meta в области искусственного интеллекта. Компания улучшает разборчивость речи своих очков искусственного интеллекта для шумной среды, работает над очками смешанной реальности следующего поколения, которые, как ожидается, будут выпущены в 2027 году, и разрабатывает разговорный искусственный интеллект, который мог бы конкурировать с ChatGPT, сигнализируя о более широком фокусе на моделях искусственного интеллекта, которые понимают звук, контекст и взаимодействие.

Source