У Meta есть новая модель искусственного интеллекта, которая может маркировать и отслеживать любой объект в видео по мере его движения. Сегмент Anything Model 2 (SAM 2) расширяет возможности своего предшественника SAM, который был ограничен изображениями, и открывает новые возможности для редактирования и анализа видео.
Сегментация в реальном времени в SAM 2 представляет собой потенциально огромный технический прорыв, показывающий, как ИИ может обрабатывать движущиеся изображения и различать элементы на экране, даже когда они движутся или входят в кадр и выходят из него.
Сегментация — это термин, обозначающий, как программное обеспечение определяет, какие пиксели изображения каким объектам принадлежат. Помощник с искусственным интеллектом, который может это сделать, значительно упрощает обработку или редактирование сложных изображений. Это был прорыв оригинального ЗРК Меты. SAM помог сегментировать гидролокационные изображения коралловых рифов, анализировать спутниковые изображения для оказания помощи при стихийных бедствиях и даже анализировать изображения клеток для обнаружения рака кожи.
SAM 2 расширяет возможности видео, что немаловажно и до недавнего времени было невозможно. В рамках дебюта SAM 2 Meta выпустила базу данных из 50 000 видеороликов, созданных для обучения модели. Это в дополнение к 100 000 других видео, упомянутых Метой. Помимо всех обучающих данных, сегментация видео в реальном времени требует значительных вычислительных мощностей. Хотя SAM 2 в настоящее время открыт и бесплатен, вероятно, он не останется таким навсегда.
Успех сегмента
SAM 2 позволяет видеоредакторам изолировать и редактировать объекты в сцене проще, чем ограниченные возможности текущего программного обеспечения для редактирования, и выходит далеко за рамки ручной настройки каждого отдельного кадра. Meta также считает SAM 2 революцией в области интерактивного видео. Благодаря модели искусственного интеллекта пользователи могут выбирать и редактировать объекты в живом видео или виртуальных комнатах.
Мета считает, что SAM 2 также может сыграть решающую роль в разработке и обучении систем компьютерного зрения, особенно в автономных транспортных средствах. Точное и эффективное отслеживание объектов необходимо для того, чтобы эти системы могли безопасно интерпретировать и перемещаться по окружающей среде. Возможности SAM 2 могут ускорить процесс аннотирования визуальных данных и предоставить высококачественные данные обучения для этих систем искусственного интеллекта.
Большая часть шумихи вокруг ИИ-видео вращается вокруг создания видео из текстовых подсказок. Такие модели, как Sora, Runway и Google Veo от OpenAI, не зря привлекают к себе много внимания. Тем не менее, возможности редактирования, предоставляемые SAM 2, могут сыграть еще большую роль во внедрении искусственного интеллекта в создание видео.
И хотя Meta сейчас может быть впереди, другие разработчики видео с искусственным интеллектом заинтересованы в создании своей собственной версии. Например, недавнее исследование Google привело к созданию функций суммирования видео и обнаружения объектов, которые компания в настоящее время тестирует на YouTube. Adobe и ее инструменты Firefly AI также предназначены для редактирования фотографий и видео и включают в себя возможности заливки на основе контента и автоматического перекадрирования.