Искусственный интеллект

Раскрытие SAM 2: Новая открытая основная модель Meta для сегментации объектов в режиме реального времени в видео и изображениях

Published August 1, 2024

Updated April 27, 2026

Dr. Tehseen Zia

В последние несколько лет мир ИИ сделал значительные шаги в области основной ИИ для обработки текста, с достижениями, которые преобразовали отрасли от обслуживания клиентов до юридического анализа. Однако, когда речь идет об обработке изображений, мы только начинаем исследовать эту область. Сложность визуальных данных и проблемы обучения моделей для точной интерпретации и анализа изображений представляют значительные препятствия. По мере того, как исследователи продолжают изучать основную ИИ для изображений и видео, будущее обработки изображений в ИИ имеет потенциал для инноваций в области здравоохранения, автономных транспортных средств и других областей.

Сегментация объектов, которая включает в себя определение точных пикселей в изображении, соответствующих объекту интереса, является критической задачей в компьютерном зрении. Традиционно это включало создание специализированных моделей ИИ, что требует обширной инфраструктуры и больших объемов аннотированных данных. В прошлом году Meta представила Модель сегментации любого объекта (SAM), основную модель ИИ, которая упрощает этот процесс, позволяя пользователям сегментировать изображения с помощью простого запроса. Этот инновационный подход уменьшил необходимость в специализированной экспертизе и обширных вычислительных ресурсах, сделав сегментацию изображений более доступной.

Теперь Meta делает следующий шаг с SAM 2. Этот новый вариант не только улучшает существующие возможности сегментации изображений SAM, но также расширяет их до обработки видео. SAM 2 может сегментировать любой объект как в изображениях, так и в видео, даже если он не встречался с ним раньше. Этот прорыв является значительным шагом вперед в области компьютерного зрения и обработки изображений, предоставляя более универсальный и мощный инструмент для анализа визуального контента. Ниже мы исследуем интересные достижения SAM 2 и его потенциал для переопределения области компьютерного зрения.

Представление модели сегментации любого объекта (SAM)

Традиционные методы сегментации либо требуют ручной доработки, известной как интерактивная сегментация, либо обширных аннотированных данных для автоматической сегментации в предопределенные категории. SAM является основной моделью ИИ, которая поддерживает интерактивную сегментацию с помощью универсальных запросов, таких как клики, коробки или текстовые входные данные. Она также может быть дообучена с минимальными данными и вычислительными ресурсами для автоматической сегментации. Обученная на более чем 1 миллиарде разнообразных аннотаций изображений, SAM может справиться с новыми объектами и изображениями без необходимости сбора пользовательских данных или дообучения.

SAM работает с двумя основными компонентами: кодировщик изображения, который обрабатывает изображение, и кодировщик запроса, который обрабатывает входные данные, такие как клики или текст. Эти компоненты объединяются с легким декодером для прогнозирования масок сегментации. Как только изображение обработано, SAM может создать сегмент всего за 50 миллисекунд в веб-браузере, что делает его мощным инструментом для задач в режиме реального времени. Для создания SAM исследователи разработали трехступенчатый процесс сбора данных: модели, помогающей аннотации, сочетание автоматической и ассистированной аннотации и полностью автоматическое создание масок. Этот процесс привел к созданию набора данных SA-1B, который включает более 1,1 миллиарда масок на 11 миллионах лицензированных изображений, сохраняющих конфиденциальность — что в 400 раз больше, чем любой существующий набор данных. Впечатляющие результаты SAM обусловлены этим обширным и разнообразным набором данных, обеспечивая лучшее представление по различным географическим регионам по сравнению с предыдущими наборами данных.

Раскрытие SAM 2: Шаг от сегментации изображений к сегментации видео

Основываясь на фундаменте SAM, SAM 2 предназначен для сегментации объектов в режиме реального времени в изображениях и видео. В отличие от SAM, который фокусируется исключительно на статических изображениях, SAM 2 обрабатывает видео, рассматривая каждый кадр как часть непрерывной последовательности. Это позволяет SAM 2 более эффективно справляться с динамическими сценами и меняющимся контентом. Для сегментации изображений SAM 2 не только улучшает возможности SAM, но также работает в три раза быстрее в интерактивных задачах.

SAM 2 сохраняет ту же архитектуру, что и SAM, но вводит механизм памяти для обработки видео. Эта функция позволяет SAM 2 отслеживать информацию из предыдущих кадров, обеспечивая последовательную сегментацию объектов, несмотря на изменения движения, освещения или осложнений. Ссылаясь на предыдущие кадры, SAM 2 может уточнить свои прогнозы масок на протяжении всего видео.

Модель обучена на недавно разработанном наборе данных SA-V, который включает более 600 000 аннотаций масок на 51 000 видео из 47 стран. Этот разнообразный набор данных охватывает как целые объекты, так и их части, повышая точность SAM 2 в сегментации видео реального мира.

SAM 2 доступен как открытая модель по лицензии Apache 2.0, что делает ее доступной для различных применений. Meta также поделилась набором данных, использованным для SAM 2, по лицензии CC BY 4.0. Кроме того, есть веб-демо, который позволяет пользователям исследовать модель и увидеть, как она работает.

Возможные случаи использования

Возможности SAM 2 в сегментации объектов в режиме реального времени для изображений и видео открыли множество инновационных применений в различных областях. Например, некоторые из этих применений следующие:

Диагностика в здравоохранении: SAM 2 может значительно улучшить помощь во время операций в режиме реального времени, сегментируя анатомические структуры и выявляя аномалии во время прямых видеотрансляций в операционной. Она также может улучшить анализ медицинских изображений, предоставляя точную сегментацию органов или опухолей в медицинских сканированиях.
Автономные транспортные средства: SAM 2 может улучшить системы автономных транспортных средств, повышая точность обнаружения объектов за счет непрерывной сегментации и отслеживания пешеходов, транспортных средств и дорожных знаков на протяжении видеокадров. Ее способность справляться с динамическими сценами также поддерживает адаптивную навигацию и системы предотвращения столкновений, распознавая и реагируя на изменения окружающей среды в режиме реального времени.
Интерактивные медиа и развлечения: SAM 2 может улучшить приложения дополненной реальности (AR), точно сегментируя объекты в режиме реального времени, что делает проще для виртуальных элементов смешиваться с реальным миром. Она также выигрывает от видеомонтажа, автоматизируя сегментацию объектов в кадрах, что упрощает процессы, такие как удаление фона и замена объектов.
Мониторинг окружающей среды: SAM 2 может помочь в отслеживании дикой природы, сегментируя и отслеживая животных в видеозаписях, поддерживая исследования видов и изучение среды обитания. В случае реагирования на стихийные бедствия она может оценить ущерб и направлять усилия по реагированию, точно сегментируя пострадавшие области и объекты в видеопотоке.
Розничная торговля и электронная коммерция: SAM 2 может улучшить визуализацию продукции в электронной коммерции, позволяя интерактивно сегментировать продукты на изображениях и видео. Это может дать клиентам возможность просматривать товары с различных углов и контекстов. Для управления запасами она помогает розничным торговцам отслеживать и сегментировать продукты на полках в режиме реального времени, оптимизируя учет запасов и общий контроль запасов.

Преодоление ограничений SAM 2: Практические решения и будущие улучшения

Хотя SAM 2 работает хорошо с изображениями и короткими видео, у нее есть некоторые ограничения, которые следует учитывать для практического использования. Она может испытывать трудности с отслеживанием объектов через значительные изменения точки зрения, длинные осложнения или в многолюдных сценах, особенно в расширенных видео. Ручная коррекция с помощью интерактивных кликов может помочь решить эти проблемы.

В многолюдных средах с похожими объектами SAM 2 может иногда неправильно определять цели, но дополнительные запросы в последующих кадрах могут решить эту проблему. Хотя SAM 2 может сегментировать несколько объектов, ее эффективность снижается, поскольку она обрабатывает каждый объект отдельно. Будущие обновления могли бы выиграть от интеграции общей контекстной информации для улучшения производительности.

SAM 2 также может пропустить мелкие детали с быстро движущимися объектами, и прогнозы могут быть нестабильными между кадрами. Однако дальнейшее обучение могло бы устранить это ограничение. Хотя автоматическое создание аннотаций улучшилось, человеческие аннотаторы все еще необходимы для проверки качества и выбора кадров, и дальнейшая автоматизация могла бы повысить эффективность.

Итог

SAM 2 представляет собой значительный шаг вперед в сегментации объектов в режиме реального времени как для изображений, так и для видео, основываясь на фундаменте, заложенном ее предшественником. Расширяя возможности и функциональность до динамического видеоконтента, SAM 2 обещает преобразовать различные области, от здравоохранения и автономных транспортных средств до интерактивных медиа и розничной торговли. Хотя остаются проблемы, особенно в обработке сложных и многолюдных сцен, открытая природа SAM 2 поощряет непрерывное улучшение и адаптацию. С ее мощной производительностью и доступностью SAM 2 готова стимулировать инновации и расширять возможности в компьютерном зрении и за его пределами.

Related Topics:foundation AI image segmentation Meta's SAM 2 SAM 2 segment anything model (SAM)Semantic Segmentation