Искусственный интеллект

Модель Segment Anything — компьютерное зрение получает огромный импульс

опубликованный 5 мая 2023

Хазика Саджид

Крупное изображение мужского лица с указателями распознавания лиц.

Точность компьютерного зрения (CV) достигла 99% с 50% за 10 лет. Ожидается дальнейшее развитие этой технологии до беспрецедентного уровня благодаря современным алгоритмам и методам сегментации изображений. Недавно лаборатория FAIR компании Meta опубликовала Сегментная модель Anything (SAM) – прорыв в сегментации изображений. Эта усовершенствованная модель может создавать подробные маски объектов из подсказок ввода, выводя компьютерное зрение на новый уровень. Это потенциально может революционизировать то, как мы взаимодействуем с цифровыми технологиями в эту эпоху.

Давайте рассмотрим сегментацию изображений и кратко рассмотрим, как SAM влияет компьютерное зрение.

Что такое сегментация изображений и каковы ее типы?

Сегментация изображения — это процесс в компьютерном зрении, который делит изображение на несколько областей или сегментов, каждый из которых представляет отдельный объект или область изображения. Этот подход позволяет экспертам изолировать определенные части изображения для получения значимой информации.

Модели сегментации изображений обучены улучшать качество вывода за счет распознавания важных деталей изображения и снижения сложности. Эти алгоритмы эффективно различают разные области изображения на основе таких характеристик, как цвет, текстура, контрастность, тени и края.

Сегментируя изображение, мы можем сосредоточить наш анализ на интересующих областях для получения важных деталей. Ниже приведены различные методы сегментации изображений.

Семантическая сегментация включает в себя маркировку пикселей в семантических классах.
Сегментация экземпляра идет дальше, обнаруживая и очерчивая каждый объект на изображении.
Паноптическая сегментация присваивает уникальные идентификаторы экземпляров отдельным пикселям объекта, что приводит к более полной и контекстной маркировке всех объектов на изображении.

Сегментация реализована с использованием моделей глубокого обучения на основе изображений. Эти модели извлекают все ценные точки данных и функции из обучающего набора. Затем превратите эти данные в векторы и матрицы, чтобы понять сложные функции. Некоторые из широко используемых моделей глубокого обучения для сегментации изображений:

Сверточные нейронные сети (CNN)
Полносвязные сети (FCN)
Рекуррентные нейронные сети (RNN)

Как работает сегментация изображений?

In компьютерное зрение, большинство моделей сегментации изображений состоят из сети кодер-декодер. Кодер кодирует скрытое пространственное представление входных данных, которые декодер декодирует для формирования карт сегментов, или, другими словами, карт, определяющих положение каждого объекта на изображении.

Обычно процесс сегментации состоит из 3-х этапов:

Кодер изображений, преобразующий входное изображение в математическую модель (векторы и матрицы) для обработки.
Кодер объединяет векторы на нескольких уровнях.
Быстрый декодер маски принимает вложения изображений в качестве входных данных и создает маску, которая выделяет различные объекты на изображении отдельно.

Состояние сегментации изображения

Начиная с 2014 года появилась волна алгоритмов сегментации на основе глубокого обучения, таких как CNN+CRF и FCN, которые добились значительного прогресса в этой области. В 2015 году появились U-Net и сеть деконволюции, что повысило точность результатов сегментации.

Затем в 2016 году Instance Aware Segmentation, V-Net и RefineNet еще больше повысили точность и скорость сегментации. К 2017 году Mark-RCNN и FC-DenseNet представили обнаружение объектов и плотное прогнозирование для задач сегментации.

В 2018 году Panoptic Segmentation, Mask-Lab и Context Encoding Networks были в центре внимания, поскольку эти подходы учитывали потребность в сегментации на уровне экземпляра. К 2019 году Panoptic FPN, HRNet и Criss-Cross Attention представили новые подходы к сегментации на уровне экземпляров.

В 2020 году эта тенденция продолжилась с появлением Detecto RS, Panoptic DeepLab, PolarMask, CenterMask, DC-NAS и Efficient Net + NAS-FPN. Наконец, в 2023 году у нас появится ЗРК, о котором мы поговорим далее.

Segment Anything Model (SAM) — Сегментация изображения общего назначения

Изображение с сайта

Сегментная модель Anything (SAM) — это новый подход, который может выполнять интерактивные и автоматические задачи сегментации в одной модели. Ранее интерактивная сегментация позволяла сегментировать любой класс объектов, но требовала, чтобы человек руководил методом путем итеративного уточнения маски.

Автоматическая сегментация в SAM позволяет сегментировать определенные категории объектов, определенные заранее. Его продвигаемый интерфейс делает его очень гибким. В результате SAM может выполнять широкий спектр задач сегментации, используя подходящие подсказки, такие как щелчки, поля, текст и т. д.

SAM обучается на разнообразном и информативном наборе данных из более чем 1 миллиарда масок, что позволяет распознавать новые объекты и изображения, недоступные в Обучающий набор. Эта современная структура произведет революцию в Модели CV в приложениях как беспилотные автомобили, безопасность и дополненная реальность.

SAM может обнаруживать и сегментировать объекты вокруг автомобиля в беспилотных автомобилях, например, другие транспортные средства, пешеходов и дорожные знаки. В дополненной реальности SAM может сегментировать реальную среду, чтобы размещать виртуальные объекты в соответствующих местах, создавая более реалистичный и привлекательный UX.

Проблемы сегментации изображений в 2023 году

Растущие исследования и разработки в области сегментации изображений также создают серьезные проблемы. Некоторые из основных проблем сегментации изображений в 2023 году включают следующее:

Возрастающая сложность наборов данных, особенно для сегментации 3D-изображений.
Разработка интерпретируемых глубинных моделей
Использование моделей обучения без учителя, которые сводят к минимуму вмешательство человека.
Необходимость в моделях реального времени и эффективного использования памяти
Устранение узких мест 3D-сегментации облака точек

Будущее компьютерного зрения

Глобальный компьютерное зрение рынок влияет на несколько отраслей и, по прогнозам, достигнет более до 41 млрд долларов США к 2030 годуСовременные методы сегментации изображений, такие как модель «Сегментировать всё», в сочетании с другими алгоритмами глубокого обучения ещё больше укрепят позиции компьютерного зрения в цифровом мире. Следовательно, в будущем мы увидим более надёжные модели компьютерного зрения и интеллектуальные приложения.

Чтобы узнать больше об искусственном интеллекте и машинном обучении, изучите Unite.ai – ваше универсальное решение для всех вопросов о технологиях и их современном состоянии.