Штучний інтелект

Модель сегментації будь-чого – комп’ютерне бачення отримує масовий імпульс

Published May 5, 2023

Updated April 5, 2026

Haziqa Sajid

An up close image of a male face with face detection pointers.

Комп’ютерне бачення (CV) досягло 99% точності з 50% за 10 років. Очікується, що технологія ще більше покращиться до безпрецедентного рівня за допомогою сучасних алгоритмів та технік сегментації зображень. Нещодавно лабораторія Meta’s FAIR випустила Модель сегментації будь-чого (SAM) – революційний крок у сегментації зображень. Ця просунута модель може створювати детальні маски об’єктів з вхідних запитів, піднімаючи комп’ютерне бачення на новий рівень. Вона потенційно може революціонізувати спосіб нашого взаємодії з цифровими технологіями в цій ері.

Давайте дослідимо сегментацію зображень та коротко відкриємо, як SAM впливає на комп’ютерне бачення.

Що таке сегментація зображень та які її типи?

Сегментація зображень – це процес у комп’ютерному баченні, який розділяє зображення на кілька регіонів або сегментів, кожний з яких представляє окремий об’єкт або область зображення. Цій підході дозволяє експертам ізолювати окремі частини зображення, щоб отримати значущі висновки.

Моделі сегментації зображень тренуються для покращення виводу шляхом визнання важливих деталей зображення та зменшення складності. Ці алгоритми ефективно відрізняють різні регіони зображення на основі функцій, таких як колір, текстура, контраст, тіні та краї.

Відсегментувавши зображення, ми можемо зосередити наш аналіз на регіонах інтересу для отримання інформативних деталей. Нижче наведені різні техніки сегментації зображень.

Семантична сегментація включає в себе маркування пікселів у семантичні класи.
Сегментація екземплярів йде далі, визначаючи та виокремлюючи кожен об’єкт на зображенні.
Панорамна сегментація призначує унікальні ідентифікатори екземплярів окремим пікселям об’єктів, що призводить до більш повного та контекстного маркування всіх об’єктів на зображенні.

Сегментація реалізується за допомогою моделей глибинного навчання на основі зображень. Ці моделі витягують усі цінні дані та функції з навчальної вибірки. Потім перетворюють ці дані на вектори та матриці для розуміння складних функцій. Деякі з найбільш поширених моделей глибинного навчання, що стоять за сегментацією зображень, включають:

Конволюційні нейронні мережі (CNN)
Повністю зв’язані мережі (FCN)
Рекурентні нейронні мережі (RNN)

Як працює сегментація зображень?

У комп’ютерному баченні більшість моделей сегментації зображень складаються з мережі кодувача-декодувача. Кодувач кодує潜ний простір представлення вхідних даних, яке декодувач декодує для формування сегментних карт, або, іншими словами, карт, що окреслюють місце розташування кожного об’єкта на зображенні.

Зазвичай процес сегментації складається з 3 стадій:

Кодувач зображення, який перетворює вхідне зображення у математичну модель (вектори та матриці) для обробки.
Кодувач агрегує вектори на декількох рівнях.
Швидкий декодувач маски приймає вкладення зображення як вхідні дані та створює маску, яка окреслює різні об’єкти на зображенні окремо.

Стан сегментації зображень

Починаючи з 2014 року, хвиля алгоритмів сегментації на основі глибинного навчання виникла, таких як CNN+CRF та FCN, які зробили значний прогрес у цій галузі. 2015 рік побачив підйом U-Net та Deconvolution Network, які покращили точність результатів сегментації.

Потім у 2016 році Instance Aware Segmentation, V-Net та RefineNet ще більше покращили точність та швидкість сегментації. До 2017 року Mark-RCNN та FC-DenseNet ввели виявлення об’єктів та густе передбачення до завдань сегментації.

У 2018 році Панорамна сегментація, Mask-Lab та Context Encoding Networks були в центрі уваги, оскільки ці підходи задовольняли потребу в сегментації рівня екземплярів. До 2019 року Panoptic FPN, HRNet та Criss-Cross Attention ввели нові підходи до сегментації рівня екземплярів.

У 2020 році тренд продовжився з введенням Detecto RS, Panoptic DeepLab, PolarMask, CenterMask, DC-NAS та Efficient Net + NAS-FPN. Нарешті, у 2023 році у нас є SAM, про яку ми поговоримо далі.

Модель сегментації будь-чого (SAM) – загальна сегментація зображень

Ілюстрація архітектури моделі сегментації будь-чого

Джерело зображення

Модель сегментації будь-чого (SAM) – це новий підхід, який може виконувати інтерактивні та автоматичні завдання сегментації в одній моделі. Раніше інтерактивна сегментація дозволяла сегментувати будь-який клас об’єктів, але вимагала від людини спрямовувати метод шляхом ітеративного уточнення маски.

Автоматична сегментація в SAM дозволяє сегментувати конкретні категорії об’єктів, визначені заздалегідь. Її промо-інтерфейс робить її високогибкою. Як результат, SAM може вирішувати широкий спектр завдань сегментації за допомогою відповідного запиту, такого як кліки, коробки, текст тощо.

SAM тренується на різноманітній та інформативній вибірці понад 1 млрд масок, що робить її можливою для розпізнавання нових об’єктів та зображень, недоступних у тренувальній вибірці. Ця сучасна структура революціонізує моделі CV у застосуваннях, таких як самоходні автомобілі, безпека та доповнена реальність.

SAM може виявляти та сегментувати об’єкти навколо автомобіля в самоходних автомобілях, таких як інші транспортні засоби, пішоходи та дорожні знаки. У доповненій реальності SAM може сегментувати реальну навколишню середовище, щоб розмістити віртуальні об’єкти в відповідних місцях, створюючи більш реалістичний та привабливий UX.

Виклики сегментації зображень у 2023 році

Розростання досліджень та розробок у сфері сегментації зображень також приносить значні виклики. Деякі з найважливіших викликів сегментації зображень у 2023 році включають наступне:

Зростаючу складність наборів даних, особливо для 3D-сегментації зображень
Розробку інтерпретованих глибинних моделей
Використання моделей навчання без нагляду, які мінімізують втручання людини
Потрібу моделей у реальному часі та ефективних за пам’яттю
Видалення瓶 cổ у сегментації 3D-пunkt-хмар

Майбутнє комп’ютерного бачення

Глобальний ринок комп’ютерного бачення впливає на численні галузі та очікується досягне понад $41 млрд до 2030 року. Сучасні техніки сегментації зображень, такі як Модель сегментації будь-чого, разом з іншими алгоритмами глибинного навчання, ще більше зміцнять тканину комп’ютерного бачення в цифровому ландшафті. Тому ми побачимо більш надійні моделі комп’ютерного бачення та інтелектуальні застосування у майбутньому.

Дізнайтеся більше про штучний інтелект та машинне навчання, досліджуючи Unite.ai – ваше одне рішення для всіх запитів про технології та їх сучасний стан.