Connect with us

Розкриття SAM 2: нова відкрита фондова модель Meta для сегментації об’єктів у режимі реального часу у відео та зображеннях

Штучний інтелект

Розкриття SAM 2: нова відкрита фондова модель Meta для сегментації об’єктів у режимі реального часу у відео та зображеннях

mm

За останні кілька років світ штучного інтелекту зробив помітні кроки у розвитку фондів штучного інтелекту для обробки тексту, з досягненнями, які трансформували галузі від служби підтримки клієнтів до юридичного аналізу. Однак, коли мова йде про обробку зображень, ми тільки починаємо розглядати цю сферу. Комплексність візуальних даних та труднощі навчання моделей для точної інтерпретації та аналізу зображень представили значні перешкоди. Коли дослідники продовжують досліджувати фондові штучні інтелекти для зображень та відео, майбутнє обробки зображень у штучному інтелекті має потенціал для інновацій у сфері охорони здоров’я, автономних транспортних засобів та інших галузей.

Сегментація об’єктів, яка полягає у визначенні точних пікселів у зображенні, що відповідають об’єкту інтересу, є критичним завданням у комп’ютерному баченні. Традиційно це передбачало створення спеціалізованих моделей штучного інтелекту, для чого потрібно було велика інфраструктура та велика кількість анотованих даних. У минулому році Meta представила Модель сегментації будь-чого (SAM), фондovu модель штучного інтелекту, яка спрощує цей процес, дозволяючи користувачам сегментувати зображення за допомогою простої підказки. Ця інновація зменшила потребу у спеціалізованій експертизі та великих обчислювальних ресурсах, зробивши сегментацію зображень більш доступною.

Тепер Meta робить наступний крок з SAM 2. Ця нова ітерація не тільки покращує наявні можливості SAM щодо сегментації зображень, але також розширює її на обробку відео. SAM 2 може сегментувати будь-який об’єкт у зображеннях та відео, навіть ті, з якими вона раніше не зустрічалася. Це досягнення є кроком вперед у сфері комп’ютерного бачення та обробки зображень, надаючи більш універсальний та потужний інструмент для аналізу візуального контенту. Нижче ми розглядаємо цікаві досягнення SAM 2 та її потенціал для пере визначення галузі комп’ютерного бачення.

Розкриття Моделі сегментації будь-чого (SAM)

Традиційні методи сегментації або потребують ручної уточнення, відомої як інтерактивна сегментація, або великої кількості анотованих даних для автоматичної сегментації у попередньо визначені категорії. SAM є фондovu моделлю штучного інтелекту, яка підтримує інтерактивну сегментацію за допомогою універсальних підказок, таких як кліки, коробки або текстові введення. Вона також може бути донастроєна з мінімальними даними та обчислювальними ресурсами для автоматичної сегментації. Навчена на понад 1 мільярд різноманітних анотацій зображень, SAM може обробляти нові об’єкти та зображення без потреби у збірці спеціалізованих даних або донастройці.

SAM працює з двома основними компонентами: кодувальником зображення, який обробляє зображення, та кодувальником підказок, який обробляє введення, такі як кліки або текст. Ці компоненти поєднуються з легким декодером для передбачення масок сегментації. Як тільки зображення оброблено, SAM може створити сегмент за всього 50 мілісекунд у веб-браузері, роблячи її потужним інструментом для завдань у режимі реального часу. Для створення SAM дослідники розробили триступеневий процес збору даних: модельну допомогу анотації, поєднання автоматичної та допоміжної анотації, та повністю автоматичне створення масок. Цей процес призвів до створення набору даних SA-1B, який включає понад 1,1 мільярд масок на 11 мільйонах ліцензованих, захищених приватністю зображень — роблячи його у 400 разів більшим, ніж будь-який існуючий набір даних. Вражаюча продуктивність SAM походить від цього розгалуженого та різноманітного набору даних, забезпечуючи краще представлення по різних географічних регіонах порівняно з попередніми наборами даних.

Розкриття SAM 2: крок від сегментації зображень до відео

Розроблена на основі SAM, SAM 2 призначена для сегментації об’єктів у режимі реального часу у зображеннях та відео. На відміну від SAM, яка зосереджується виключно на статичних зображеннях, SAM 2 обробляє відео, розглядаючи кожний кадр як частину безперервної послідовності. Це дозволяє SAM 2 обробляти динамічні сцени та змінний контент більш ефективно. Для сегментації зображень SAM 2 не тільки покращує можливості SAM, але також працює у три рази швидше у інтерактивних завданнях.

SAM 2 зберігає ту саму архітектуру, що й SAM, але вводить механізм пам’яті для обробки відео. Ця функція дозволяє SAM 2 зберігати інформацію з попередніх кадрів, забезпечуючи послідовну сегментацію об’єктів незалежно від змін руху, освітлення або окулювання. Посилаючись на попередні кадри, SAM 2 може уточнити свої передбачення масок протягом відео.

Модель навчена на новому наборі даних SA-V, який включає понад 600 000 анотацій масок на 51 000 відео з 47 країн. Цей різноманітний набір даних охоплює як цілі об’єкти, так і їх частини, підвищуючи точність SAM 2 у сегментації відео реального світу.

SAM 2 доступна як відкрита модель під ліцензією Apache 2.0, роблячи її доступною для різних застосунків. Meta також поділилася набором даних, використаним для SAM 2, під ліцензією CC BY 4.0. Крім того, існує веб-демонстрація, яка дозволяє користувачам досліджувати модель та бачити, як вона працює.

Потенційні випадки використання

Можливості SAM 2 у сегментації об’єктів у режимі реального часу для зображень та відео розблокували численні інноваційні застосування у різних галузях. Наприклад, деякі з цих застосунків включають:

  • Діагностика у сфері охорони здоров’я: SAM 2 може суттєво покращити допомогу під час операцій у режимі реального часу, сегментуючи анатомічні структури та визначаючи аномалії під час прямої трансляції відео в операційній. Вона також може покращити аналіз медичних зображень, забезпечуючи точну сегментацію органів або пухлин у медичних сканах.
  • Автономні транспортні засоби: SAM 2 може покращити системи автономних транспортних засобів, підвищуючи точність виявлення об’єктів завдяки безперервній сегментації та відстеженню пішоходів, транспортних засобів та дорожніх знаків по відеокадрах. Її здатність обробляти динамічні сцени також підтримує адаптивну навігацію та системи уникнення зіткнень, розпізнаваючи та реагуючи на зміни довкілля у режимі реального часу.
  • Інтерактивні медіа та розваги: SAM 2 може покращити додатки доповненої реальності (AR), точно сегментуючи об’єкти у режимі реального часу, роблячи його легшим для віртуальних елементів поєднуватися з реальним світом. Вона також вигідно впливає на відеомонтаж, автоматизуючи сегментацію об’єктів у відеозаписах, що спрощує процеси, такі як видалення фону та заміну об’єктів.
  • Моніторинг довкілля: SAM 2 може допомогти у відстежуванні тварин, сегментуючи та моніторячи тварин у відеозаписах, підтримуючи дослідження видів та вивчення середовища проживання. У разі реагування на стихійні лиха вона може оцінити збитки та спрямовувати зусилля з ліквідації наслідків, точно сегментуючи пошкоджені території та об’єкти у відеопотоці.
  • Роздрібна торгівля та електронна комерція: SAM 2 може покращити візуалізацію продуктів у електронній комерції, дозволяючи інтерактивну сегментацію продуктів у зображеннях та відео. Це може дати клієнтам можливість переглянути товари з різних кутів та контекстів. Для управління запасами вона допомагає роздрібним торговцям відстежувати та сегментувати товари на полицях у режимі реального часу, оптимізуючи інвентаризацію та покращуючи загальний контроль запасів.

Подолання обмежень SAM 2: практичні рішення та майбутні вдосконалення

Хоча SAM 2 працює добре з зображеннями та короткими відео, вона має деякі обмеження, які потрібно враховувати для практичного використання. Вона може мати труднощі з відстежуванням об’єктів через значні зміни точки зору, тривалі окулювання або в переповнених сценах, особливо у довгих відео. Ручне виправлення з інтерактивними кліками може допомогти адресувати ці питання.

У переповнених середовищах з об’єктами, які виглядають схоже, SAM 2 іноді може неправильно ідентифікувати цілі, але додаткові підказки у пізніших кадрах можуть вирішити цю проблему. Хоча SAM 2 може сегментувати кілька об’єктів, її ефективність зменшується, оскільки вона обробляє кожен об’єкт окремо. Майбутні оновлення могли б вигідно вплинути на інтеграцію спільної контекстної інформації для покращення продуктивності.

SAM 2 також може пропустити тонкі деталі з швидко рухомими об’єктами, а передбачення можуть бути нестабільними по кадрах. Однак подальше навчання могло б адресувати це обмеження. Хоча автоматичне створення анотацій покращилось, люди-анотатори все ще необхідні для перевірки якості та вибору кадрів, і подальша автоматизація могла б підвищити ефективність.

Висновок

SAM 2 представляє суттєвий крок вперед у сегментації об’єктів у режимі реального часу для зображень та відео, розбудовуючи фундамент, закладений її попередником. Покращуючи можливості та розширюючи функціональність до динамічного відеоконтенту, SAM 2 обіцяє трансформувати різні галузі, від охорони здоров’я та автономних транспортних засобів до інтерактивних медіа та роздрібної торгівлі. Хоча залишаються виклики, особливо у обробці складних та переповнених сцен, відкрита природа SAM 2 заохочує безперервне вдосконалення та адаптацію. З її потужною продуктивністю та доступністю SAM 2 готова стимулювати інновації та розширити можливості у сфері комп’ютерного бачення та за її межами.

Доктор Техсін Зія є доцентом COMSATS University Islamabad, який має ступінь PhD з штучного інтелекту у Віденському технічному університеті, Австрія. Спеціалізується на штучному інтелекті, машинному навчанні, науці про дані та комп'ютерному баченні, він зробив значний внесок з публікаціями в авторитетних наукових журналах. Доктор Техсін також очолював різні промислові проекти як головний дослідник і служив консультантом з штучного інтелекту.