Connect with us

Odkrywanie SAM 2: Nowy model fundacji Meta dla segmentacji obiektów w czasie rzeczywistym w filmach i obrazach

Sztuczna inteligencja

Odkrywanie SAM 2: Nowy model fundacji Meta dla segmentacji obiektów w czasie rzeczywistym w filmach i obrazach

mm

W ostatnich latach świat sztucznej inteligencji (AI) doświadczył znaczących postępów w zakresie modeli fundacji AI dla przetwarzania tekstu, z postępami, które przekształciły branże od obsługi klienta po analizę prawną. Jednak w przypadku przetwarzania obrazów dopiero zaczynamy scratchować powierzchnię. Złożoność danych wizualnych i wyzwania związane z trenowaniem modeli w celu dokładnej interpretacji i analizy obrazów stanowią znaczące przeszkody. Podczas gdy badacze kontynuują eksplorację modeli fundacji AI dla obrazów i filmów, przyszłość przetwarzania obrazów w AI ma potencjał dla innowacji w ochronie zdrowia, pojazdach autonomicznych i poza nimi.

Segmentacja obiektów, która polega na wskazaniu dokładnych pikseli w obrazie, które odpowiadają obiektowi zainteresowania, jest krytycznym zadaniem w komputerowym widzeniu. Tradycyjnie wymagało to tworzenia specjalistycznych modeli AI, co wymagało rozległej infrastruktury i dużych ilości danych z adnotacjami. W zeszłym roku Meta wprowadziła Model Segmentacji Czegoś (SAM), model fundacji AI, który upraszcza ten proces, pozwalając użytkownikom na segmentację obrazów za pomocą prostego podpowiedzi. Ta innowacja zmniejszyła potrzebę specjalistycznej wiedzy i rozległych zasobów obliczeniowych, czyniąc segmentację obrazów bardziej dostępną.

Teraz Meta idzie o krok dalej z SAM 2. Ta nowa iteracja nie tylko poprawia istniejące możliwości segmentacji obrazów SAM, ale także rozszerza ją na przetwarzanie filmów. SAM 2 może segmentować dowolny obiekt w obrazach i filmach, nawet te, które nie zostały wcześniej spotkane. Ten postęp jest skokiem do przodu w dziedzinie komputerowego widzenia i przetwarzania obrazów, zapewniając bardziej wszechstronne i potężne narzędzie do analizy treści wizualnej. Poniżej eksplorujemy ekscytujące postępy SAM 2 i jego potencjał do przedefiniowania pola komputerowego widzenia.

Wprowadzenie Modelu Segmentacji Czegoś (SAM)

Tradycyjne metody segmentacji wymagają ręcznej refinaryzacji, znanej jako interaktywna segmentacja, lub rozległych danych z adnotacjami dla automatycznej segmentacji do predefiniowanych kategorii. SAM jest modelem fundacji AI, który obsługuje interaktywną segmentację przy użyciu wszechstronnych podpowiedzi, takich jak kliknięcia, pola lub dane wejściowe tekstowe. Może być również dostrajany z minimalnymi danymi i zasobami obliczeniowymi dla automatycznej segmentacji. Wytrenowany na ponad 1 miliardzie różnorodnych adnotacji obrazów, SAM może radzić sobie z nowymi obiektami i obrazami bez potrzeby zbierania niestandardowych danych lub dostrajania.

SAM działa z dwoma głównymi składnikami: kodera obrazu, który przetwarza obraz, i kodera podpowiedzi, który obsługuje dane wejściowe, takie jak kliknięcia lub tekst. Te składniki łączą się z lekkim dekodorem, aby przewidzieć maski segmentacji. Po przetworzeniu obrazu SAM może utworzyć segment w zaledwie 50 milisekundach w przeglądarce internetowej, co czyni go potężnym narzędziem dla zadań w czasie rzeczywistym i interaktywnych. Aby zbudować SAM, badacze opracowali trzystopniowy proces zbierania danych: adnotację wspomaganą przez model, połączenie adnotacji automatycznej i wspomaganej, oraz w pełni automatyczne tworzenie masek. Proces ten doprowadził do zbioru danych SA-1B, który zawiera ponad 1,1 miliarda masek na 11 milionach obrazów z licencją, zabezpieczających prywatność — co czyni go 400 razy większym niż jakikolwiek istniejący zbiór danych. Imponujące wyniki SAM wynikają z tego rozległego i zróżnicowanego zbioru danych, zapewniając lepszą reprezentację w różnych regionach geograficznych w porównaniu z poprzednimi zbiorami danych.

Odkrywanie SAM 2: Skok od segmentacji obrazów do segmentacji filmów

Oparte na fundamencie SAM, SAM 2 jest zaprojektowany do segmentacji obiektów w czasie rzeczywistym, z podpowiedziami w obrazach i filmach. W przeciwieństwie do SAM, który koncentruje się wyłącznie na statycznych obrazach, SAM 2 przetwarza filmy, traktując każdy klatkę jako część ciągłej sekwencji. To umożliwia SAM 2 radzenie sobie z dynamicznymi scenami i zmieniającą się zawartością bardziej efektywnie. Dla segmentacji obrazów SAM 2 nie tylko poprawia możliwości SAM, ale także działa trzykrotnie szybciej w zadaniach interaktywnych.

SAM 2 zachowuje tę samą architekturę, co SAM, ale wprowadza mechanizm pamięci dla przetwarzania filmów. Ta funkcja pozwala SAM 2 na śledzenie informacji z poprzednich klatek, zapewniając spójną segmentację obiektów pomimo zmian w ruchu, oświetleniu lub zakryciu. Odwołując się do poprzednich klatek, SAM 2 może udoskonalić swoje przewidywania masek w całym filmie.

Model jest wytrenowany na nowo opracowanym zbiorze danych SA-V, który zawiera ponad 600 000 adnotacji masek na 51 000 filmach z 47 krajów. Ten zróżnicowany zbiór danych obejmuje zarówno całe obiekty, jak i ich części, poprawiając dokładność SAM 2 w segmentacji filmów w świecie rzeczywistym.

SAM 2 jest dostępny jako model o otwartym kodzie źródłowym na licencji Apache 2.0, co czyni go dostępnym dla różnych zastosowań. Meta udostępniła również zbiór danych użytych dla SAM 2 na licencji CC BY 4.0. Dodatkowo istnieje demonstracja oparta na sieci, która pozwala użytkownikom na eksplorację modelu i sprawdzenie, jak działa.

Możliwe przypadki użycia

Możliwości SAM 2 w segmentacji obiektów w czasie rzeczywistym, z podpowiedziami w obrazach i filmach, odblokowały wiele innowacyjnych zastosowań w różnych dziedzinach. Na przykład niektóre z tych zastosowań to:

  • Diagnostyka medyczna: SAM 2 może znacząco poprawić asystowanie chirurgom w czasie rzeczywistym, segmentując struktury anatomiczne i identyfikując anomalie podczas transmisji wideo w sali operacyjnej. Może również poprawić analizę obrazów medycznych, zapewniając dokładną segmentację narządów lub guzów w badaniach medycznych.
  • Pojazdy autonomiczne: SAM 2 może poprawić systemy pojazdów autonomicznych, poprawiając dokładność wykrywania obiektów za pomocą ciągłej segmentacji i śledzenia pieszych, pojazdów i znaków drogowych w klatkach wideo. Jego zdolność do radzenia sobie z dynamicznymi scenami wspiera również systemy nawigacji adaptacyjnej i unikania kolizji, rozpoznając i reagując na zmiany środowiskowe w czasie rzeczywistym.
  • Media interaktywne i rozrywka: SAM 2 może poprawić aplikacje rzeczywistości rozszerzonej (AR), dokładnie segmentując obiekty w czasie rzeczywistym, co ułatwia połączenie elementów wirtualnych z światem rzeczywistym. Korzysta również na edycji wideo, automatyzując segmentację obiektów w nagraniach, co upraszcza procesy, takie jak usuwanie tła i zastępowanie obiektów.
  • Monitorowanie środowiska: SAM 2 może pomóc w śledzeniu zwierząt, segmentując i monitorując zwierzęta w nagraniach wideo, wspierając badania gatunków i studia siedlisk. W odpowiedzi na klęski żywiołowe może ocenić szkody i kierować działaniami ratunkowymi, dokładnie segmentując dotknięte obszary i obiekty w transmisjach wideo.
  • Handel detaliczny i e-commerce: SAM 2 może poprawić wizualizację produktów w e-commerce, umożliwiając interaktywną segmentację produktów w obrazach i filmach. To daje klientom możliwość wyświetlania produktów z różnych kątów i kontekstów. Dla zarządzania zapasami pomaga detalistom śledzić i segmentować produkty na półkach w czasie rzeczywistym, usprawniając inwentaryzację i poprawiając ogólny kontrolę zapasów.

Pokonywanie ograniczeń SAM 2: praktyczne rozwiązania i przyszłe udoskonalenia

Chociaż SAM 2 działa dobrze z obrazami i krótkimi filmami, ma pewne ograniczenia, które należy wziąć pod uwagę w praktycznym użyciu. Może mieć trudności z śledzeniem obiektów przez znaczące zmiany punktu widzenia, długie zakrycia lub w zatłoczonych scenach, szczególnie w dłuższych filmach. Ręczna korekta z interaktywnymi kliknięciami może pomóc rozwiązać te problemy.

W zatłoczonych środowiskach z podobnie wyglądającymi obiektami SAM 2 może okazjonalnie błędnie identyfikować cele, ale dodatkowe podpowiedzi w późniejszych klatkach mogą rozwiązać ten problem. Chociaż SAM 2 może segmentować wiele obiektów, jego wydajność maleje, ponieważ przetwarza każdy obiekt oddzielnie. Przyszłe aktualizacje mogą skorzystać na integrowaniu współdzielonej informacji kontekstowej, aby poprawić wydajność.

SAM 2 może również pomijać drobne szczegóły z szybko poruszającymi się obiektami, a przewidywania mogą być niestabilne między klatkami. Jednak dalsze szkolenie może rozwiązać to ograniczenie. Chociaż automatyczne generowanie adnotacji zostało poprawione, nadal konieczni są ludzcy anotatorzy do kontroli jakości i wyboru klatek, a dalsza automatyzacja mogłaby poprawić wydajność.

Podsumowanie

SAM 2 reprezentuje znaczący skok do przodu w segmentacji obiektów w czasie rzeczywistym, zarówno w obrazach, jak i filmach, budując na fundamencie położonym przez jego poprzednika. Poprawiając możliwości i rozszerzając funkcjonalność na dynamiczną zawartość wideo, SAM 2 obiecuje przekształcić wiele dziedzin, od opieki zdrowotnej i pojazdów autonomicznych po media interaktywne i handel detaliczny. Chociaż pozostają wyzwania, szczególnie w radzeniu sobie z złożonymi i zatłoczonymi scenami, otwarty charakter SAM 2 zachęca do ciągłej poprawy i adaptacji. Z jego potężnymi możliwościami i dostępnością SAM 2 jest gotowy do napędzania innowacji i rozszerzania możliwości w komputerowym widzeniu i poza nim.

Dr. Tehseen Zia jest profesorem nadzwyczajnym w COMSATS University Islamabad, posiada tytuł doktora w dziedzinie sztucznej inteligencji na Vienna University of Technology, Austria. Specjalizując się w sztucznej inteligencji, uczeniu maszynowym, nauce o danych i widzeniu komputerowym, wniósł znaczący wkład poprzez publikacje w renomowanych czasopismach naukowych. Dr. Tehseen Zia również kierował różnymi projektami przemysłowymi jako główny badacz i pełnił funkcję konsultanta ds. sztucznej inteligencji.