Artificial Intelligence

Segmentuj dowolny model – wizja komputerowa zyskuje ogromne wsparcie

Opublikowany

1 lat temu

5 maja 2023 r.

Zdjęcie męskiej twarzy z bliska ze wskaźnikami wykrywania twarzy.

Osiągnięto wizję komputerową (CV). Dokładność 99% od 50% w ciągu 10 lat. Oczekuje się, że dzięki nowoczesnym algorytmom i technikom segmentacji obrazu technologia ta będzie dalej udoskonalana do niespotykanego dotąd poziomu. Niedawno laboratorium Meta FAIR udostępniło plik Model dowolnego segmentu (SAM) – przełom w segmentacji obrazu. Ten zaawansowany model może tworzyć szczegółowe maski obiektów na podstawie podpowiedzi wejściowych, przenosząc wizję komputerową na nowy poziom. Może potencjalnie zrewolucjonizować sposób, w jaki w tej erze korzystamy z technologii cyfrowej.

Przyjrzyjmy się segmentacji obrazu i pokrótce odkryjmy, jaki wpływ ma SAM wizja komputerowa.

Co to jest segmentacja obrazu i jakie są jej rodzaje?

Segmentacja obrazu to proces stosowany w wizji komputerowej, który dzieli obraz na wiele obszarów lub segmentów, z których każdy reprezentuje inny obiekt lub obszar obrazu. Takie podejście pozwala ekspertom wyizolować określone części obrazu w celu uzyskania znaczących spostrzeżeń.

Modele segmentacji obrazu są szkolone w celu poprawy wyników poprzez rozpoznawanie ważnych szczegółów obrazu i zmniejszanie złożoności. Algorytmy te skutecznie rozróżniają różne obszary obrazu na podstawie takich cech, jak kolor, tekstura, kontrast, cienie i krawędzie.

Segmentując obraz, możemy skoncentrować naszą analizę na obszarach zainteresowania w celu uzyskania wnikliwych szczegółów. Poniżej znajdują się różne techniki segmentacji obrazu.

Segmentacja semantyczna polega na etykietowaniu pikseli w klasy semantyczne.
Segmentacja instancji idzie dalej, wykrywając i wyznaczając każdy obiekt na obrazie.
Segmentacja panoptyczna przypisuje unikalne identyfikatory instancji do poszczególnych pikseli obiektów, co skutkuje bardziej kompleksowym i kontekstowym etykietowaniem wszystkich obiektów na obrazie.

Segmentacja jest realizowana przy użyciu modeli głębokiego uczenia się opartych na obrazach. Modele te pobierają wszystkie cenne punkty danych i funkcje ze zbioru szkoleniowego. Następnie zamień te dane na wektory i macierze, aby zrozumieć złożone funkcje. Niektóre z powszechnie stosowanych modeli głębokiego uczenia się stojących za segmentacją obrazu to:

Konwolucyjne sieci neuronowe (CNN)
W pełni połączone sieci (FCN)
Powtarzające się sieci neuronowe (RNN)

Jak działa segmentacja obrazu?

In wizja komputerowa, większość modeli segmentacji obrazu składa się z sieci koderów i dekoderów. Koder koduje ukrytą reprezentację danych wejściowych w przestrzeni, którą dekoder dekoduje w celu utworzenia map segmentów, lub innymi słowy, map przedstawiających położenie każdego obiektu na obrazie.

Zwykle proces segmentacji składa się z 3 etapów:

Koder obrazu, który przekształca obraz wejściowy w model matematyczny (wektory i macierze) w celu przetwarzania.
Koder agreguje wektory na wielu poziomach.
Szybki dekoder maski przyjmuje osadzony obraz jako dane wejściowe i tworzy maskę, która oddzielnie obrysowuje różne obiekty na obrazie.

Stan segmentacji obrazu

Począwszy od 2014 r. pojawiła się fala algorytmów segmentacji opartych na głębokim uczeniu się, takich jak CNN+CRF i FCN, które poczyniły znaczne postępy w tej dziedzinie. W 2015 roku nastąpił rozwój sieci U-Net i Deconvolution Network, co poprawiło dokładność wyników segmentacji.

Następnie w 2016 r. rozwiązania Instance Aware Segmentation, V-Net i RefineNet jeszcze bardziej poprawiły dokładność i szybkość segmentacji. Do 2017 roku Mark-RCNN i FC-DenseNet wprowadziły wykrywanie obiektów i gęste przewidywanie do zadań segmentacji.

W 2018 r. w centrum uwagi znajdowały się sieci Panoptic Segmentation, Mask-Lab i Context Encoding Networks, ponieważ podejścia te zaspokajały potrzebę segmentacji na poziomie instancji. Do 2019 roku Panoptic FPN, HRNet i Criss-Cross Attention wprowadziły nowe podejście do segmentacji na poziomie instancji.

W 2020 roku trend ten był kontynuowany wraz z wprowadzeniem Detecto RS, Panoptic DeepLab, PolarMask, CenterMask, DC-NAS i Efficient Net + NAS-FPN. Wreszcie w 2023 roku mamy SAM, o którym porozmawiamy dalej.

Model dowolnego segmentu (SAM) – segmentacja obrazu ogólnego przeznaczenia

Ilustracja architektury modelu segmentowego

Źródło zdjęcia

Połączenia Model dowolnego segmentu (SAM) to nowe podejście, które umożliwia wykonywanie interaktywnych i automatycznych zadań segmentacji w jednym modelu. Wcześniej interaktywna segmentacja umożliwiała segmentację dowolnej klasy obiektów, ale wymagała od osoby kierowania metodą poprzez iteracyjne udoskonalanie maski.

Automatyczna segmentacja w SAM pozwala na segmentację określonych, zdefiniowanych wcześniej kategorii obiektów. Jego promowalny interfejs sprawia, że jest bardzo elastyczny. W rezultacie SAM może wykonywać szeroki zakres zadań segmentacji za pomocą odpowiedniego podpowiedzi, takiego jak kliknięcia, pola, tekst i inne.

SAM jest szkolony na zróżnicowanym i wnikliwym zbiorze danych obejmującym ponad 1 miliard masek, umożliwiając rozpoznawanie nowych obiektów i obrazów niedostępnych w zestaw treningowy. Te nowoczesne ramy szeroko zrewolucjonizują technologię Modele CV w aplikacjach jak samochody autonomiczne, bezpieczeństwo i rzeczywistość rozszerzona.

SAM może wykrywać i segmentować obiekty wokół samochodu w samochodach autonomicznych, takie jak inne pojazdy, piesi i znaki drogowe. W rzeczywistości rozszerzonej SAM może segmentować środowisko świata rzeczywistego, aby umieszczać wirtualne obiekty w odpowiednich lokalizacjach, tworząc bardziej realistyczny i wciągający UX.

Wyzwania związane z segmentacją obrazu w roku 2023

Rosnące badania i rozwój w zakresie segmentacji obrazu również niosą ze sobą istotne wyzwania. Do najważniejszych wyzwań związanych z segmentacją obrazu w 2023 r. należą:

Rosnąca złożoność zbiorów danych, szczególnie w przypadku segmentacji obrazów 3D
Rozwój interpretowalnych głębokich modeli
Stosowanie modeli uczenia się bez nadzoru, które minimalizują interwencję człowieka
Zapotrzebowanie na modele działające w czasie rzeczywistym i oszczędzające pamięć
Eliminacja wąskich gardeł w segmentacji chmur punktów 3D

Przyszłość widzenia komputerowego

Globalny wizja komputerowa rynek ma wpływ na wiele branż i przewiduje się, że będzie sięgał ponad $ 41 mld 2030. Nowoczesne techniki segmentacji obrazu, takie jak model Segment Everything w połączeniu z innymi algorytmami głębokiego uczenia się, jeszcze bardziej wzmocnią strukturę widzenia komputerowego w krajobrazie cyfrowym. Dlatego w przyszłości zobaczymy solidniejsze modele widzenia komputerowego i inteligentne aplikacje.

Aby dowiedzieć się więcej o sztucznej inteligencji i uczeniu maszynowym, zapoznaj się z sekcją Unite.ai – kompleksowe rozwiązanie wszystkich zapytań dotyczących technologii i jej nowoczesnego stanu.