Artificial Intelligence
Segmentuj dowolny model – wizja komputerowa zyskuje ogromne wsparcie
Osiągnięto wizję komputerową (CV). Dokładność 99% od 50% w ciągu 10 lat. Oczekuje się, że dzięki nowoczesnym algorytmom i technikom segmentacji obrazu technologia ta będzie dalej udoskonalana do niespotykanego dotąd poziomu. Niedawno laboratorium Meta FAIR udostępniło plik Model dowolnego segmentu (SAM) – przełom w segmentacji obrazu. Ten zaawansowany model może tworzyć szczegółowe maski obiektów na podstawie podpowiedzi wejściowych, przenosząc wizję komputerową na nowy poziom. Może potencjalnie zrewolucjonizować sposób, w jaki w tej erze korzystamy z technologii cyfrowej.
Przyjrzyjmy się segmentacji obrazu i pokrótce odkryjmy, jaki wpływ ma SAM wizja komputerowa.
Co to jest segmentacja obrazu i jakie są jej rodzaje?
Segmentacja obrazu to proces stosowany w wizji komputerowej, który dzieli obraz na wiele obszarów lub segmentów, z których każdy reprezentuje inny obiekt lub obszar obrazu. Takie podejście pozwala ekspertom wyizolować określone części obrazu w celu uzyskania znaczących spostrzeżeń.
Modele segmentacji obrazu są szkolone w celu poprawy wyników poprzez rozpoznawanie ważnych szczegółów obrazu i zmniejszanie złożoności. Algorytmy te skutecznie rozróżniają różne obszary obrazu na podstawie takich cech, jak kolor, tekstura, kontrast, cienie i krawędzie.
Segmentując obraz, możemy skoncentrować naszą analizę na obszarach zainteresowania w celu uzyskania wnikliwych szczegółów. Poniżej znajdują się różne techniki segmentacji obrazu.
- Segmentacja semantyczna polega na etykietowaniu pikseli w klasy semantyczne.
- Segmentacja instancji idzie dalej, wykrywając i wyznaczając każdy obiekt na obrazie.
- Segmentacja panoptyczna przypisuje unikalne identyfikatory instancji do poszczególnych pikseli obiektów, co skutkuje bardziej kompleksowym i kontekstowym etykietowaniem wszystkich obiektów na obrazie.
Segmentacja jest realizowana przy użyciu modeli głębokiego uczenia się opartych na obrazach. Modele te pobierają wszystkie cenne punkty danych i funkcje ze zbioru szkoleniowego. Następnie zamień te dane na wektory i macierze, aby zrozumieć złożone funkcje. Niektóre z powszechnie stosowanych modeli głębokiego uczenia się stojących za segmentacją obrazu to:
- Konwolucyjne sieci neuronowe (CNN)
- W pełni połączone sieci (FCN)
- Powtarzające się sieci neuronowe (RNN)
Jak działa segmentacja obrazu?
In wizja komputerowa, większość modeli segmentacji obrazu składa się z sieci koderów i dekoderów. Koder koduje ukrytą reprezentację danych wejściowych w przestrzeni, którą dekoder dekoduje w celu utworzenia map segmentów, lub innymi słowy, map przedstawiających położenie każdego obiektu na obrazie.
Zwykle proces segmentacji składa się z 3 etapów:
- Koder obrazu, który przekształca obraz wejściowy w model matematyczny (wektory i macierze) w celu przetwarzania.
- Koder agreguje wektory na wielu poziomach.
- Szybki dekoder maski przyjmuje osadzony obraz jako dane wejściowe i tworzy maskę, która oddzielnie obrysowuje różne obiekty na obrazie.
Stan segmentacji obrazu
Począwszy od 2014 r. pojawiła się fala algorytmów segmentacji opartych na głębokim uczeniu się, takich jak CNN+CRF i FCN, które poczyniły znaczne postępy w tej dziedzinie. W 2015 roku nastąpił rozwój sieci U-Net i Deconvolution Network, co poprawiło dokładność wyników segmentacji.
Następnie w 2016 r. rozwiązania Instance Aware Segmentation, V-Net i RefineNet jeszcze bardziej poprawiły dokładność i szybkość segmentacji. Do 2017 roku Mark-RCNN i FC-DenseNet wprowadziły wykrywanie obiektów i gęste przewidywanie do zadań segmentacji.
W 2018 r. w centrum uwagi znajdowały się sieci Panoptic Segmentation, Mask-Lab i Context Encoding Networks, ponieważ podejścia te zaspokajały potrzebę segmentacji na poziomie instancji. Do 2019 roku Panoptic FPN, HRNet i Criss-Cross Attention wprowadziły nowe podejście do segmentacji na poziomie instancji.
W 2020 roku trend ten był kontynuowany wraz z wprowadzeniem Detecto RS, Panoptic DeepLab, PolarMask, CenterMask, DC-NAS i Efficient Net + NAS-FPN. Wreszcie w 2023 roku mamy SAM, o którym porozmawiamy dalej.
Model dowolnego segmentu (SAM) – segmentacja obrazu ogólnego przeznaczenia
Połączenia Model dowolnego segmentu (SAM) to nowe podejście, które umożliwia wykonywanie interaktywnych i automatycznych zadań segmentacji w jednym modelu. Wcześniej interaktywna segmentacja umożliwiała segmentację dowolnej klasy obiektów, ale wymagała od osoby kierowania metodą poprzez iteracyjne udoskonalanie maski.
Automatyczna segmentacja w SAM pozwala na segmentację określonych, zdefiniowanych wcześniej kategorii obiektów. Jego promowalny interfejs sprawia, że jest bardzo elastyczny. W rezultacie SAM może wykonywać szeroki zakres zadań segmentacji za pomocą odpowiedniego podpowiedzi, takiego jak kliknięcia, pola, tekst i inne.
SAM jest szkolony na zróżnicowanym i wnikliwym zbiorze danych obejmującym ponad 1 miliard masek, umożliwiając rozpoznawanie nowych obiektów i obrazów niedostępnych w zestaw treningowy. Te nowoczesne ramy szeroko zrewolucjonizują technologię Modele CV w aplikacjach jak samochody autonomiczne, bezpieczeństwo i rzeczywistość rozszerzona.
SAM może wykrywać i segmentować obiekty wokół samochodu w samochodach autonomicznych, takie jak inne pojazdy, piesi i znaki drogowe. W rzeczywistości rozszerzonej SAM może segmentować środowisko świata rzeczywistego, aby umieszczać wirtualne obiekty w odpowiednich lokalizacjach, tworząc bardziej realistyczny i wciągający UX.
Wyzwania związane z segmentacją obrazu w roku 2023
Rosnące badania i rozwój w zakresie segmentacji obrazu również niosą ze sobą istotne wyzwania. Do najważniejszych wyzwań związanych z segmentacją obrazu w 2023 r. należą:
- Rosnąca złożoność zbiorów danych, szczególnie w przypadku segmentacji obrazów 3D
- Rozwój interpretowalnych głębokich modeli
- Stosowanie modeli uczenia się bez nadzoru, które minimalizują interwencję człowieka
- Zapotrzebowanie na modele działające w czasie rzeczywistym i oszczędzające pamięć
- Eliminacja wąskich gardeł w segmentacji chmur punktów 3D
Przyszłość widzenia komputerowego
Globalny wizja komputerowa rynek ma wpływ na wiele branż i przewiduje się, że będzie sięgał ponad $ 41 mld 2030. Nowoczesne techniki segmentacji obrazu, takie jak model Segment Everything w połączeniu z innymi algorytmami głębokiego uczenia się, jeszcze bardziej wzmocnią strukturę widzenia komputerowego w krajobrazie cyfrowym. Dlatego w przyszłości zobaczymy solidniejsze modele widzenia komputerowego i inteligentne aplikacje.
Aby dowiedzieć się więcej o sztucznej inteligencji i uczeniu maszynowym, zapoznaj się z sekcją Unite.ai – kompleksowe rozwiązanie wszystkich zapytań dotyczących technologii i jej nowoczesnego stanu.