Umelá inteligencia

Segmentujte model čohokoľvek – počítačová vízia dostáva masívny nárast

uverejnené

Pred rokom 1

Môže 5, 2023

Detailný záber mužskej tváre s ukazovateľmi detekcie tváre.

Počítačové videnie (CV) dosiahlo 99% presnosť od 50% do 10 rokov. Očakáva sa, že technológia sa bude ďalej zlepšovať na bezprecedentnú úroveň pomocou moderných algoritmov a techník segmentácie obrazu. Nedávno spoločnosť Meta FAIR lab vydala Segmentovať model čohokoľvek (SAM) – zmena hry v segmentácii obrazu. Tento pokročilý model dokáže vytvárať podrobné masky objektov zo vstupných výziev, čím posúva počítačové videnie do nových výšin. Môže to potenciálne spôsobiť revolúciu v tom, ako v tejto dobe interagujeme s digitálnymi technológiami.

Poďme preskúmať segmentáciu obrázkov a stručne odhaliť, ako SAM ovplyvňuje počítačová vízia.

Čo je segmentácia obrázkov a aké sú jej typy?

Segmentácia obrazu je proces v počítačovom videní, ktorý rozdeľuje obraz na viacero oblastí alebo segmentov, z ktorých každý predstavuje iný objekt alebo oblasť obrazu. Tento prístup umožňuje odborníkom izolovať konkrétne časti obrazu, aby získali zmysluplné poznatky.

Modely segmentácie obrazu sú trénované na zlepšenie výstupu rozpoznávaním dôležitých detailov obrazu a znížením zložitosti. Tieto algoritmy efektívne rozlišujú medzi rôznymi oblasťami obrazu na základe funkcií, ako sú farba, textúra, kontrast, tiene a okraje.

Segmentovaním obrázka môžeme zamerať našu analýzu na oblasti záujmu, aby sme získali podrobné podrobnosti. Nižšie sú uvedené rôzne techniky segmentácie obrázkov.

Sémantická segmentácia zahŕňa označovanie pixelov do sémantických tried.
Segmentácia inštancií ide ďalej tým, že deteguje a ohraničuje každý objekt na obrázku.
Panoptická segmentácia priraďuje jedinečné ID inštancie jednotlivým pixelom objektov, čo vedie k komplexnejšiemu a kontextuálnemu označeniu všetkých objektov v obrázku.

Segmentácia sa implementuje pomocou modelov hlbokého učenia založených na obrázkoch. Tieto modely získavajú všetky cenné dátové body a funkcie z tréningovej sady. Potom tieto údaje premeňte na vektory a matice, aby ste pochopili zložité funkcie. Niektoré zo široko používaných modelov hlbokého učenia za segmentáciou obrázkov sú:

Konvolučné neurónové siete (CNN)
Plne pripojené siete (FCN)
Opakujúce sa neurónové siete (RNN)

Ako funguje segmentácia obrázkov?

In počítačová vízia, väčšina modelov segmentácie obrazu pozostáva zo siete kódovač-dekodér. Kódovač zakóduje latentnú priestorovú reprezentáciu vstupných dát, ktoré dekódovač dekóduje, aby vytvoril mapy segmentov, alebo inými slovami, mapy znázorňujúce umiestnenie každého objektu na obrázku.

Proces segmentácie zvyčajne pozostáva z 3 fáz:

Obrazový kódovač, ktorý transformuje vstupný obraz na matematický model (vektory a matice) na spracovanie.
Kódovač agreguje vektory na viacerých úrovniach.
Rýchly dekodér masiek berie vloženie obrazu ako vstup a vytvára masku, ktorá oddelene načrtáva rôzne objekty v obraze.

Stav segmentácie obrazu

Počnúc rokom 2014 sa objavila vlna segmentačných algoritmov založených na hlbokom učení, ako napríklad CNN+CRF a FCN, ktoré dosiahli významný pokrok v tejto oblasti. V roku 2015 sa rozrástla sieť U-Net a Deconvolution Network, čím sa zlepšila presnosť výsledkov segmentácie.

Potom v roku 2016 Instance Aware Segmentation, V-Net a RefineNet ďalej zlepšili presnosť a rýchlosť segmentácie. Do roku 2017 Mark-RCNN a FC-DenseNet zaviedli do segmentačných úloh detekciu objektov a hustú predikciu.

V roku 2018 boli v centre diania siete Panoptic Segmentation, Mask-Lab a Context Encoding Networks, pretože tieto prístupy riešili potrebu segmentácie na úrovni príkladov. Do roku 2019 Panoptic FPN, HRNet a Criss-Cross Attention zaviedli nové prístupy pre segmentáciu na úrovni príkladov.

V roku 2020 trend pokračoval uvedením Detecto RS, Panoptic DeepLab, PolarMask, CenterMask, DC-NAS a Efficient Net + NAS-FPN. Nakoniec, v roku 2023 máme SAM, o ktorom budeme diskutovať nabudúce.

Segment Anything Model (SAM) – Segmentácia obrazu na všeobecné účely

Ilustrácia segmentovej architektúry modelu čohokoľvek

Zdroj obrázku

Segmentovať model čohokoľvek (SAM) je nový prístup, ktorý dokáže vykonávať interaktívne a automatické segmentačné úlohy v jedinom modeli. Predtým interaktívna segmentácia umožňovala segmentovať akúkoľvek triedu objektov, ale vyžadovala si, aby osoba viedla metódu iteratívnym spresňovaním masky.

Automatická segmentácia v SAM umožňuje segmentáciu špecifických kategórií objektov definovaných vopred. Jeho propagovateľné rozhranie ho robí vysoko flexibilným. Výsledkom je, že SAM môže riešiť širokú škálu úloh segmentácie pomocou vhodnej výzvy, ako sú kliknutia, polia, text a ďalšie.

SAM je vyškolený na rôznorodom a dômyselnom súbore údajov s viac ako 1 miliardou masiek, čo umožňuje rozpoznať nové objekty a obrázky nedostupné v tréningová súprava. Tento moderný rámec spôsobí rozsiahlu revolúciu CV modely v aplikáciách ako sú samoriadiace autá, bezpečnosť a rozšírená realita.

SAM dokáže detekovať a segmentovať objekty v okolí auta v autách s vlastným pohonom, ako sú iné vozidlá, chodci a dopravné značky. V rozšírenej realite môže SAM segmentovať prostredie skutočného sveta a umiestniť virtuálne objekty na vhodné miesta, čím vytvorí realistickejší a pútavejší UX.

Výzvy segmentácie obrázkov v roku 2023

Narastajúci výskum a vývoj v segmentácii obrazu prináša aj značné výzvy. Medzi hlavné výzvy segmentácie obrázkov v roku 2023 patria:

Rastúca zložitosť súborov údajov, najmä pre segmentáciu 3D obrazu
Vývoj interpretovateľných hlbokých modelov
Používanie modelov učenia bez dozoru, ktoré minimalizujú ľudské zásahy
Potreba modelov v reálnom čase a pamäťovo efektívnych modelov
Odstránenie prekážok pri 3D segmentácii mrakov bodov

Budúcnosť počítačového videnia

Globálne počítačová vízia trh ovplyvňuje viaceré odvetvia a predpokladá sa, že zasiahne viac 41 od 2030 miliárd USD. Moderné techniky segmentácie obrazu, ako je model Segment Anything Model v spojení s ďalšími algoritmami hlbokého učenia, ešte viac posilnia štruktúru počítačového videnia v digitálnom prostredí. Preto v budúcnosti uvidíme robustnejšie modely počítačového videnia a inteligentné aplikácie.

Ak sa chcete dozvedieť viac o AI a ML, preskúmajte Unite.ai – vaše riešenie na jednom mieste pre všetky otázky týkajúce sa techniky a jej moderného stavu.