AI 101

Čo je to počítačové videnie?

Aktualizované on Júla 21, 2023

Čo je to počítačové videnie?

Algoritmy počítačového videnia sú v súčasnosti jedným z najtransformatívnejších a najvýkonnejších systémov AI na svete. Systémy počítačového videnia pozri použitie v autonómnych vozidlách, navigácii robotov, systémoch rozpoznávania tváre a ďalších. Čo sú však presne algoritmy počítačového videnia? Ako fungujú? Aby sme na tieto otázky odpovedali, ponoríme sa hlboko do teórie počítačového videnia, algoritmov počítačového videnia a aplikácií pre systémy počítačového videnia.

Ako fungujú systémy počítačového videnia?

Aby sme mohli plne oceniť, ako systémy počítačového videnia fungujú, poďme najprv diskutovať o tom, ako ľudia rozpoznávajú predmety. Najlepším vysvetlením neuropsychológie pre to, ako rozpoznávame predmety, je model, ktorý popisuje počiatočnú fázu rozpoznávanie objektov ako taký, kde základné zložky objektov, ako je forma, farba a hĺbka, sú najskôr interpretované mozgom. Signály z oka, ktoré vstupujú do mozgu, sa analyzujú tak, aby sa najskôr vytiahli okraje objektu a tieto okraje sa spoja do zložitejšej reprezentácie, ktorá dotvára tvar objektu.

Systémy počítačového videnia fungujú veľmi podobne ako ľudský vizuálny systém tým, že najprv rozoznajú okraje objektu a potom tieto okraje spoja do tvaru objektu. Veľký rozdiel je v tom, že keďže počítače interpretujú obrázky ako čísla, systém počítačového videnia potrebuje nejaký spôsob, ako interpretovať jednotlivé pixely, ktoré tvoria obrázok. Systém počítačového videnia priradí hodnoty pixelom v obraze a preskúmaním rozdielu v hodnotách medzi jednou oblasťou pixelov a inou oblasťou pixelov môže počítač rozlíšiť okraje. Napríklad, ak je príslušný obrázok v odtieňoch sivej, hodnoty sa budú pohybovať od čiernej (reprezentovanej 0) po bielu (reprezentovanú 255). Náhla zmena v rozsahu hodnôt pixelov blízko seba bude znamenať hranu.

Tento základný princíp porovnávania hodnôt pixelov je možné vykonať aj s farebnými obrázkami, pričom počítač porovnáva rozdiely medzi rôznymi farebnými kanálmi RGB. Takže vedzte, že vieme, ako systém počítačového videnia skúma hodnoty pixelov na interpretáciu obrazu, poďme sa pozrieť na architektúru systému počítačového videnia.

Konvolučné neurónové siete (CNN)

Primárny typ AI používaný v úlohách počítačového videnia je jeden založené na konvolučných neurónových sieťach. Čo je to vlastne konvolúcia?

Konvolúcie sú matematické procesy, ktoré sieť používa na určenie rozdielu v hodnotách medzi pixelmi. Ak si predstavujete mriežku hodnôt pixelov, predstavte si menšiu mriežku, ktorá sa presúva cez túto hlavnú mriežku. Hodnoty pod druhou mriežkou sú analyzované sieťou, takže sieť skúma iba niekoľko pixelov naraz. Často sa to nazýva technika „posuvných okien“. Hodnoty analyzované posuvným oknom sú sumarizované sieťou, čo pomáha znižovať zložitosť obrazu a uľahčuje sieti extrahovanie vzorov.

Konvolučné neurónové siete sú rozdelená do dvoch rôznych sekcií, konvolučná sekcia a plne spojená sekcia. Konvolučné vrstvy siete sú extraktory funkcií, ktorých úlohou je analyzovať pixely v obraze a vytvárať ich reprezentácie, z ktorých sa môžu husto prepojené vrstvy neurónovej siete učiť vzory. Konvolučné vrstvy začínajú skúmaním pixelov a extrahovaním nízkoúrovňových prvkov obrazu, ako sú okraje. Neskoršie konvolučné vrstvy spájajú okraje dohromady do zložitejších tvarov. Na konci bude, dúfajme, mať sieť znázornenie okrajov a detailov obrazu, ktoré môže preniesť do plne prepojených vrstiev.

Anotácia obrázku

Zatiaľ čo konvolučná neurónová sieť môže sama extrahovať vzory z obrázkov, presnosť systému počítačového videnia sa dá výrazne zlepšiť anotovaním obrázkov. Anotácia obrázka je proces pridávania metadát k obrázku, ktorý pomáha klasifikátorovi pri zisťovaní dôležitých objektov v obrázku. Použitie obrázkovej anotácie je dôležité vždy, keď systémy počítačového videnia potrebujú byť vysoko presné, ako napríklad pri riadení autonómneho vozidla alebo robota.

Existujú rôzne spôsoby, ako môžu byť obrázky anotované, aby sa zlepšil výkon klasifikátora počítačového videnia. Anotácia obrázka sa často vykonáva pomocou ohraničujúcich rámčekov, rámčeka, ktorý obklopuje okraje cieľového objektu a hovorí počítaču, aby zameral svoju pozornosť na rámček. Sémantická segmentácia je ďalší typ anotácie obrázka, ktorý funguje tak, že každému pixelu obrázka sa priradí trieda obrázka. Inými slovami, každý pixel, ktorý možno považovať za „trávu“ alebo „stromy“, bude označený ako patriaci do týchto tried. Táto technika poskytuje presnosť na úrovni pixelov, ale vytváranie anotácií sémantickej segmentácie je zložitejšie a časovo náročnejšie ako vytváranie jednoduchých ohraničujúcich rámčekov. Existujú aj iné anotačné metódy, ako sú čiary a body.