- Terminológia (A až D)
- Kontrola schopností AI
- AIOps
- albumov
- Výkonnosť aktív
- Autokóder
- Spätná propagácia
- Bayesova veta
- Big dát
- Chatbot: Sprievodca pre začiatočníkov
- Výpočtové myslenie
- Počítačové videnie
- Matica zmätku
- Konvolučné neurónové siete
- Kyber ochrana
- Data Fabric
- Rozprávanie dát
- dáta Science
- Skladovanie údajov
- Rozhodovací strom
- Deepfakes
- Deep Learning
- Hlboké posilnenie učenia
- DevOps
- DevSecOps
- Difúzne modely
- Digitálne Twin
- Zníženie rozmerov
- Terminológia (E až K)
- Edge AI
- Emócia AI
- Ensemble Learning
- Etické hackovanie
- ETL
- Vysvetliteľná AI
- Federatívne vzdelávanie
- FinOps
- Generatívna AI
- Generatívna kontradiktórna sieť
- Generatívne vs. diskriminačné
- Zosilnenie gradientu
- Gradientný zostup
- Učenie s niekoľkými výstrelmi
- Klasifikácia obrázkov
- IT operácie (ITOPs)
- Automatizácia incidentov
- Vplyvové inžinierstvo
- Klastrovanie K-Means
- K-Najbližší susedia
- Terminológia (od L po Q)
- Terminológia (od R po Z)
- Posilňovacie učenie
- Zodpovedná AI
- RLHF
- Automatizácia robotických procesov
- Štruktúrované vs neštruktúrované
- Analýza sentimentu
- Pod dohľadom verzus bez dozoru
- Podpora vektorové stroje
- Syntetické údaje
- Syntetické médiá
- Klasifikácia textu
- TinyML
- Transfer Learning
- Transformátorové neurónové siete
- Turingov test
- Vyhľadávanie podobnosti vektorov
AI 101
Čo je to počítačové videnie?
Obsah
Čo je to počítačové videnie?
Algoritmy počítačového videnia sú v súčasnosti jedným z najtransformatívnejších a najvýkonnejších systémov AI na svete. Systémy počítačového videnia pozri použitie v autonómnych vozidlách, navigácii robotov, systémoch rozpoznávania tváre a ďalších. Čo sú však presne algoritmy počítačového videnia? Ako fungujú? Aby sme na tieto otázky odpovedali, ponoríme sa hlboko do teórie počítačového videnia, algoritmov počítačového videnia a aplikácií pre systémy počítačového videnia.
Ako fungujú systémy počítačového videnia?
Aby sme mohli plne oceniť, ako systémy počítačového videnia fungujú, poďme najprv diskutovať o tom, ako ľudia rozpoznávajú predmety. Najlepším vysvetlením neuropsychológie pre to, ako rozpoznávame predmety, je model, ktorý popisuje počiatočnú fázu rozpoznávanie objektov ako taký, kde základné zložky objektov, ako je forma, farba a hĺbka, sú najskôr interpretované mozgom. Signály z oka, ktoré vstupujú do mozgu, sa analyzujú tak, aby sa najskôr vytiahli okraje objektu a tieto okraje sa spoja do zložitejšej reprezentácie, ktorá dotvára tvar objektu.
Systémy počítačového videnia fungujú veľmi podobne ako ľudský vizuálny systém tým, že najprv rozoznajú okraje objektu a potom tieto okraje spoja do tvaru objektu. Veľký rozdiel je v tom, že keďže počítače interpretujú obrázky ako čísla, systém počítačového videnia potrebuje nejaký spôsob, ako interpretovať jednotlivé pixely, ktoré tvoria obrázok. Systém počítačového videnia priradí hodnoty pixelom v obraze a preskúmaním rozdielu v hodnotách medzi jednou oblasťou pixelov a inou oblasťou pixelov môže počítač rozlíšiť okraje. Napríklad, ak je príslušný obrázok v odtieňoch sivej, hodnoty sa budú pohybovať od čiernej (reprezentovanej 0) po bielu (reprezentovanú 255). Náhla zmena v rozsahu hodnôt pixelov blízko seba bude znamenať hranu.
Tento základný princíp porovnávania hodnôt pixelov je možné vykonať aj s farebnými obrázkami, pričom počítač porovnáva rozdiely medzi rôznymi farebnými kanálmi RGB. Takže vedzte, že vieme, ako systém počítačového videnia skúma hodnoty pixelov na interpretáciu obrazu, poďme sa pozrieť na architektúru systému počítačového videnia.
Konvolučné neurónové siete (CNN)
Primárny typ AI používaný v úlohách počítačového videnia je jeden založené na konvolučných neurónových sieťach. Čo je to vlastne konvolúcia?
Konvolúcie sú matematické procesy, ktoré sieť používa na určenie rozdielu v hodnotách medzi pixelmi. Ak si predstavujete mriežku hodnôt pixelov, predstavte si menšiu mriežku, ktorá sa presúva cez túto hlavnú mriežku. Hodnoty pod druhou mriežkou sú analyzované sieťou, takže sieť skúma iba niekoľko pixelov naraz. Často sa to nazýva technika „posuvných okien“. Hodnoty analyzované posuvným oknom sú sumarizované sieťou, čo pomáha znižovať zložitosť obrazu a uľahčuje sieti extrahovanie vzorov.
Konvolučné neurónové siete sú rozdelená do dvoch rôznych sekcií, konvolučná sekcia a plne spojená sekcia. Konvolučné vrstvy siete sú extraktory funkcií, ktorých úlohou je analyzovať pixely v obraze a vytvárať ich reprezentácie, z ktorých sa môžu husto prepojené vrstvy neurónovej siete učiť vzory. Konvolučné vrstvy začínajú skúmaním pixelov a extrahovaním nízkoúrovňových prvkov obrazu, ako sú okraje. Neskoršie konvolučné vrstvy spájajú okraje dohromady do zložitejších tvarov. Na konci bude, dúfajme, mať sieť znázornenie okrajov a detailov obrazu, ktoré môže preniesť do plne prepojených vrstiev.
Anotácia obrázku
Zatiaľ čo konvolučná neurónová sieť môže sama extrahovať vzory z obrázkov, presnosť systému počítačového videnia sa dá výrazne zlepšiť anotovaním obrázkov. Anotácia obrázka je proces pridávania metadát k obrázku, ktorý pomáha klasifikátorovi pri zisťovaní dôležitých objektov v obrázku. Použitie obrázkovej anotácie je dôležité vždy, keď systémy počítačového videnia potrebujú byť vysoko presné, ako napríklad pri riadení autonómneho vozidla alebo robota.
Existujú rôzne spôsoby, ako môžu byť obrázky anotované, aby sa zlepšil výkon klasifikátora počítačového videnia. Anotácia obrázka sa často vykonáva pomocou ohraničujúcich rámčekov, rámčeka, ktorý obklopuje okraje cieľového objektu a hovorí počítaču, aby zameral svoju pozornosť na rámček. Sémantická segmentácia je ďalší typ anotácie obrázka, ktorý funguje tak, že každému pixelu obrázka sa priradí trieda obrázka. Inými slovami, každý pixel, ktorý možno považovať za „trávu“ alebo „stromy“, bude označený ako patriaci do týchto tried. Táto technika poskytuje presnosť na úrovni pixelov, ale vytváranie anotácií sémantickej segmentácie je zložitejšie a časovo náročnejšie ako vytváranie jednoduchých ohraničujúcich rámčekov. Existujú aj iné anotačné metódy, ako sú čiary a body.
Bloger a programátor so špecializáciou v Strojové učenie a Deep Learning témy. Daniel dúfa, že pomôže ostatným využívať silu AI pre sociálne dobro.
Možno budete chcieť
Okamžitý štýl: Zachovanie štýlu pri generovaní textu na obrázok
Arlington, VA: Vzniká ako nová sila v inováciách AI
POKELLMON: Agent ľudskej parity pre bitky Pokémonov s LLM
Vizuálne autoregresné modelovanie: Škálovateľné generovanie obrazu prostredníctvom predpovede ďalšej mierky
InstructIR: Vysokokvalitná obnova obrazu podľa ľudských pokynov
DynamiCrafter: Animácia obrázkov v otvorenej doméne pomocou priorít šírenia videa