AI 101 m

Kas yra kompiuterinė vizija?

Atnaujinta on Liepa 21, 2023

Kas yra kompiuterinė vizija?

Kompiuterinio matymo algoritmai šiuo metu yra viena iš labiausiai transformuojančių ir galingiausių AI sistemų pasaulyje. Kompiuterinio matymo sistemos žr. naudojimą autonominėse transporto priemonėse, robotų navigacijoje, veido atpažinimo sistemose ir kt. Tačiau kas tiksliai yra kompiuterinio matymo algoritmai? Kaip jie veikia? Norėdami atsakyti į šiuos klausimus, gilinsimės į kompiuterinio matymo teoriją, kompiuterinio matymo algoritmus ir kompiuterinio matymo sistemų programas.

Kaip veikia kompiuterinės matymo sistemos?

Kad suprastume, kaip veikia kompiuterinės regos sistemos, pirmiausia aptarkime, kaip žmonės atpažįsta objektus. Geriausias neuropsichologijos paaiškinimas, kaip mes atpažįstame objektus, yra modelis, apibūdinantis pradinę jų fazę objekto atpažinimas kaip tas, kur pagrindiniai objektų komponentai, tokie kaip forma, spalva ir gylis, pirmiausia yra interpretuojami smegenyse. Signalai iš akies, patenkantys į smegenis, analizuojami, kad pirmiausia būtų ištraukti objekto kraštai, o šie kraštai sujungiami į sudėtingesnį vaizdą, kuris užbaigia objekto formą.

Kompiuterinės regos sistemos veikia labai panašiai kaip žmogaus regėjimo sistema, pirmiausia atpažįstant objekto kraštus ir sujungiant šiuos kraštus į objekto formą. Didelis skirtumas yra tas, kad kadangi kompiuteriai vaizdus interpretuoja kaip skaičius, kompiuterinės regos sistemai reikia tam tikro būdo interpretuoti atskirus vaizdo elementus sudarančius pikselius. Kompiuterinio matymo sistema priskirs reikšmes vaizdo pikseliams, o ištyręs reikšmių skirtumą tarp vieno pikselių regiono ir kito pikselių regiono, kompiuteris gali atskirti kraštus. Pavyzdžiui, jei nagrinėjamas vaizdas yra pilkos spalvos, reikšmės svyruoja nuo juodos (pavaizduota 0) iki baltos (pavaizduota 255). Staigus pikselių reikšmių diapazono pasikeitimas šalia vienas kito parodys kraštą.

Šis pagrindinis pikselių reikšmių palyginimo principas taip pat gali būti atliekamas naudojant spalvotus vaizdus, kai kompiuteris lygina skirtingų RGB spalvų kanalų skirtumus. Taigi žinokite, kad žinome, kaip kompiuterinės regos sistema tiria pikselių reikšmes, kad interpretuotų vaizdą, pažvelkime į kompiuterinės regos sistemos architektūrą.

Konvoliuciniai neuroniniai tinklai (CNN)

Pagrindinis AI tipas, naudojamas atliekant kompiuterinio matymo užduotis, yra vienas remiantis konvoliuciniais neuroniniais tinklais. Kas tiksliai yra konvoliucija?

Konvoliucijos yra matematiniai procesai, kuriuos tinklas naudoja pikselių reikšmių skirtumui nustatyti. Jei įsivaizduojate pikselių reikšmių tinklelį, pavaizduokite mažesnį tinklelį, perkeliamą virš šio pagrindinio tinklelio. Tinklas analizuoja reikšmes po antruoju tinkleliu, todėl tinklas vienu metu tiria tik keletą pikselių. Tai dažnai vadinama „stumdomų langų“ technika. Stumdomame lange analizuojamos reikšmės apibendrinamos tinkle, o tai padeda sumažinti vaizdo sudėtingumą ir tinklui lengviau išgauti šablonus.

Konvoliuciniai neuroniniai tinklai yra padalintas į dvi skirtingas dalis, konvoliucinė sekcija ir visiškai sujungta sekcija. Konvoliuciniai tinklo sluoksniai yra funkcijų ištraukikliai, kurių užduotis yra analizuoti vaizdo pikselius ir sudaryti jų atvaizdus, iš kurių tankiai sujungti neuroninio tinklo sluoksniai gali mokytis modelių. Konvoliuciniai sluoksniai pradedami tik ištyrus pikselius ir išskiriant žemo lygio vaizdo ypatybes, pvz., kraštus. Vėlesni konvoliuciniai sluoksniai sujungia kraštus į sudėtingesnes formas. Tikimasi, kad iki galo tinklas turės vaizdo kraštų ir detalių vaizdą, kurį jis galės perduoti visiškai sujungtiems sluoksniams.

Vaizdo anotacija

Nors konvoliucinis neuroninis tinklas gali pats išgauti šablonus iš vaizdų, kompiuterinės regos sistemos tikslumą galima labai pagerinti komentuojant vaizdus. Vaizdo anotacija yra metaduomenų pridėjimo prie vaizdo procesas, kuris padeda klasifikatoriui aptikti svarbius vaizdo objektus. Vaizdo anotacijos naudojimas yra svarbus, kai kompiuterinio matymo sistemos turi būti labai tikslios, pavyzdžiui, kai valdoma autonominė transporto priemonė ar robotas.

Norint pagerinti kompiuterinio regėjimo klasifikatoriaus veikimą, vaizdus galima komentuoti įvairiais būdais. Vaizdo anotacija dažnai daroma naudojant ribojančius langelius – langelį, kuris supa tikslinio objekto kraštus ir nurodo kompiuteriui sutelkti dėmesį į langelį. Semantinis segmentavimas yra dar vienas vaizdo anotacijos tipas, kuris veikia kiekvienam vaizdo pikseliui priskirdamas vaizdo klasę. Kitaip tariant, kiekvienas pikselis, kuris gali būti laikomas „žole“ arba „medžiu“, bus pažymėtas kaip priklausantis toms klasėms. Ši technika užtikrina pikselių lygio tikslumą, tačiau semantinio segmentavimo anotacijų kūrimas yra sudėtingesnis ir daug laiko reikalaujantis procesas nei paprastų ribojamųjų langelių kūrimas. Taip pat yra kitų komentarų metodų, tokių kaip linijos ir taškai.

Kitas

Kas yra painiavos matrica?

Nepraleiskite

Kas yra neuroniniai tinklai?

Danielis Nelsonas

Tinklaraštininkas ir programuotojas, turintis specialybių Mašininis mokymasis ir Gilus mokymasis temomis. Danielis tikisi padėti kitiems panaudoti AI galią socialinei gerovei.