AI 101 г

Какво е компютърно зрение?

Обновено on Юли 21, 2023

Какво е компютърно зрение?

Алгоритмите за компютърно зрение са едни от най-трансформиращите и мощни AI системи в света в момента. Системи за компютърно зрение вижте използване в автономни превозни средства, навигация на роботи, системи за лицево разпознаване и др. Но какво точно представляват алгоритмите за компютърно зрение? Как действат? За да отговорим на тези въпроси, ще се потопим дълбоко в теорията зад компютърното зрение, алгоритмите за компютърно зрение и приложенията за системи за компютърно зрение.

Как работят системите за компютърно зрение?

За да оценим напълно как работят системите за компютърно зрение, нека първо отделим малко време, за да обсъдим как хората разпознават обекти. Най-доброто обяснение, което невропсихологията има за това как разпознаваме обекти, е модел, който описва началната фаза на разпознаване на обект като такъв, при който основните компоненти на обектите, като форма, цвят и дълбочина, се интерпретират първо от мозъка. Сигналите от окото, които влизат в мозъка, се анализират, за да се извадят първо краищата на даден обект и тези краища се съединяват в по-сложно представяне, което допълва формата на обекта.

Системите за компютърно зрение работят много подобно на човешката визуална система, като първо разпознават ръбовете на даден обект и след това съединяват тези ръбове заедно във формата на обекта. Голямата разлика е, че тъй като компютрите интерпретират изображенията като числа, системата за компютърно зрение се нуждае от някакъв начин да интерпретира отделните пиксели, които съставляват изображението. Системата за компютърно зрение ще присвои стойности на пикселите в изображението и чрез изследване на разликата в стойностите между една област от пиксели и друга област от пиксели, компютърът може да различи ръбове. Например, ако въпросното изображение е в сива скала, тогава стойностите ще варират от черно (представено от 0) до бяло (представено от 255). Внезапна промяна в обхвата на стойностите на пикселите близо един до друг ще покаже край.

Този основен принцип на сравняване на стойностите на пикселите може да се направи и с цветни изображения, като компютърът сравнява разликите между различните RGB цветови канали. Така че знаем, че знаем как системата за компютърно зрение изследва стойностите на пикселите, за да интерпретира изображение, нека да разгледаме архитектурата на системата за компютърно зрение.

Конволюционни невронни мрежи (CNN)

Основният тип AI, използван в задачите за компютърно зрение, е един базирани на конволюционни невронни мрежи. Какво точно е конволюция?

Конволюциите са математически процеси, които мрежата използва, за да определи разликата в стойностите между пикселите. Ако си представяте решетка от стойности на пиксели, представете си по-малка решетка, която се премества над тази основна решетка. Стойностите под втората мрежа се анализират от мрежата, така че мрежата изследва само шепа пиксели наведнъж. Това често се нарича техника на „плъзгащи се прозорци“. Стойностите, които се анализират от плъзгащия се прозорец, се обобщават от мрежата, което помага за намаляване на сложността на изображението и улеснява мрежата да извлича модели.

Конволюционните невронни мрежи са разделени на две различни секции, конволюционната секция и напълно свързаната секция. Конволюционните слоеве на мрежата са екстрактори на характеристики, чиято работа е да анализират пикселите в изображението и да формират техни представяния, от които гъсто свързаните слоеве на невронната мрежа могат да научат модели. Конволюционните слоеве започват с просто изследване на пикселите и извличане на характеристиките на ниско ниво на изображението като ръбове. По-късните конволюционни слоеве съединяват краищата заедно в по-сложни форми. До края се надяваме, че мрежата ще има представяне на краищата и детайлите на изображението, които може да предаде на напълно свързаните слоеве.

Анотация на изображението

Докато конволюционната невронна мрежа може сама да извлича модели от изображения, точността на системата за компютърно зрение може да бъде значително подобрена чрез анотиране на изображенията. Анотация на изображението е процес на добавяне на метаданни към изображението, което подпомага класификатора при откриването на важни обекти в изображението. Използването на анотация на изображението е важно винаги, когато системите за компютърно зрение трябва да бъдат много точни, като например при управление на автономно превозно средство или робот.

Има различни начини, по които изображенията могат да бъдат анотирани, за да се подобри работата на класификатора за компютърно зрение. Анотацията на изображението често се прави с ограничаващи полета, поле, което обгражда краищата на целевия обект и казва на компютъра да фокусира вниманието си в рамките на полето. Семантичното сегментиране е друг вид анотация на изображение, което работи чрез присвояване на клас на изображение на всеки пиксел в изображението. С други думи, всеки пиксел, който може да се счита за „трева“ или „дървета“, ще бъде етикетиран като принадлежащ към тези класове. Техниката осигурява прецизност на ниво пиксел, но създаването на анотации за семантично сегментиране е по-сложно и отнема много време от създаването на прости ограничителни полета. Съществуват и други методи за анотации, като линии и точки.

Следва

Какво е матрица на объркване?

Не пропускайте

Какво представляват невронните мрежи?

Даниел Нелсън

Блогър и програмист със специалности в Machine Learning намлява Дълбоко обучение теми. Даниел се надява да помогне на другите да използват силата на ИИ за социално благо.