АИ 101 година

Што е Computer Vision?

Ажурирани on Јули 21, 2023

Што е Computer Vision?

Алгоритмите за компјутерска визија се еден од најтрансформативните и најмоќните системи за вештачка интелигенција во светот во моментов. Компјутерски системи за визија види употреба во автономни возила, навигација со роботи, системи за препознавање лица и многу повеќе. Меѓутоа, што се точно алгоритмите за компјутерска визија? Како функционираат тие? За да одговориме на овие прашања, ќе навлеземе длабоко во теоријата зад компјутерската визија, алгоритмите за компјутерска визија и апликациите за системи за компјутерска визија.

Како функционираат Computer Vision Systems?

Со цел целосно да разбереме како функционираат системите за компјутерска визија, прво да одвоиме малку време да разговараме за тоа како луѓето препознаваат предмети. Најдоброто објаснување што невропсихологијата го има за тоа како ги препознаваме предметите е модел кој ја опишува почетната фаза на препознавање на предмет како онаа каде што основните компоненти на предметите, како што се формата, бојата и длабочината, прво се толкуваат од мозокот. Сигналите од окото што влегуваат во мозокот се анализираат за прво да се извлечат рабовите на објектот, а овие рабови се споени заедно во покомплексна претстава која ја комплетира формата на објектот.

Системите за компјутерска визија функционираат многу слично на човечкиот визуелен систем, така што прво ги препознаваат рабовите на објектот, а потоа ги спојуваат овие рабови заедно во обликот на објектот. Големата разлика е во тоа што бидејќи компјутерите ги толкуваат сликите како бројки, на системот за компјутерска визија му треба некој начин да ги интерпретира поединечните пиксели што ја сочинуваат сликата. Системот за компјутерска визија ќе додели вредности на пикселите на сликата и со испитување на разликата во вредностите помеѓу еден регион од пиксели и друг регион од пиксели, компјутерот може да ги препознае рабовите. На пример, ако сликата за која станува збор е сива скала, тогаш вредностите ќе се движат од црно (претставено со 0) до бело (претставено со 255). Ненадејна промена во опсегот на вредностите на пикселите блиску една до друга ќе укаже на раб.

Овој основен принцип на споредување на вредностите на пиксели може да се направи и со обоени слики, при што компјутерот ги споредува разликите помеѓу различните RGB канали во боја. Значи, знајте дека знаеме како системот за компјутерска визија ги испитува вредностите на пиксели за да интерпретира слика, ајде да погледнеме во архитектурата на системот за компјутерска визија.

Конволутивни невронски мрежи (CNN)

Примарниот тип на вештачка интелигенција што се користи во задачите за компјутерска визија е еден базирани на конволуциони невронски мрежи. Што е точно конволуција?

Конволуциите се математички процеси што ги користи мрежата за да ја одреди разликата во вредностите помеѓу пикселите. Ако замислите мрежа од вредности на пиксели, замислете помала мрежа која се преместува над оваа главна мрежа. Вредностите под втората мрежа се анализираат од мрежата, така што мрежата испитува само неколку пиксели во исто време. Ова често се нарекува техника на „лизгачки прозорци“. Вредностите што се анализираат со лизгачкиот прозорец се сумирани од мрежата, што помага да се намали сложеноста на сликата и да се олесни извлекувањето на шаблони на мрежата.

Конволутивните невронски мрежи се поделени на два различни дела, конволуциониот дел и целосно поврзаниот дел. Конволуционите слоеви на мрежата се извлекувачи на карактеристики, чија задача е да ги анализираат пикселите во сликата и да формираат претстави за нив од кои густо поврзаните слоеви на невронската мрежа можат да научат обрасци. Конволуционите слоеви започнуваат со само испитување на пикселите и извлекување на карактеристиките на сликата на ниско ниво како рабови. Подоцнежните конволуциони слоеви ги спојуваат рабовите заедно во посложени форми. До крајот, мрежата се надеваме дека ќе има претстава на рабовите и деталите на сликата што може да ги пренесе на целосно поврзаните слоеви.

Анотација на слика

Додека конволутивната невронска мрежа може сама да извлече шаблони од сликите, точноста на системот за компјутерска визија може значително да се подобри со прибележување на сликите. Прибелешка на сликата е процес на додавање метаподатоци на сликата што му помага на класификаторот да открие важни објекти на сликата. Употребата на прибелешка на сликата е важна секогаш кога системите за компјутерска визија треба да бидат многу прецизни, како на пример кога се контролира автономно возило или робот.

Постојат различни начини на кои сликите може да се прибележат за да се подобрат перформансите на класификаторот за компјутерска визија. Прибелешката на сликата често се прави со гранични кутии, кутија што ги опкружува рабовите на целниот објект и му кажува на компјутерот да го фокусира своето внимание во кутијата. Семантичката сегментација е друг вид на прибелешка на сликата, која функционира со доделување класа на слика на секој пиксел во сликата. Со други зборови, секој пиксел што би можел да се смета за „трева“ или „дрва“ ќе биде означен дека припаѓа на тие класи. Техниката обезбедува прецизност на ниво на пиксели, но создавањето прибелешки за семантичка сегментација е покомплексно и одзема многу време отколку создавање едноставни кутии за ограничување. Постојат и други методи за прибележување, како линии и точки.

Следно

Што е матрица за конфузија?

Не ја пропуштајте

Што се невронски мрежи?

Даниел Нелсон

Блогер и програмер со специјалитети во Машинско учење Длабоко учење теми. Даниел се надева дека ќе им помогне на другите да ја искористат моќта на вештачката интелигенција за општествено добро.