AI 101

Що таке комп’ютерний зір?

оновлений on Липень 21, 2023

Що таке комп’ютерний зір?

Алгоритми комп’ютерного зору є однією з найбільш трансформаційних і потужних систем штучного інтелекту в світі на даний момент. Системи комп'ютерного зору перегляньте використання в автономних транспортних засобах, навігації роботів, системах розпізнавання обличчя тощо. Однак що таке алгоритми комп’ютерного зору? Як вони працюють? Щоб відповісти на ці запитання, ми глибоко зануримося в теорію комп’ютерного зору, алгоритми комп’ютерного зору та програми для систем комп’ютерного зору.

Як працюють системи комп'ютерного зору?

Щоб повністю зрозуміти, як працюють системи комп’ютерного зору, давайте спочатку обговоримо, як люди розпізнають об’єкти. Найкраще нейропсихологічне пояснення того, як ми розпізнаємо об’єкти, — це модель, яка описує початкову фазу розпізнавання об'єктів як такий, де основні компоненти об’єктів, такі як форма, колір і глибина, спочатку інтерпретуються мозком. Сигнали від ока, які надходять у мозок, аналізуються, щоб спочатку виділити краї об’єкта, і ці краї з’єднуються разом у більш складне уявлення, яке доповнює форму об’єкта.

Системи комп’ютерного зору працюють дуже подібно до зорової системи людини: спочатку розрізняють краї об’єкта, а потім з’єднують ці краї разом у форму об’єкта. Велика різниця полягає в тому, що оскільки комп’ютери інтерпретують зображення як числа, система комп’ютерного зору потребує певного способу інтерпретації окремих пікселів, які складають зображення. Система комп’ютерного зору призначатиме значення пікселям на зображенні, і, досліджуючи різницю в значеннях між однією областю пікселів та іншою областю пікселів, комп’ютер зможе розпізнати краї. Наприклад, якщо зображення має відтінки сірого, значення будуть коливатися від чорного (позначено 0) до білого (позначено 255). Раптова зміна діапазону значень пікселів поруч один з одним вказуватиме на край.

Цей базовий принцип порівняння значень пікселів також можна виконати з кольоровими зображеннями, коли комп’ютер порівнює відмінності між різними кольоровими каналами RGB. Знайте, що ми знаємо, як система комп’ютерного бачення перевіряє значення пікселів для інтерпретації зображення, давайте поглянемо на архітектуру системи комп’ютерного бачення.

Свертові нейронні мережі (CNN)

Основним типом штучного інтелекту, який використовується в задачах комп’ютерного зору, є один на основі згорткових нейронних мереж. Що таке згортка?

Згортки – це математичні процеси, які мережа використовує для визначення різниці значень між пікселями. Якщо ви уявляєте сітку значень пікселів, уявіть, що менша сітка переміщується над цією основною сіткою. Значення під другою сіткою аналізуються мережею, тому мережа перевіряє лише кілька пікселів за раз. Це часто називають технікою «розсувних вікон». Значення, які аналізуються ковзним вікном, узагальнюються мережею, що допомагає зменшити складність зображення та спростити для мережі вилучення шаблонів.

Згорткові нейронні мережі є розділений на дві різні секції, згортковий переріз і повнозв’язний перетин. Згорткові шари мережі є екстракторами ознак, завдання яких полягає в аналізі пікселів у зображенні та формуванні їх уявлень, з яких щільно зв’язані шари нейронної мережі можуть вивчати шаблони. Згорткові шари починаються з простого дослідження пікселів і вилучення низькорівневих особливостей зображення, таких як краї. Пізніші згорткові шари з’єднують краї разом у більш складні форми. Сподіваємося, до кінця мережа матиме представлення країв і деталей зображення, які вона зможе передати повністю пов’язаним шарам.

Анотація зображення

У той час як згорточна нейронна мережа може сама витягувати шаблони із зображень, точність системи комп’ютерного зору можна значно підвищити, додавши анотації до зображень. Анотація зображення це процес додавання метаданих до зображення, який допомагає класифікатору виявляти важливі об’єкти на зображенні. Використання анотацій зображень є важливим, коли системи комп’ютерного зору мають бути високоточними, наприклад, коли керують автономним транспортним засобом або роботом.

Існують різні способи анотування зображень для покращення продуктивності класифікатора комп’ютерного зору. Анотація зображення часто виконується за допомогою обмежувальних рамок, рамки, яка оточує краї цільового об’єкта та повідомляє комп’ютеру зосередити свою увагу на рамці. Семантична сегментація — це ще один тип анотації зображення, який працює шляхом призначення класу зображення кожному пікселю зображення. Іншими словами, кожен піксель, який можна вважати «травою» або «деревом», буде позначено як належний до цих класів. Ця техніка забезпечує точність на рівні пікселів, але створення анотацій семантичної сегментації є більш складним і трудомістким, ніж створення простих обмежувальних рамок. Існують також інші методи анотації, наприклад лінії та точки.

Вгору Далі

Що таке матриця плутанини?

Не пропустіть

Що таке нейронні мережі?

Деніел Нельсон

Блогер і програміст зі спеціальностями в машинне навчання та Глибоке навчання теми. Деніел сподівається допомогти іншим використовувати силу ШІ для суспільного блага.

Об'єднуйтесь.AI

Що таке комп’ютерний зір?

AI 101

Що таке комп’ютерний зір?

Зміст

Що таке комп’ютерний зір?

Як працюють системи комп'ютерного зору?

Свертові нейронні мережі (CNN)

Анотація зображення

Об'єднуйтесь.AI

Що таке комп’ютерний зір?

Зміст

Що таке комп’ютерний зір?

Як працюють системи комп'ютерного зору?

Свертові нейронні мережі (CNN)

Анотація зображення

Вам може сподобатися