AI 101

Что такое компьютерное зрение?

обновленный on Июль 21, 2023

Что такое компьютерное зрение?

Алгоритмы компьютерного зрения на данный момент являются одной из самых преобразующих и мощных систем искусственного интеллекта в мире. Системы компьютерного зрения см. использование в автономных транспортных средствах, навигации роботов, системах распознавания лиц и многом другом. Однако что такое алгоритмы компьютерного зрения? Как они работают? Чтобы ответить на эти вопросы, мы углубимся в теорию компьютерного зрения, алгоритмы компьютерного зрения и приложения для систем компьютерного зрения.

Как работают системы компьютерного зрения?

Чтобы полностью понять, как работают системы компьютерного зрения, давайте сначала обсудим, как люди распознают объекты. Лучшее объяснение того, как мы распознаем объекты, есть у нейропсихологии — это модель, описывающая начальную фазу восприятия. распознавание объекта как тот, в котором основные компоненты объектов, такие как форма, цвет и глубина, сначала интерпретируются мозгом. Сигналы от глаза, поступающие в мозг, анализируются, чтобы сначала выделить края объекта, а затем эти края объединяются в более сложное представление, завершающее форму объекта.

Системы компьютерного зрения работают очень похоже на зрительную систему человека, сначала различая края объекта, а затем соединяя эти края вместе в форму объекта. Большая разница заключается в том, что поскольку компьютеры интерпретируют изображения как числа, системе компьютерного зрения нужен какой-то способ интерпретировать отдельные пиксели, из которых состоит изображение. Система компьютерного зрения присваивает значения пикселям изображения, и, изучая разницу в значениях между одной областью пикселей и другой областью пикселей, компьютер может различать края. Например, если рассматриваемое изображение имеет оттенки серого, то значения будут варьироваться от черного (представленного 0) до белого (представленного 255). Внезапное изменение диапазона значений пикселей рядом друг с другом укажет на край.

Этот основной принцип сравнения значений пикселей также может быть реализован с цветными изображениями, когда компьютер сравнивает различия между различными цветовыми каналами RGB. Итак, мы знаем, как система компьютерного зрения анализирует значения пикселей для интерпретации изображения, давайте взглянем на архитектуру системы компьютерного зрения.

Сверточные нейронные сети (CNN)

Основным типом ИИ, используемым в задачах компьютерного зрения, является один на основе сверточных нейронных сетей. Что такое свертка?

Свертки — это математические процессы, которые сеть использует для определения разницы значений между пикселями. Если вы представляете себе сетку значений пикселей, представьте, что меньшая сетка перемещается по этой основной сетке. Значения под второй сеткой анализируются сетью, поэтому сеть проверяет только несколько пикселей за раз. Это часто называют техникой «скользящих окон». Значения, анализируемые скользящим окном, суммируются сетью, что помогает уменьшить сложность изображения и упростить извлечение закономерностей сетью.

Сверточные нейронные сети разделен на две разные секции, сверточный участок и полносвязный участок. Сверточные слои сети — это экстракторы признаков, чья работа состоит в том, чтобы анализировать пиксели в изображении и формировать их представления, из которых плотно связанные слои нейронной сети могут изучать закономерности. Сверточные слои начинаются с простого изучения пикселей и извлечения низкоуровневых функций изображения, таких как края. Более поздние сверточные слои соединяют края вместе в более сложные формы. К концу у сети, как мы надеемся, будет представление краев и деталей изображения, которое она сможет передать на полносвязные слои.

Аннотация изображения

Хотя сверточная нейронная сеть может сама извлекать шаблоны из изображений, точность системы компьютерного зрения можно значительно повысить, аннотируя изображения. Аннотация изображения это процесс добавления к изображению метаданных, которые помогают классификатору обнаруживать важные объекты на изображении. Использование аннотации к изображению важно всякий раз, когда системам компьютерного зрения требуется высокая точность, например, при управлении автономным транспортным средством или роботом.

Существуют различные способы аннотирования изображений для повышения производительности классификатора компьютерного зрения. Аннотации изображений часто выполняются с помощью ограничительных рамок, рамок, которые окружают края целевого объекта и сообщают компьютеру, что нужно сосредоточить свое внимание внутри рамки. Семантическая сегментация — это еще один тип аннотации изображения, который работает путем присвоения класса изображения каждому пикселю изображения. Другими словами, каждый пиксель, который можно считать «травой» или «деревьем», будет помечен как принадлежащий к этим классам. Этот метод обеспечивает точность на уровне пикселей, но создание аннотаций семантической сегментации более сложно и требует больше времени, чем создание простых ограничивающих рамок. Также существуют другие методы аннотации, такие как линии и точки.

Что такое матрица путаницы?

Не пропустите

Что такое нейронные сети?

Дэниэл Нельсон

Блогер и программист со специализацией в Машинное обучение и Глубокое обучение темы. Дэниел надеется помочь другим использовать возможности ИИ на благо общества.