- Терминология (от А до D)
- Управление возможностями ИИ
- AIOps
- Альбументации
- Производительность активов
- автоассоциатор
- обратное распространение
- Теорема Байеса
- Big Data
- Чат-бот: руководство для начинающих
- Вычислительное мышление
- Компьютерное зрение
- Матрица путаницы
- Сверточные нейронные сети
- Информационная безопасность
- Фабрика данных
- Рассказ данных
- Наука данных
- Хранилище данных
- Древо решений
- Deepfakes
- Глубокое обучение
- Глубокое обучение
- Девопс
- DevSecOps
- Диффузионные модели
- Цифровой Твин
- Уменьшение размерности
- Терминология (от E до K)
- Edge AI
- Эмоция AI
- Обучение ансамблю
- Этические Хакинг
- ETL
- Объясняемый ИИ
- Федеративное обучение
- ФинОпс
- Генеративный ИИ
- Генеративная Состязательная Сеть
- Генеративное против дискриминационного
- Повышение градиента
- Градиентный спуск
- Небольшое обучение
- Классификация изображений
- ИТ-операции (ITOps)
- Автоматизация инцидентов
- Инжиниринг влияния
- Кластеризация K-сред
- K-Ближайшие соседи
- Терминология (от L до Q)
- Терминология (от R до Z)
- Усиление обучения
- Ответственный AI
- РЛХФ
- Роботизированная автоматизация процессов
- Структурированный против неструктурированного
- Анализ настроений
- Контролируемый против неконтролируемого
- Поддержка векторных машин
- Синтетические данные
- Синтетические носители
- Классификация текста
- КрошечныйML
- Передача обучения
- Трансформаторные нейронные сети
- Тест Тьюринга
- Поиск сходства векторов
AI 101
Что такое компьютерное зрение?
Оглавление
Что такое компьютерное зрение?
Алгоритмы компьютерного зрения на данный момент являются одной из самых преобразующих и мощных систем искусственного интеллекта в мире. Системы компьютерного зрения см. использование в автономных транспортных средствах, навигации роботов, системах распознавания лиц и многом другом. Однако что такое алгоритмы компьютерного зрения? Как они работают? Чтобы ответить на эти вопросы, мы углубимся в теорию компьютерного зрения, алгоритмы компьютерного зрения и приложения для систем компьютерного зрения.
Как работают системы компьютерного зрения?
Чтобы полностью понять, как работают системы компьютерного зрения, давайте сначала обсудим, как люди распознают объекты. Лучшее объяснение того, как мы распознаем объекты, есть у нейропсихологии — это модель, описывающая начальную фазу восприятия. распознавание объекта как тот, в котором основные компоненты объектов, такие как форма, цвет и глубина, сначала интерпретируются мозгом. Сигналы от глаза, поступающие в мозг, анализируются, чтобы сначала выделить края объекта, а затем эти края объединяются в более сложное представление, завершающее форму объекта.
Системы компьютерного зрения работают очень похоже на зрительную систему человека, сначала различая края объекта, а затем соединяя эти края вместе в форму объекта. Большая разница заключается в том, что поскольку компьютеры интерпретируют изображения как числа, системе компьютерного зрения нужен какой-то способ интерпретировать отдельные пиксели, из которых состоит изображение. Система компьютерного зрения присваивает значения пикселям изображения, и, изучая разницу в значениях между одной областью пикселей и другой областью пикселей, компьютер может различать края. Например, если рассматриваемое изображение имеет оттенки серого, то значения будут варьироваться от черного (представленного 0) до белого (представленного 255). Внезапное изменение диапазона значений пикселей рядом друг с другом укажет на край.
Этот основной принцип сравнения значений пикселей также может быть реализован с цветными изображениями, когда компьютер сравнивает различия между различными цветовыми каналами RGB. Итак, мы знаем, как система компьютерного зрения анализирует значения пикселей для интерпретации изображения, давайте взглянем на архитектуру системы компьютерного зрения.
Сверточные нейронные сети (CNN)
Основным типом ИИ, используемым в задачах компьютерного зрения, является один на основе сверточных нейронных сетей. Что такое свертка?
Свертки — это математические процессы, которые сеть использует для определения разницы значений между пикселями. Если вы представляете себе сетку значений пикселей, представьте, что меньшая сетка перемещается по этой основной сетке. Значения под второй сеткой анализируются сетью, поэтому сеть проверяет только несколько пикселей за раз. Это часто называют техникой «скользящих окон». Значения, анализируемые скользящим окном, суммируются сетью, что помогает уменьшить сложность изображения и упростить извлечение закономерностей сетью.
Сверточные нейронные сети разделен на две разные секции, сверточный участок и полносвязный участок. Сверточные слои сети — это экстракторы признаков, чья работа состоит в том, чтобы анализировать пиксели в изображении и формировать их представления, из которых плотно связанные слои нейронной сети могут изучать закономерности. Сверточные слои начинаются с простого изучения пикселей и извлечения низкоуровневых функций изображения, таких как края. Более поздние сверточные слои соединяют края вместе в более сложные формы. К концу у сети, как мы надеемся, будет представление краев и деталей изображения, которое она сможет передать на полносвязные слои.
Аннотация изображения
Хотя сверточная нейронная сеть может сама извлекать шаблоны из изображений, точность системы компьютерного зрения можно значительно повысить, аннотируя изображения. Аннотация изображения это процесс добавления к изображению метаданных, которые помогают классификатору обнаруживать важные объекты на изображении. Использование аннотации к изображению важно всякий раз, когда системам компьютерного зрения требуется высокая точность, например, при управлении автономным транспортным средством или роботом.
Существуют различные способы аннотирования изображений для повышения производительности классификатора компьютерного зрения. Аннотации изображений часто выполняются с помощью ограничительных рамок, рамок, которые окружают края целевого объекта и сообщают компьютеру, что нужно сосредоточить свое внимание внутри рамки. Семантическая сегментация — это еще один тип аннотации изображения, который работает путем присвоения класса изображения каждому пикселю изображения. Другими словами, каждый пиксель, который можно считать «травой» или «деревьем», будет помечен как принадлежащий к этим классам. Этот метод обеспечивает точность на уровне пикселей, но создание аннотаций семантической сегментации более сложно и требует больше времени, чем создание простых ограничивающих рамок. Также существуют другие методы аннотации, такие как линии и точки.
Блогер и программист со специализацией в Машинное обучение и Глубокое обучение темы. Дэниел надеется помочь другим использовать возможности ИИ на благо общества.
Вам может понравиться
Instant-Style: сохранение стиля при преобразовании текста в изображение
Арлингтон, Вирджиния: Становление нового источника инноваций в области искусственного интеллекта
POKELLMON: агент человеческого паритета для битв покемонов с LLM
Визуальное авторегрессионное моделирование: создание масштабируемых изображений посредством прогнозирования следующего масштаба
InstructIR: высококачественное восстановление изображений по инструкциям человека
DynamiCrafter: анимация изображений в открытой области с помощью априорных методов распространения видео