заглушки YOLO-World: обнаружение объектов с открытым словарем в реальном времени — Unite.AI
Свяжитесь с нами:

Artificial Intelligence

YOLO-World: обнаружение объектов с открытым словарем в реальном времени

mm

опубликованный

 on

Обнаружение объектов было фундаментальной проблемой в компьютерное зрение промышленности, с приложениями в робототехнике, распознавании изображений, автономных транспортных средствах и распознавание изображений. В последние годы новаторские работы в области искусственного интеллекта, особенно с помощью глубоких нейронных сетей, значительно продвинули возможности обнаружения объектов. Однако эти модели имеют фиксированный словарь, ограниченный обнаружением объектов в 80 категориях набора данных COCO. Это ограничение связано с процессом обучения, в ходе которого детекторы объектов обучаются распознавать только определенные категории, что ограничивает их применимость.

Чтобы преодолеть эту проблему, мы представляем YOLO-World, инновационный подход, направленный на расширение структуры YOLO (You Only Look Once) возможностями обнаружения открытого словаря. Это достигается за счет предварительного обучения платформы на крупномасштабных наборах данных и реализации подхода к моделированию на языке видения. В частности, YOLO-World использует перепараметризуемую сеть агрегации зрительно-языковых путей (RepVL-PAN) и контрастную потерю региона-текста для облегчения взаимодействия между лингвистической и визуальной информацией. Благодаря RepVL-PAN и контрастной потере текста по регионам YOLO-World может точно обнаруживать широкий спектр объектов в режиме нулевого выстрела, демонстрируя замечательную производительность в задачах сегментации открытого словаря и обнаружения объектов.

Цель этой статьи - обеспечить полное понимание технических основ YOLO-World, архитектуры модели, процесса обучения и сценариев применения. Давайте погрузимся.

YOLO-World: обнаружение объектов с открытым словарем в реальном времени

YOLO или You Only Look Once — один из самых популярных методов современного обнаружения объектов в индустрии компьютерного зрения. Известный своей невероятной скоростью и эффективностью, появление YOLO Этот механизм произвел революцию в том, как машины интерпретируют и обнаруживают конкретные объекты на изображениях и видео в режиме реального времени. Традиционные платформы обнаружения объектов реализуют двухэтапный подход к обнаружению объектов: на первом этапе платформа предлагает области, которые могут содержать объект, а на следующем этапе платформа классифицирует объект. Платформа YOLO, с другой стороны, объединяет эти два шага в единую модель нейронной сети, подход, который позволяет платформе просматривать изображение только один раз, чтобы предсказать объект и его местоположение внутри изображения и, следовательно, имя YOLO или You. Посмотрите только один раз. 

Более того, платформа YOLO рассматривает обнаружение объектов как проблему регрессии и прогнозирует вероятности классов и ограничивающие рамки непосредственно на основе полного изображения одним взглядом. Реализация этого метода не только увеличивает скорость процесса обнаружения, но также расширяет возможности модели обобщать сложные и разнообразные данные, что делает ее подходящим выбором для приложений, работающих в режиме реального времени, таких как автономное вождение, определение скорости или числовые данные. распознавание пластин. Кроме того, значительный прогресс глубоких нейронных сетей за последние несколько лет также внес значительный вклад в развитие инфраструктур обнаружения объектов, но успех инфраструктур обнаружения объектов все еще ограничен, поскольку они способны обнаруживать объекты только с ограниченным словарным запасом. Это происходит главным образом потому, что после того, как категории объектов определены и помечены в наборе данных, обученные детекторы в системе способны распознавать только эти конкретные категории, что ограничивает применимость и возможность развертывания моделей обнаружения объектов в режиме реального времени и в открытых сценариях. 

В дальнейшем недавно разработанные модели визуального языка используют дистиллированные словарные знания, полученные от языковых кодировщиков, для обнаружения открытого словарного запаса. Хотя эти структуры работают лучше, чем традиционные модели обнаружения объектов при обнаружении открытого словарного запаса, они по-прежнему имеют ограниченное применение из-за ограниченной доступности обучающих данных с ограниченным словарным разнообразием. Кроме того, выбранные структуры обучают детекторы объектов с открытым словарным запасом в масштабе и классифицируют детекторы обучающих объектов как предварительное обучение языку на уровне региона. Однако этот подход по-прежнему не позволяет обнаруживать объекты в режиме реального времени по двум основным причинам: сложный процесс развертывания периферийных устройств и высокие вычислительные требования. Положительным моментом является то, что эти системы продемонстрировали положительные результаты предварительного обучения больших детекторов использованию их с возможностями открытого распознавания. 

Структура YOLO-World направлена ​​на достижение высокоэффективного обнаружения объектов с открытым словарем и изучение возможности крупномасштабных подходов к предварительному обучению для повышения эффективности традиционных детекторов YOLO для обнаружения объектов с открытым словарем. В отличие от предыдущих работ по обнаружению объектов, платформа YOLO-World демонстрирует замечательную эффективность с высокой скоростью вывода и может быть легко развернута в последующих приложениях. Модель YOLO-World следует традиционной архитектуре YOLO и кодирует входные тексты, используя возможности предварительно обученного кодировщика текста CLIP. Кроме того, структура YOLO-World включает в свою архитектуру компонент перепараметризуемой сети агрегации путей изображения и языка (RepVL-PAN) для соединения функций изображения и текста для расширенных визуально-семантических представлений. На этапе вывода платформа удаляет кодировщик текста и повторно параметризует встраивание текста в веса RepVL-PAN, что приводит к эффективному развертыванию. Структура также включает в себя контрастное обучение по регионам и текстам для изучения методов предварительного обучения с открытым словарным запасом для традиционных моделей YOLO. Метод контрастного обучения «область-текст» объединяет данные изображения-текста, данные заземления и данные обнаружения в пары «область-текст». Основываясь на этом, платформа YOLO-World, предварительно обученная на парах «регион-текст», демонстрирует замечательные возможности для обнаружения открытого и большого словарного запаса. Кроме того, структура YOLO-World также исследует парадигму быстрого обнаружения с целью повышения эффективности обнаружения объектов с открытым словарем в сценариях реального времени и реального мира. 

Как показано на следующем изображении, традиционные детекторы объектов фокусируются на обнаружении узкого набора фиксированного словаря с заранее определенными категориями, тогда как детекторы открытого словаря обнаруживают объекты путем кодирования пользовательских подсказок с помощью текстовых кодировщиков для открытого словаря. Для сравнения, подход YOLO-World «подсказка, а затем обнаружение» сначала создает автономный словарь (различный словарь для различных потребностей) путем кодирования пользовательских подсказок, что позволяет детекторам интерпретировать автономный словарь в режиме реального времени без необходимости перекодирования подсказок. 

YOLO-World: Метод и архитектура

Пары «регион-текст»

Традиционно среды обнаружения объектов, включая YOLO Семейство детекторов объектов обучается с использованием аннотаций экземпляров, которые содержат метки категорий и ограничивающие рамки. Напротив, структура YOLO-World переформулирует аннотации экземпляра как пары «регион-текст», где текст может быть описанием объекта, именными фразами или названием категории. Стоит отметить, что структура YOLO-World принимает как тексты, так и изображения в качестве прогнозируемых полей ввода и вывода с соответствующими встраиваниями объектов. 

Модельная архитектура

По своей сути модель YOLO-World состоит из текстового кодировщика, детектора YOLO и компонента перепараметризуемой сети агрегации путей изображения и языка (RepVL-PAN), как показано на следующем изображении. 

Для входного текста компонент кодировщика текста кодирует текст во встраивания текста с последующим извлечением многомасштабных признаков из входного изображения детекторами изображений в компоненте детектора YOLO. Компонент Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) затем использует кросс-модальное слияние между встраиванием текста и функций для улучшения представлений текста и изображений. 

ЙОЛО Детектор

Модель YOLO-World построена на основе существующей структуры YOLOv8, которая содержит магистральный компонент Darknet в качестве кодировщика изображений, головку для встраивания объектов и регрессии ограничивающего прямоугольника, а также сеть PAN или Path Aggregation Network для многомасштабных пирамид функций. 

Текстовый кодировщик

Для данного текста модель YOLO-World извлекает соответствующие встраивания текста, используя предварительно обученный текстовый кодер CLIP Transformer с определенным количеством существительных и размером встраивания. Основная причина, по которой инфраструктура YOLO-World использует кодировщик текста CLIP, заключается в том, что он обеспечивает лучшую визуально-семантическую производительность для соединения текста с визуальными объектами, значительно превосходя традиционные кодировщики языка, предназначенные только для текста. Однако, если входной текст представляет собой подпись или ссылающееся выражение, модель YOLO-World выбирает более простой алгоритм n-грамм для извлечения фраз. Эти фразы затем передаются в текстовый кодировщик. 

Текстовая контрастная голова

Отделенная голова — это компонент, использовавшийся в более ранних моделях обнаружения объектов, а платформа YOLO-World использует разделенную голову с двойной сверткой 3 × 3 для регрессии вложений объектов и ограничивающих рамок для фиксированного количества объектов. Платформа YOLO-World использует контрастную головку текста для получения сходства объекта и текста с использованием подхода нормализации L2 и встраивания текста. Кроме того, модель YOLO-World также использует подход аффинного преобразования с коэффициентом сдвига и обучаемым коэффициентом масштабирования, при этом нормализация L2 и аффинное преобразование повышают стабильность модели во время обучения текста региона. 

Онлайн тренировка словарного запаса

На этапе обучения модель YOLO-World создает онлайн-словарь для каждого образца мозаики, состоящий из 4 изображений каждый. Модель выбирает все положительные существительные, включенные в мозаичные изображения, и случайным образом выбирает некоторые отрицательные существительные из соответствующего набора данных. Словарь для каждого образца состоит максимум из n существительных, значение по умолчанию — 80. 

Оффлайн словарный вывод

Во время вывода модель YOLO-World представляет стратегию «подсказка, а затем обнаружение» с автономным словарем для дальнейшего повышения эффективности модели. Пользователь сначала определяет ряд настраиваемых подсказок, которые могут включать категории или даже подписи. Затем модель YOLO-World получает встраивание автономного словаря, используя текстовый кодировщик для кодирования этих подсказок. В результате автономный словарь для вывода помогает модели избежать вычислений для каждого входа, а также позволяет модели гибко настраивать словарь в соответствии с требованиями. 

Перепараметризуемая сеть агрессии «зрение-язык» (RevVL-PAN)

На следующем рисунке показана структура предлагаемой перепараметризуемой сети агрессии на основе визуального и языкового пути, которая следует путям сверху вниз и снизу вверх для создания пирамиды функций с многомасштабными изображениями функций. 

Чтобы улучшить взаимодействие между функциями текста и изображения, модель YOLO-World предлагает внимание к объединению изображений и управляемый текстом CSPLayer (межэтапные частичные слои) с конечной целью улучшения визуально-семантических представлений для возможностей открытого словаря. Во время вывода модель YOLO-World повторно параметризует встраивания автономного словаря в веса линейных или сверточных слоев для эффективного развертывания. 

Как видно на рисунке выше, модель YOLO-World использует CSPLayer после слияния сверху вниз или снизу вверх и включает текстовые указания в многомасштабные функции изображения, образуя CSPLayer с текстовым управлением, расширяя таким образом CSPLayer. Для любого данного объекта изображения и соответствующего ему встраивания текста модель применяет максимально-сигмовидное внимание после последнего блока «узких мест» для агрегирования текстовых элементов в элементы изображения. Обновленный объект изображения затем объединяется с межэтапными объектами и представляется в качестве выходных данных. 

 Двигаясь дальше, модель YOLO-World объединяет функции изображения для обновления встраивания текста, вводя уровень внимания к объединению изображений для улучшения встраивания текста информацией, содержащей информацию об изображениях. Вместо того, чтобы использовать перекрестное внимание непосредственно к функциям изображения, модель использует максимальное объединение многомасштабных функций для получения регионов 3×3, в результате чего получается 27 токенов исправлений, а модель обновляет встраивание текста на следующем этапе. 

Схемы предварительной подготовки

Модель YOLO-World следует двум основным схемам предварительного обучения: обучение на основе контрастной потери региона-текста и псевдомаркировке с использованием данных изображения-текста. Для первичной схемы предварительного обучения модель выводит прогнозы объектов вместе с аннотациями для заданного текста и образцов мозаики. Платформа YOLO-World сопоставляет прогнозы с аннотациями базовой истины, следуя и используя назначение меток, назначенных задачами, а также присваивает отдельным положительным прогнозам текстовый индекс, который служит меткой классификации. С другой стороны, схема предварительного обучения «Псевдомаркировка с данными изображения-текста» предлагает использовать подход автоматической маркировки вместо использования пар изображение-текст для генерации пар «область-текст». Предлагаемый подход к маркировке состоит из трех этапов: извлечение существительных, псевдомаркировка и фильтрация. На первом этапе используется алгоритм n-грамм для извлечения именной фразы из входного текста, на втором этапе используется предварительно обученный детектор открытого словаря для создания псевдоблоков для данной именной фразы для отдельных изображений, тогда как на третьем и последнем этапе используется предварительно обученная структура CLIP для оценки релевантности пар «область-текст» и «текст-изображение», после чего модель фильтрует малорелевантные псевдоизображения и аннотации. 

YOLO-Мир: Результаты

После предварительного обучения модели YOLO-World она оценивается непосредственно в наборе данных LVIS с нулевой настройкой, при этом набор данных LVIS состоит из более чем 1200 категорий, что значительно больше, чем наборы данных для предварительного обучения, используемые существующими платформами для тестирования. их эффективность при обнаружении большого словарного запаса. На следующем рисунке показана производительность платформы YOLO-World с некоторыми из существующих современных платформ обнаружения объектов в наборе данных LVIS в режиме нулевого выстрела. 

Как можно заметить, платформа YOLO-World превосходит большинство существующих платформ с точки зрения скорости вывода и нулевой производительности, даже с такими платформами, как Grounding DINO, GLIP и GLIPv2, которые включают больше данных. В целом, результаты показывают, что модели обнаружения небольших объектов, такие как YOLO-World-S, имеющие всего 13 миллионов параметров, могут быть использованы для предварительного обучения решению зрительно-языковых задач с замечательными возможностями открытого словарного запаса. 

Заключение

В этой статье мы говорили о YOLO-World, инновационном подходе, целью которого является расширение возможностей платформы YOLO или You Only Look Once с возможностями обнаружения открытого словаря путем предварительного обучения платформы на крупномасштабных наборах данных и реализации подход к моделированию на языке видения. Если быть более конкретным, структура YOLO-World предлагает реализовать перепараметризуемую сеть агрегации языковых путей видения или RepVL-PAN вместе с потерей контрастности региона и текста, чтобы облегчить взаимодействие между лингвистической и визуальной информацией. Реализуя RepVL-PAN и контрастную потерю текста по регионам, платформа YOLO-World способна точно и эффективно обнаруживать широкий спектр объектов в условиях нулевого выстрела.

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.