Искусственный интеллект
YOLO-World: Реальное Время Открытой Словарной Объектной Детекции
Объектная детекция была фундаментальной задачей в отрасли компьютерного зрения, с применением в робототехнике, понимании изображений, автономных транспортных средствах и распознавании изображений. В последние годы революционные работы в области ИИ, особенно с помощью глубоких нейронных сетей, существенно продвинули объектную детекцию. Однако эти модели имеют фиксированный словарь, ограниченный обнаружением объектов в 80 категориях набора данных COCO. Это ограничение возникает из-за процесса обучения, где детекторы объектов обучаются распознавать только конкретные категории, тем самым ограничивая их применимость.
Чтобы преодолеть это, мы представляем YOLO-World, инновационный подход, направленный на улучшение возможностей框架 YOLO (You Only Look Once) с открытыми возможностями детекции словаря. Это достигается путем предварительного обучения框架 на крупномасштабных наборах данных и реализации подхода моделирования языка и зрения. В частности, YOLO-World использует сеть Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) и контрастивную потерю региона-текста для содействия взаимодействию между лингвистической и визуальной информацией. Благодаря RepVL-PAN и контрастивной потере региона-текста, YOLO-World может точно обнаруживать широкий спектр объектов в нулевой установке, демонстрируя замечательные результаты в задачах сегментации и детекции объектов с открытым словарем.
Эта статья направлена на предоставление всестороннего понимания технических основ, архитектуры модели, процесса обучения и сценариев применения YOLO-World. Давайте погрузимся в подробности.
YOLO-World: Реальное Время Открытой Словарной Объектной Детекции
YOLO или You Only Look Once является одним из наиболее популярных методов современной объектной детекции в отрасли компьютерного зрения. Известен своей невероятной скоростью и эффективностью, появление механизма YOLO революционизировало способ, которым машины интерпретируют и обнаруживают конкретные объекты в изображениях и видео в реальном времени. Традиционные рамки объектной детекции реализуют двухэтапный подход к детекции объектов: на первом этапе рамка предлагает регионы, которые могут содержать объект, а на втором этапе рамка классифицирует объект. Рамка YOLO, с другой стороны, объединяет эти два этапа в одну нейронную сеть, подход, который позволяет рамке смотреть на изображение только один раз, чтобы предсказать объект и его местоположение в изображении, и поэтому название YOLO или You Only Look Once.
Более того, рамка YOLO рассматривает объектную детекцию как задачу регрессии и предсказывает вероятности классов и ограничивающие рамки напрямую из полного изображения в одном взгляде. Реализация этого метода не только увеличивает скорость процесса детекции, но также улучшает способность модели обобщать сложные и разнообразные данные, делая ее подходящей для приложений, работающих в реальном времени, таких как автономное вождение, обнаружение скорости или распознавание номерных знаков. Кроме того, значительный прогресс глубоких нейронных сетей в последние годы также существенно способствовал разработке рамок объектной детекции, но успех рамок объектной детекции все еще ограничен, поскольку они способны обнаруживать объекты только с ограниченным словарем. Это в основном потому, что как только категории объектов определены и помечены в наборе данных, обученные детекторы в рамке способны распознавать только эти конкретные категории, тем самым ограничивая их применимость и способность развертывания моделей объектной детекции в реальном времени и открытых сценариях.
Двигаясь дальше, недавно разработанные модели языка и зрения используют дистиллированные знания словаря из языковых кодировщиков для решения задач открытой детекции словаря. Хотя эти рамки работают лучше, чем традиционные модели объектной детекции, на открытой детекции словаря, они все еще имеют ограниченную применимость из-за скудной доступности обучающих данных с ограниченным разнообразием словаря. Кроме того, выбранные рамки обучают детекторы объектов с открытым словарем в крупномасштабе и категоризируют обучающие детекторы объектов как региональную предварительную подготовку языка и зрения. Однако подход все еще испытывает трудности в обнаружении объектов в реальном времени по двум основным причинам: сложный процесс развертывания для устройств на краю сети и тяжелые вычислительные требования. С другой стороны, эти рамки продемонстрировали положительные результаты от предварительного обучения крупных детекторов для использования их с открытыми возможностями распознавания.
Рамка YOLO-World направлена на достижение высокоэффективной открытой детекции словаря и исследование возможности крупномасштабных подходов предварительного обучения для повышения эффективности традиционных детекторов YOLO для открытой детекции словаря. В отличие от предыдущих работ в области объектной детекции, рамка YOLO-World демонстрирует замечательную эффективность с высокой скоростью вывода и может быть развернута в приложениях с легкостью. Модель YOLO-World следует традиционной архитектуре YOLO и кодирует входные тексты, используя возможности предварительно обученного кодировщика текста CLIP. Кроме того, рамка YOLO-World включает компонент Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) в своей архитектуре для соединения изображений и текстовых особенностей для улучшения визуально-семантических представлений. Во время фазы вывода рамка удаляет кодировщик текста и репараметризирует текстовые вложения в веса RepVL-PAN, в результате чего получается эффективное развертывание. Рамка также включает контрастивное обучение региона-текста в своей рамке для изучения методов предварительного обучения с открытым словарем для традиционных моделей YOLO. Метод контрастивного обучения региона-текста объединяет изображения-текстовые данные, данные основы и данные детекции в пары региона-текста. Основываясь на этом, предварительно обученная на парах региона-текста рамка YOLO-World демонстрирует замечательные возможности для открытой и крупномасштабной детекции словаря. Кроме того, рамка YOLO-World также исследует парадигму “сначала подсказка, затем обнаружение” с целью улучшения эффективности открытой детекции объектов в реальном времени и реальных сценариях.
Как показано на следующем изображении, традиционные детекторы объектов фокусируются на закрытом наборе фиксированного словаря детекции с предварительно определёнными категориями, тогда как детекторы объектов с открытым словарем обнаруживают объекты, кодируя подсказки пользователя с помощью кодировщиков текста для открытого словаря. В сравнении подход “сначала подсказка, затем обнаружение” YOLO-World сначала строит офлайн-словарь (различный словарь для различных потребностей) путем кодирования подсказок пользователя, что позволяет детекторам интерпретировать офлайн-словарь в реальном времени без необходимости перекодировать подсказки.

YOLO-World: Метод и Архитектура
Пары Региона-Текста
Традиционно рамки объектной детекции, включая семейство детекторов YOLO, обучаются с помощью аннотаций экземпляров, содержащих метки категорий и ограничивающие рамки. Напротив, рамка YOLO-World переформулирует аннотации экземпляров как пары региона-текста, где текст может быть описанием объекта, именной фразой или названием категории. Стоит отметить, что рамка YOLO-World принимает как текст, так и изображения в качестве входных и выходных данных, предсказывая коробки с соответствующими вложениями объектов.
Архитектура Модели
В своей основе модель YOLO-World состоит из кодировщика текста, детектора YOLO и компонента Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN), как показано на следующем изображении.

Для входного текста компонент кодировщика текста кодирует текст в текстовые вложения, за которым следует извлечение много масштабных особенностей из входного изображения детекторами изображений в компоненте детектора YOLO. Компонент Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) затем использует слияние кросс-модальности между текстовыми и особенностями изображений для улучшения текстовых и изображений представлений.
Детектор YOLO
Модель YOLO-World построена на основе существующей рамки YOLOv8, которая содержит компонент Darknet как кодировщик изображений, голову для вложений объектов и регрессии ограничивающих рамок, и сеть Path Aggression Network (PAN) для много масштабных пирамид особенностей.
Кодирущик Текста
Для данного текста модель YOLO-World извлекает соответствующие текстовые вложения, используя предварительно обученный кодировщик текста CLIP с определенным количеством существительных и размером вложения. Основная причина, по которой рамка YOLO-World использует кодировщик текста CLIP, заключается в том, что он предлагает лучшие визуально-семантические результаты для соединения текста с визуальными объектами, значительно превосходя традиционные кодировщики текста только для языка.
Контрастивная Головка Текста
Отсоединенная головка является компонентом, используемым ранее разработанными моделями объектной детекции, и рамка YOLO-World использует отсоединенную голову с двойными 3×3 свертками для регрессии вложений объектов и ограничивающих рамок для фиксированного количества объектов. Рамка YOLO-World использует контрастивную головку текста для получения сходства объекта-текста, используя подход нормализации L2 и текстовые вложения.
Обучение Словаря Онлайн
Во время фазы обучения модель YOLO-World строит онлайн-словарь для каждого образца мозаики, состоящего из 4 изображений каждый. Модель выбирает все положительные существительные, включенные в изображения мозаики, и выбирает некоторые отрицательные существительные случайным образом из соответствующего набора данных. Словарь для каждого образца состоит из максимального количества n существительных, с значением по умолчанию 80.
Вывод Словаря Офлайн
Во время вывода модель YOLO-World предлагает стратегию “сначала подсказка, затем обнаружение” с офлайн-словарем для дальнейшего улучшения эффективности модели. Пользователь сначала определяет серию пользовательских подсказок, которые могут включать категории или даже подписи. Модель YOLO-World затем получает офлайн-словарные вложения, используя кодировщик текста для кодирования этих подсказок.
Re-parameterizable Vision-Language Path Aggregation Network (RevVL-PAN)
Следующая фигура иллюстрирует структуру предложенной сети Re-parameterizable Vision-Language Path Aggregation Network, которая следует верхней и нижней пути для установления пирамиды особенностей с много масштабными изображениями особенностей.

Чтобы улучшить взаимодействие между текстовыми и изображениями особенностями, модель YOLO-World предлагает Внимание к пулингу изображений и руководство текстом CSPLayer (Cross-Stage Partial Layers) с конечной целью улучшения визуально-семантических представлений для открытого словаря. Во время вывода модель YOLO-World репараметризирует офлайн-словарные вложения в веса линейных или сверточных слоев для эффективного развертывания.
Как можно увидеть на приведенной выше фигуре, модель YOLO-World использует CSPLayer после верхнего или нижнего слияния, и включает руководство текстом в много масштабные изображения особенностей, формируя руководящий текстом CSPLayer, тем самым расширяя CSPLayer. Для любого данного изображения особенностей и его соответствующего текстового вложения модель использует макс-сигмоидальное внимание после последнего блока бутылочного горлышка для агрегации текстовых особенностей в изображения особенностей. Обновленные изображения особенностей затем соединяются с кросс-стейджными особенностями и представляются как выход.
Двигаясь дальше, модель YOLO-World агрегирует изображения особенностей для обновления текстового вложения, вводя слой внимания к пулингу изображений для улучшения текстовых вложений с информацией, осведомленной об изображении. Вместо использования кросс-аттенциона напрямую на изображения особенностей, модель использует макс-пулинг на много масштабных особенностях для получения 3×3 регионов, в результате чего получается 27 токенов патчей, с моделью, обновляющей текстовые вложения на следующем шаге.
Схемы Предварительного Обучения
Модель YOLO-World следует двум основным схемам предварительного обучения: обучение на контрастивной потере региона-текста и псевдо-маркировка с данными изображения-текста. Для основной схемы предварительного обучения модель выводит предсказания объектов вместе с аннотациями для данного текста и образцов мозаики. Рамка YOLO-World сопоставляет предсказания с аннотациями, следующими за заданием метки, и присваивает индивидуальные положительные предсказания с индексом текста, который служит меткой классификации.
YOLO-World: Результаты
Как только модель YOLO-World была предварительно обучена, она оценивается напрямую на наборе данных LVIS в нулевой установке, с набором данных LVIS, состоящим более 1200 категорий, значительно больше, чем предварительно обучающие наборы данных, используемые существующими рамками для тестирования их производительности на крупномасштабной детекции словаря.

Как можно наблюдать, рамка YOLO-World превосходит большинство существующих рамок в плане скорости вывода и нулевой установки, даже с рамками, такими как Grounding DINO, GLIP и GLIPv2, которые включают больше данных. В целом результаты демонстрируют, что небольшие модели детекции объектов, такие как YOLO-World-S, с только 13 миллионами параметров, могут быть использованы для предварительного обучения на задачах языка и зрения с замечательными возможностями открытого словаря.
Окончательные Мысли
В этой статье мы говорили о YOLO-World, инновационном подходе, направленном на улучшение возможностей рамки YOLO с открытыми возможностями детекции словаря путем предварительного обучения рамки на крупномасштабных наборах данных и реализации подхода моделирования языка и зрения. Чтобы быть более конкретным, рамка YOLO-World предлагает реализацию сети Re-parameterizable Vision Language Path Aggregation Network (RepVL-PAN) вместе с контрастивной потерей региона-текста для содействия взаимодействию между лингвистической и визуальной информацией. Благодаря RepVL-PAN и контрастивной потере региона-текста, рамка YOLO-World может точно обнаруживать широкий спектр объектов в нулевой установке, демонстрируя замечательные результаты в задачах сегментации и детекции объектов с открытым словарем.












