заглушки YOLO-World: Виявлення об’єктів відкритого словника в реальному часі – Unite.AI
Зв'язатися з нами

Штучний Інтелект

YOLO-World: виявлення об’єктів відкритого словника в реальному часі

mm

опублікований

 on

Виявлення об'єктів було фундаментальною проблемою в комп'ютерне бачення індустрії із застосуванням у робототехніці, розумінні зображень, автономних транспортних засобах тощо розпізнавання зображень. Останніми роками новаторська робота в області штучного інтелекту, зокрема через глибокі нейронні мережі, значно просунула виявлення об’єктів. Однак ці моделі мають фіксований словник, обмежений виявленням об’єктів у межах 80 категорій набору даних COCO. Це обмеження випливає з процесу навчання, коли детектори об’єктів навчаються розпізнавати лише певні категорії, таким чином обмежуючи їхню застосовність.

Щоб подолати це, ми запроваджуємо YOLO-World, інноваційний підхід, спрямований на вдосконалення структури YOLO (You Only Look Once) за допомогою відкритих можливостей виявлення словника. Це досягається шляхом попереднього навчання фреймворку на великомасштабних наборах даних і впровадження підходу до моделювання мовою бачення. Зокрема, YOLO-World використовує Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) і контрастні втрати регіону-тексту для сприяння взаємодії між лінгвістичною та візуальною інформацією. Завдяки RepVL-PAN і контрастній втраті регіонального тексту YOLO-World може точно виявляти широкий спектр об’єктів у режимі нульового вистрілу, демонструючи чудову продуктивність у сегментації відкритого словника та завданнях виявлення об’єктів.

Ця стаття має на меті забезпечити повне розуміння технічних основ YOLO-World, архітектури моделі, процесу навчання та сценаріїв застосування. Давайте зануримося.

YOLO-World: виявлення об’єктів відкритого словника в реальному часі

YOLO або You Only Look Once є одним із найпопулярніших сучасних методів виявлення об’єктів у галузі комп’ютерного зору. Відомий своєю неймовірною швидкістю та ефективністю, поява YOLO Механізм змінив спосіб, у який машини інтерпретують і виявляють конкретні об’єкти в зображеннях і відео в реальному часі. Традиційні фреймворки виявлення об’єктів реалізують двоетапний підхід до виявлення об’єктів: на першому кроці фреймворк пропонує області, які можуть містити об’єкт, а на наступному кроці фреймворк класифікує об’єкт. Фреймворк YOLO, з іншого боку, об’єднує ці два етапи в єдину модель нейронної мережі, підхід, який дозволяє фреймворку дивитися на зображення лише один раз, щоб передбачити об’єкт і його розташування на зображенні, і, отже, назва YOLO або You Подивіться лише один раз. 

Крім того, структура YOLO розглядає виявлення об’єктів як проблему регресії та прогнозує ймовірності класу та обмежувальні рамки безпосередньо з повного зображення одним поглядом. Реалізація цього методу не тільки збільшує швидкість процесу виявлення, але й покращує здатність моделі узагальнювати складні та різноманітні дані, що робить його придатним вибором для додатків, що працюють у режимі реального часу, таких як автономне водіння, визначення швидкості або число розпізнавання табличок. Крім того, значний прогрес глибоких нейронних мереж за останні кілька років також вніс значний внесок у розробку фреймворків виявлення об’єктів, але успіх фреймворків виявлення об’єктів все ще обмежений, оскільки вони здатні виявляти об’єкти лише з обмеженим словниковим запасом. Насамперед це пов’язано з тим, що як тільки категорії об’єктів визначено та позначено в наборі даних, навчені детектори в структурі здатні розпізнавати лише ці конкретні категорії, таким чином обмежуючи застосовність і можливість розгортання моделей виявлення об’єктів у режимі реального часу та відкритих сценаріях. 

Рухаючись далі, нещодавно розроблені мовні моделі бачення використовують дистильовану лексику з мовних кодувальників для виявлення відкритого словника. Незважаючи на те, що ці структури працюють краще, ніж традиційні моделі виявлення об’єктів щодо виявлення відкритого словника, вони все ще мають обмежену застосовність через обмежену доступність навчальних даних із обмеженим розмаїттям словника. Крім того, вибрані фреймворки навчають детектори об’єктів із відкритим словником у масштабі та класифікують навчальні детектори об’єктів як попереднє навчання зору та мови на регіональному рівні. Однак цей підхід все ще має проблеми з виявленням об’єктів у режимі реального часу через дві основні причини: складний процес розгортання для периферійних пристроїв і великі обчислювальні вимоги. Позитивним моментом є те, що ці інфраструктури продемонстрували позитивні результати після попереднього навчання великих детекторів використовувати їх із відкритими можливостями розпізнавання. 

Фреймворк YOLO-World спрямований на досягнення високоефективного виявлення об’єктів із відкритим словником і вивчення можливості широкомасштабних підходів до підготовки для підвищення ефективності традиційних детекторів YOLO для виявлення об’єктів з відкритим словником. На відміну від попередніх робіт із виявлення об’єктів, фреймворк YOLO-World демонструє надзвичайну ефективність із високою швидкістю логічного висновку та може бути легко розгорнутий у подальших програмах. Модель YOLO-World відповідає традиційній архітектурі YOLO та кодує введені тексти, використовуючи можливості попередньо навченого кодувальника тексту CLIP. Крім того, структура YOLO-World включає в свою архітектуру компонент Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) для з’єднання функцій зображення та тексту для покращених візуально-семантичних представлень. Під час фази висновку структура видаляє кодувальник тексту та повторно параметризує вбудовування тексту у вагові коефіцієнти RepVL-PAN, що забезпечує ефективне розгортання. Структура також включає контрастне навчання регіону та тексту для вивчення методів попереднього навчання з відкритим словником для традиційних моделей YOLO. Контрастний метод навчання регіон-текст об’єднує дані зображення-текст, дані про заземлення та дані виявлення в пари регіон-текст. Спираючись на це, фреймворк YOLO-World, попередньо навчений на парах регіон-текст, демонструє надзвичайні можливості для виявлення відкритого та великого словникового запасу. Крім того, структура YOLO-World також досліджує парадигму швидкого виявлення з метою підвищення ефективності виявлення об’єктів відкритого словника в сценаріях реального часу та реального світу. 

Як показано на наступному зображенні, традиційні детектори об’єктів зосереджені на виявленні фіксованого словника з наперед визначеними категоріями, тоді як детектори відкритого словника виявляють об’єкти, кодуючи підказки користувача за допомогою текстових кодувальників для відкритого словника. Для порівняння, підхід YOLO-World «підказка, потім виявлення» спочатку створює офлайн-словник (змінний словник для різних потреб) шляхом кодування підказок користувача, що дозволяє детекторам інтерпретувати офлайн-словник у режимі реального часу без необхідності повторного кодування підказок. 

YOLO-World: метод і архітектура

Пари регіон-текст

Традиційно фреймворки виявлення об’єктів, включаючи YOLO Сімейство детекторів об’єктів навчається за допомогою анотацій екземплярів, які містять мітки категорій і обмежувальні рамки. На відміну від цього, структура YOLO-World переформулює анотації екземплярів як пари регіон-текст, де текст може бути описом об’єкта, іменниковими фразами або назвою категорії. Варто зазначити, що фреймворк YOLO-World приймає як тексти, так і зображення як передбачувані блоки введення та виведення з відповідними вбудованими об’єктами. 

Архітектура моделі

За своєю суттю модель YOLO-World складається з кодувальника тексту, детектора YOLO та компонента Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN), як показано на наступному зображенні. 

Для вхідного тексту компонент текстового кодувальника кодує текст у текстові вбудовані з подальшим вилученням багатомасштабних характеристик із вхідного зображення детекторами зображень у компоненті детектора YOLO. Потім компонент Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) використовує крос-модальність злиття між текстом і вбудованими функціями для покращення представлення тексту та зображень. 

Детектор YOLO

Модель YOLO-World побудована на основі існуючої структури YOLOv8, яка містить базовий компонент Darknet як кодер зображень, головку для вбудовування об’єктів і регресії обмежувальної рамки, а також мережу PAN або Path Aggression Network для багатомасштабних пірамід функцій. 

Кодер тексту

Для заданого тексту модель YOLO-World витягує відповідні вбудовані тексти, застосовуючи попередньо навчений кодувальник тексту CLIP Transformer із певною кількістю іменників і розміром вбудовування. Основна причина, чому фреймворк YOLO-World використовує текстовий кодувальник CLIP, полягає в тому, що він пропонує кращу візуально-семантичну продуктивність для з’єднання текстів із візуальними об’єктами, значно перевершуючи традиційні текстові кодери мови. Однак, якщо вхідний текст є або підписом, або виразом, що посилається, модель YOLO-World вибирає простіший n-грамовий алгоритм для вилучення фраз. Потім ці фрази передаються в кодувальник тексту. 

текст контрастний голова

Відокремлена головка — це компонент, який використовується попередніми моделями виявлення об’єктів, а структура YOLO-World використовує відокремлену головку з подвійними згортками 3×3 для регресії вбудовування об’єктів і обмежувальних рамок для фіксованої кількості об’єктів. Фреймворк YOLO-World використовує контрастну головку тексту для отримання подібності об’єкт-текст за допомогою підходу нормалізації L2 і вбудовування тексту. Крім того, модель YOLO-World також використовує підхід афінного перетворення з коефіцієнтом зсуву та коефіцієнтом масштабування, що вивчається, з нормалізацією L2 і афінним перетворенням, що підвищує стабільність моделі під час навчання регіону-тексту. 

Онлайн-навчання лексики

Під час фази навчання модель YOLO-World створює онлайн-словник для кожного зразка мозаїки, що складається з 4 зображень кожен. Модель відбирає всі позитивні іменники, включені в мозаїчні зображення, і вибірки деяких негативних іменників випадковим чином із відповідного набору даних. Словник для кожного зразка складається максимум із n іменників, зі значенням за замовчуванням 80. 

Офлайн-словниковий запас

Під час висновків модель YOLO-World представляє стратегію швидкого виявлення з офлайн-словником для подальшого підвищення ефективності моделі. Спочатку користувач визначає серію спеціальних підказок, які можуть містити категорії або навіть підписи. Потім модель YOLO-World отримує офлайн-вбудовування словника, використовуючи текстовий кодувальник для кодування цих підказок. У результаті офлайн-словник для висновків допомагає моделі уникати обчислень для кожного введення, а також дозволяє моделі гнучко налаштовувати словник відповідно до вимог. 

Перепараметризована мережа агресії Vision-Language Path (RevVL-PAN)

Наступний малюнок ілюструє структуру запропонованої репараметризованої мережі агресії Vision-Language Path, яка йде за шляхами зверху вниз і знизу вгору, щоб створити піраміду функцій із багатомасштабними зображеннями ознак. 

Щоб покращити взаємодію між функціями тексту та зображення, модель YOLO-World пропонує зображення, що об’єднує увагу, і текстово-керований CSPLayer (Cross-Stage Partial Layers) з кінцевою метою покращення візуально-семантичних представлень для можливостей відкритого словника. Під час логічного висновку модель YOLO-World повторно параметризує вбудовані офлайн-словники у ваги лінійних або згорткових шарів для ефективного розгортання. 

Як видно на малюнку вище, модель YOLO-World використовує CSPLayer після злиття зверху вниз або знизу вгору та включає текстові вказівки в багатомасштабні функції зображення, утворюючи Text-Guided CSPLayer, таким чином розширюючи CSPLayer. Для будь-якої заданої функції зображення та відповідного вбудовування тексту модель використовує максимальну сигмоподібну увагу після останнього блоку вузького місця, щоб агрегувати текстові функції в функції зображення. Потім оновлена ​​функція зображення об’єднується з елементами крос-сцени та представляється як результат. 

 Рухаючись далі, модель YOLO-World об’єднує функції зображення, щоб оновити вбудований текст, додавши шар уваги об’єднання зображень, щоб покращити вбудовані тексти інформацією, що відповідає зображенню. Замість того, щоб використовувати перехресну увагу безпосередньо до елементів зображення, модель використовує максимальне об’єднання багатомасштабних функцій для отримання областей 3 × 3, що призводить до 27 маркерів виправлення з моделлю, яка оновлює вбудовані тексти на наступному кроці. 

Схеми попереднього навчання

Модель YOLO-World дотримується двох основних схем попереднього навчання: навчання на основі контрастних втрат регіону та тексту та псевдопозначення за допомогою даних зображення та тексту. Для основної схеми попереднього навчання модель виводить прогнози об’єктів разом із анотаціями для заданого тексту та зразків мозаїки. Фреймворк YOLO-World зіставляє прогнози з анотаціями базової правди, дотримуючись і використовуючи призначення міток, призначених завданням, і призначає окремі позитивні прогнози з текстовим індексом, який служить міткою класифікації. З іншого боку, схема попереднього навчання «Псевдомітки з даними зображення-текст» пропонує використовувати автоматизований підхід до маркування замість використання пар зображення-текст для створення пар регіон-текст. Запропонований підхід до маркування складається з трьох кроків: вилучення іменників, псевдомаркування та фільтрація. На першому кроці використовується алгоритм n-gram, щоб витягти фрази іменників із вхідного тексту, на другому кроці використовується попередньо навчений детектор відкритого словника, щоб створити псевдоблоки для даної фрази іменників для окремих зображень, тоді як третій і останній крок використовує попередньо навчену структуру CLIP для оцінки релевантності пар регіон-текст і текст-зображення, після чого модель фільтрує малорелевантні псевдозображення та анотації. 

YOLO-World : Результати

Після того, як модель YOLO-World пройшла попереднє навчання, вона оцінюється безпосередньо на наборі даних LVIS у нульовому режимі, причому набір даних LVIS складається з понад 1200 категорій, що значно більше, ніж набори даних попереднього навчання, які використовуються існуючими фреймворками для тестування. їх ефективність при виявленні великого словникового запасу. На наступному малюнку показано продуктивність фреймворку YOLO-World із деякими з існуючих сучасних фреймворків виявлення об’єктів на наборі даних LVIS у нульовому режимі. 

Як можна помітити, фреймворк YOLO-World перевершує більшість існуючих фреймворків щодо швидкості логічного висновку та продуктивності з нульовим ударом, навіть із такими фреймворками, як Grounding DINO, GLIP та GLIPv2, які містять більше даних. Загалом результати демонструють, що моделі виявлення невеликих об’єктів, такі як YOLO-World-S, лише з 13 мільйонами параметрів, можна використовувати для попереднього навчання мовним завданням із чудовими можливостями відкритого словника. 

Заключні думки

У цій статті ми говорили про YOLO-World, інноваційний підхід, спрямований на покращення можливостей фреймворку YOLO або You Only Look Once із відкритими можливостями виявлення словника шляхом попереднього навчання фреймворку на великомасштабних наборах даних і впровадження підхід до мовного моделювання. Точніше кажучи, структура YOLO-World пропонує реалізувати Re-parameterizable Vision Language Path Aggregation Network або RepVL-PAN разом із контрастною втратою регіонального тексту для полегшення взаємодії між лінгвістичною та візуальною інформацією. Впроваджуючи RepVL-PAN і втрату контрастності регіонального тексту, структура YOLO-World здатна точно й ефективно виявляти широкий діапазон об’єктів у нульовому режимі.

«За фахом інженер, душею — письменник». Кунал є технічним письменником, який глибоко любить і розуміє штучний інтелект і машинне навчання, відданий справі спрощення складних концепцій у цих сферах за допомогою своєї цікавої та інформативної документації.