mozzicone YOLO-World: rilevamento di oggetti con vocabolario aperto in tempo reale - Unite.AI
Seguici sui social

Intelligenza Artificiale

YOLO-World: rilevamento di oggetti con vocabolario aperto in tempo reale

mm

Pubblicato il

 on

Il rilevamento degli oggetti è stata una sfida fondamentale nel visione computerizzata industria, con applicazioni nella robotica, nella comprensione delle immagini, nei veicoli autonomi e riconoscimento dell'immagine. Negli ultimi anni, il lavoro pionieristico nel campo dell’intelligenza artificiale, in particolare attraverso le reti neurali profonde, ha fatto avanzare significativamente il rilevamento degli oggetti. Tuttavia, questi modelli hanno un vocabolario fisso, limitato al rilevamento di oggetti all’interno delle 80 categorie del set di dati COCO. Questa limitazione deriva dal processo di formazione, in cui i rilevatori di oggetti vengono addestrati a riconoscere solo categorie specifiche, limitandone così l'applicabilità.

Per superare questo problema, presentiamo YOLO-World, un approccio innovativo volto a migliorare il framework YOLO (You Only Look Once) con capacità di rilevamento del vocabolario aperto. Ciò si ottiene pre-addestrando il quadro su set di dati su larga scala e implementando un approccio di modellazione del linguaggio della visione. Nello specifico, YOLO-World utilizza una rete di aggregazione del percorso visione-linguaggio riparametrizzabile (RepVL-PAN) e una perdita di contrasto regione-testo per favorire l'interazione tra informazioni linguistiche e visive. Attraverso RepVL-PAN e la perdita contrastiva del testo regionale, YOLO-World è in grado di rilevare con precisione un'ampia gamma di oggetti in un'impostazione zero-shot, mostrando prestazioni notevoli nella segmentazione del vocabolario aperto e nelle attività di rilevamento degli oggetti.

Questo articolo mira a fornire una conoscenza approfondita dei fondamenti tecnici, dell'architettura del modello, del processo di formazione e degli scenari applicativi di YOLO-World. Immergiamoci.

YOLO-World: rilevamento di oggetti con vocabolario aperto in tempo reale

YOLO o You Only Look Once è uno dei metodi più popolari per il rilevamento di oggetti moderni nel settore della visione artificiale. Rinomato per la sua incredibile velocità ed efficienza, l'avvento di YOLO Il meccanismo ha rivoluzionato il modo in cui le macchine interpretano e rilevano oggetti specifici all'interno di immagini e video in tempo reale. I framework tradizionali di rilevamento degli oggetti implementano un approccio di rilevamento degli oggetti in due fasi: nel primo passaggio, il framework propone regioni che potrebbero contenere l'oggetto e il framework classifica l'oggetto nel passaggio successivo. Il framework YOLO d'altro canto integra questi due passaggi in un unico modello di rete neurale, un approccio che consente al framework di guardare l'immagine solo una volta per prevedere l'oggetto e la sua posizione all'interno dell'immagine, da qui il nome YOLO o Tu Guarda solo una volta. 

Inoltre, il framework YOLO tratta il rilevamento degli oggetti come un problema di regressione e prevede le probabilità delle classi e i riquadri di delimitazione direttamente dall'immagine completa in un unico colpo d'occhio. L'implementazione di questo metodo non solo aumenta la velocità del processo di rilevamento, ma migliora anche la capacità del modello di generalizzare da dati complessi e diversificati, rendendolo una scelta adatta per applicazioni che operano in tempo reale come la guida autonoma, il rilevamento della velocità o il numero riconoscimento targa. Inoltre, il significativo progresso delle reti neurali profonde negli ultimi anni ha contribuito in modo significativo anche allo sviluppo di strutture di rilevamento di oggetti, ma il successo delle strutture di rilevamento di oggetti è ancora limitato poiché sono in grado di rilevare oggetti solo con un vocabolario limitato. Ciò è dovuto principalmente al fatto che, una volta definite ed etichettate le categorie di oggetti nel set di dati, i rilevatori addestrati nel quadro sono in grado di riconoscere solo queste categorie specifiche, limitando così l'applicabilità e la capacità di implementare modelli di rilevamento di oggetti in scenari aperti e in tempo reale. 

Andando avanti, i modelli di linguaggio visivo sviluppati di recente utilizzano la conoscenza del vocabolario distillato proveniente dai codificatori linguistici per affrontare il rilevamento del vocabolario aperto. Sebbene questi framework funzionino meglio dei tradizionali modelli di rilevamento di oggetti sul rilevamento di vocabolario aperto, hanno ancora un'applicabilità limitata a causa della scarsa disponibilità di dati di addestramento con diversità di vocabolario limitata. Inoltre, strutture selezionate addestrano rilevatori di oggetti a vocabolario aperto su larga scala e classificano i rilevatori di oggetti di addestramento come pre-addestramento al linguaggio visivo a livello regionale. Tuttavia, l’approccio ha ancora difficoltà nel rilevare oggetti in tempo reale a causa di due ragioni principali: il complesso processo di distribuzione per i dispositivi edge e i pesanti requisiti computazionali. La nota positiva è che queste strutture hanno dimostrato risultati positivi dal pre-addestramento di rilevatori di grandi dimensioni per impiegarli con capacità di riconoscimento aperto. 

Il framework YOLO-World mira a ottenere un rilevamento di oggetti a vocabolario aperto altamente efficiente ed esplorare la possibilità di approcci di pre-formazione su larga scala per aumentare l'efficienza dei rilevatori YOLO tradizionali per il rilevamento di oggetti a vocabolario aperto. Contrariamente ai lavori precedenti nel rilevamento di oggetti, il framework YOLO-World mostra una notevole efficienza con elevate velocità di inferenza e può essere implementato con facilità su applicazioni downstream. Il modello YOLO-World segue la tradizionale architettura YOLO e codifica i testi di input sfruttando le capacità di un codificatore di testo CLIP pre-addestrato. Inoltre, il framework YOLO-World include un componente Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) nella sua architettura per connettere caratteristiche di immagini e testo per rappresentazioni visuo-semantiche migliorate. Durante la fase di inferenza, il framework rimuove il codificatore di testo e riparametrizza gli incorporamenti di testo in pesi RepVL-PAN, ottenendo una distribuzione efficiente. Il quadro include anche l'apprendimento contrastivo regione-testo nel suo quadro per studiare metodi di pre-formazione a vocabolario aperto per i tradizionali modelli YOLO. Il metodo di apprendimento contrastivo regione-testo unifica i dati immagine-testo, i dati di messa a terra e i dati di rilevamento in coppie regione-testo. Basandosi su ciò, il framework YOLO-World pre-addestrato su coppie regione-testo dimostra notevoli capacità per il rilevamento di vocaboli aperti e ampi. Inoltre, il framework YOLO-World esplora anche un paradigma "prompt-then-detect" con l'obiettivo di migliorare l'efficienza del rilevamento di oggetti a vocabolario aperto in scenari in tempo reale e nel mondo reale. 

Come dimostrato nell'immagine seguente, i rilevatori di oggetti tradizionali si concentrano sul rilevamento di un insieme ravvicinato di vocabolario fisso con categorie predefinite, mentre i rilevatori di vocabolario aperto rilevano oggetti codificando i prompt dell'utente con codificatori di testo per il vocabolario aperto. In confronto, l'approccio "prompt-then-detect" di YOLO-World crea innanzitutto un vocabolario offline (vocabolario variabile per esigenze diverse) codificando i prompt dell'utente consentendo ai rilevatori di interpretare il vocabolario offline in tempo reale senza dover ricodificare i prompt. 

YOLO-World: metodo e architettura

Coppie regione-testo

Tradizionalmente, i framework di rilevamento degli oggetti, inclusi YOLO famiglia di rilevatori di oggetti vengono addestrati utilizzando annotazioni di istanze che contengono etichette di categoria e riquadri di delimitazione. Al contrario, il framework YOLO-World riformula le annotazioni delle istanze come coppie regione-testo in cui il testo può essere la descrizione dell'oggetto, frasi nominali o nome di categoria. Vale la pena sottolineare che il framework YOLO-World adotta sia i testi che le immagini come riquadri predetti di input e output con i corrispondenti incorporamenti di oggetti. 

Architettura di modello

Fondamentalmente, il modello YOLO-World è costituito da un codificatore di testo, un rilevatore YOLO e il componente Re-parametrizable Vision-Language Path Aggregation Network (RepVL-PAN), come illustrato nell'immagine seguente. 

Per un testo di input, il componente codificatore di testo codifica il testo in incorporamenti di testo seguiti dall'estrazione di caratteristiche multiscala dall'immagine di input da parte dei rilevatori di immagini nel componente rilevatore YOLO. Il componente Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) sfrutta quindi la fusione multimodale tra il testo e gli incorporamenti di funzionalità per migliorare le rappresentazioni di testo e immagini. 

Rilevatore YOLO

Il modello YOLO-World è costruito sulla base del framework YOLOv8 esistente che contiene un componente backbone Darknet come codificatore di immagini, una testa per gli incorporamenti di oggetti e la regressione del riquadro di delimitazione e una rete PAN o Path Aggression Network per piramidi di funzionalità multiscala. 

Codificatore di testo

Per un dato testo, il modello YOLO-World estrae gli incorporamenti di testo corrispondenti adottando un codificatore di testo CLIP Transformer pre-addestrato con un certo numero di sostantivi e dimensione di incorporamento. Il motivo principale per cui il framework YOLO-World adotta un codificatore di testo CLIP è perché offre migliori prestazioni semantiche visive per connettere testi con oggetti visivi, superando significativamente i tradizionali codificatori linguistici di solo testo. Tuttavia, se il testo di input è una didascalia o un'espressione di riferimento, il modello YOLO-World opta per un algoritmo n-gram più semplice per estrarre le frasi. Queste frasi vengono quindi inserite nel codificatore di testo. 

Testa contrastante del testo

La testa disaccoppiata è un componente utilizzato dai precedenti modelli di rilevamento degli oggetti e il framework YOLO-World adotta una testa disaccoppiata con doppie convoluzioni 3×3 per regredire gli incorporamenti di oggetti e i riquadri di delimitazione per un numero fisso di oggetti. Il framework YOLO-World utilizza una testina contrastiva del testo per ottenere la somiglianza oggetto-testo utilizzando l'approccio di normalizzazione L2 e gli incorporamenti di testo. Inoltre, il modello YOLO-World impiega anche l'approccio di trasformazione affine con un fattore di spostamento e un fattore di scala apprendibile, con la normalizzazione L2 e la trasformazione affine che migliorano la stabilità del modello durante l'addestramento del testo regionale. 

Formazione sul vocabolario online

Durante la fase di training, il modello YOLO-World costruisce un vocabolario online per ciascun campione di mosaico composto da 4 immagini ciascuno. Il modello campiona tutti i nomi positivi inclusi nelle immagini del mosaico e campiona alcuni nomi negativi in ​​modo casuale dal set di dati corrispondente. Il vocabolario per ciascun campione è composto da un massimo di n sostantivi, con il valore predefinito 80. 

Inferenza del vocabolario offline

Durante l'inferenza, il modello YOLO-World presenta una strategia "prompt-the-detect" con vocabolario offline per migliorare ulteriormente l'efficienza del modello. L'utente definisce innanzitutto una serie di prompt personalizzati che potrebbero includere categorie o persino didascalie. Il modello YOLO-World ottiene quindi incorporamenti di vocabolario offline utilizzando il codificatore di testo per codificare questi suggerimenti. Di conseguenza, il vocabolario offline per l'inferenza aiuta il modello a evitare calcoli per ciascun input e consente inoltre al modello di adattare il vocabolario in modo flessibile in base ai requisiti. 

Rete di aggressione del percorso visivo-linguaggio riparametrizzabile (RevVL-PAN)

La figura seguente illustra la struttura della rete di aggressione del percorso di visione-linguaggio riparametrizzabile proposta che segue i percorsi dall'alto verso il basso e dal basso verso l'alto per stabilire la piramide delle caratteristiche con immagini delle caratteristiche multiscala. 

Per migliorare l'interazione tra le caratteristiche del testo e dell'immagine, il modello YOLO-World propone un'attenzione di pooling di immagini e un CSPLayer guidato dal testo (Cross-Stage Partial Layers) con l'obiettivo finale di migliorare le rappresentazioni visivo-semantiche per capacità di vocabolario aperto. Durante l'inferenza, il modello YOLO-World riparametrizza gli incorporamenti del vocabolario offline nei pesi degli strati lineari o convoluzionali per un'implementazione efficace. 

Come si può vedere nella figura sopra, il modello YOLO-World utilizza CSPLayer dopo la fusione dall'alto verso il basso o dal basso verso l'alto e incorpora la guida del testo nelle funzionalità dell'immagine multiscala, formando il CSPLayer guidato dal testo, estendendo così il CSPLlayer. Per ogni data caratteristica dell'immagine e il corrispondente incorporamento del testo, il modello adotta l'attenzione massima del sigmoide dopo l'ultimo blocco del collo di bottiglia per aggregare le caratteristiche del testo in caratteristiche dell'immagine. La funzionalità dell'immagine aggiornata viene quindi concatenata con le funzionalità tra più fasi e viene presentata come output. 

 Andando avanti, il modello YOLO-World aggrega le funzionalità dell'immagine per aggiornare l'incorporamento del testo introducendo il livello di attenzione del pooling delle immagini per migliorare gli incorporamenti del testo con informazioni consapevoli dell'immagine. Invece di utilizzare l'attenzione incrociata direttamente sulle caratteristiche dell'immagine, il modello sfrutta il pooling massimo su caratteristiche multiscala per ottenere regioni 3×3, risultando in 27 token di patch con il modello che aggiorna gli incorporamenti di testo nel passaggio successivo. 

Schemi di pre-formazione

Il modello YOLO-World segue due schemi di pre-formazione principali: apprendimento dalla perdita di contrasto del testo-regione e pseudo etichettatura con dati immagine-testo. Per lo schema di pre-addestramento primario, il modello produce previsioni sugli oggetti insieme ad annotazioni per un determinato testo ed esempi di mosaico. Il framework YOLO-World abbina le previsioni con le annotazioni di verità di base seguendo e sfruttando l'assegnazione delle etichette assegnate alle attività e assegna singole previsioni positive con un indice di testo che funge da etichetta di classificazione. D'altra parte, lo schema di pre-formazione Pseudo Labeling with Image-Text Data propone di utilizzare un approccio di etichettatura automatizzato invece di utilizzare coppie immagine-testo per generare coppie regione-testo. L’approccio di etichettatura proposto si compone di tre fasi: estrarre frasi nominali, pseudo etichettature e filtraggi. Il primo passaggio utilizza l'algoritmo n-gram per estrarre le frasi nominali dal testo di input, il secondo passaggio adotta un rilevatore di vocabolario aperto pre-addestrato per generare pseudo riquadri per la frase nominale data per le singole immagini, mentre il terzo e ultimo passaggio utilizza un framework CLIP pre-addestrato per valutare la pertinenza delle coppie regione-testo e testo-immagine, in seguito al quale il modello filtra pseudo immagini e annotazioni di bassa rilevanza. 

YOLO-Mondo: Risultati

Una volta che il modello YOLO-World è stato pre-addestrato, viene valutato direttamente sul set di dati LVIS in un'impostazione zero-shot, con il set di dati LVIS composto da oltre 1200 categorie, significativamente più dei set di dati di pre-addestramento utilizzati dai framework esistenti per i test le loro prestazioni nel rilevamento di un ampio vocabolario. La figura seguente mostra le prestazioni del framework YOLO-World con alcuni dei framework di rilevamento di oggetti all'avanguardia esistenti sul set di dati LVIS in un'impostazione zero-shot. 

Come si può osservare, il framework YOLO-World supera la maggior parte dei framework esistenti in termini di velocità di inferenza e prestazioni zero-shot, anche con framework come Grounding DINO, GLIP e GLIPv2 che incorporano più dati. Nel complesso, i risultati dimostrano che modelli di rilevamento di piccoli oggetti come YOLO-World-S con soli 13 milioni di parametri possono essere utilizzati per la formazione preliminare su compiti di linguaggio visivo con notevoli capacità di vocabolario aperto. 

Considerazioni finali

In questo articolo, abbiamo parlato di YOLO-World, un approccio innovativo che mira a migliorare le capacità del framework YOLO o You Only Look Once con capacità di rilevamento del vocabolario aperto pre-addestrando il framework su set di dati su larga scala e implementando il approccio di modellazione del linguaggio-visione. Per essere più specifici, il framework YOLO-World propone di implementare una rete di aggregazione del percorso linguistico di visione riparametrizzabile o RepVL-PAN insieme alla perdita di contrasto regione-testo per facilitare un'interazione tra le informazioni linguistiche e visive. Implementando RepVL-PAN e la perdita contrastiva regione-testo, il framework YOLO-World è in grado di rilevare in modo accurato ed efficace un'ampia gamma di oggetti in un'impostazione zero-shot.

"Un ingegnere di professione, uno scrittore a memoria". Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedito a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.