Intelligenza artificiale

YOLOv7: L’Algoritmo di Rilevamento di Oggetti più Avanzato?

Published July 24, 2023

Updated May 23, 2026

Kunal Kejriwal

Il 6 luglio 2022 sarà ricordato come una data storica nella storia dell’IA, poiché è stato il giorno in cui è stato rilasciato YOLOv7. Dalla sua uscita, YOLOv7 è stato l’argomento più caldo nella comunità di sviluppatori di Computer Vision, e per le giuste ragioni. YOLOv7 è già considerato un punto di riferimento nell’industria del rilevamento di oggetti.

Poco dopo la pubblicazione del documento YOLOv7, è emerso come il modello di rilevamento di oggetti in tempo reale più veloce e preciso. Ma come fa YOLOv7 a superare i suoi predecessori? Cosa rende YOLOv7 così efficiente nell’eseguire compiti di visione artificiale?

In questo articolo cercheremo di analizzare il modello YOLOv7 e di capire cosa lo rende così efficiente. Ma prima di poter rispondere a questa domanda, dobbiamo dare uno sguardo alla breve storia del rilevamento di oggetti.

Cosa è il Rilevamento di Oggetti?

Il rilevamento di oggetti è una branca della visione artificiale che identifica e localizza oggetti in un’immagine o un file video. Il rilevamento di oggetti è il blocco fondamentale di numerose applicazioni, tra cui auto a guida autonoma, sorveglianza monitorata e robotica.

Un modello di rilevamento di oggetti può essere classificato in due categorie diverse, rilevatori a singola scossa, e rilevatori a multi-scossa.

Rilevamento di Oggetti in Tempo Reale

Per comprendere veramente come funziona YOLOv7, è essenziale capire l’obiettivo principale di YOLOv7, ovvero il “Rilevamento di Oggetti in Tempo Reale”. Il rilevamento di oggetti in tempo reale è un componente fondamentale della visione artificiale moderna. I modelli di rilevamento di oggetti in tempo reale cercano di identificare e localizzare oggetti di interesse in tempo reale.

I modelli di rilevamento di oggetti in tempo reale sono essenzialmente un passo avanti rispetto ai modelli di rilevamento di immagini convenzionali. Mentre i primi vengono utilizzati per tracciare oggetti in file video, i secondi localizzano e identificano oggetti all’interno di un frame stazionario come un’immagine.

Di conseguenza, i modelli di rilevamento di oggetti in tempo reale sono molto efficienti per l’analisi di video, veicoli autonomi, conteggio di oggetti, tracciamento di multi-oggetti e molto altro.

Cosa è YOLO?

YOLO o “You Only Look Once” è una famiglia di modelli di rilevamento di oggetti in tempo reale. Il concetto di YOLO è stato introdotto per la prima volta nel 2016 da Joseph Redmon e divenne immediatamente il centro dell’attenzione perché era molto più veloce e preciso degli algoritmi di rilevamento di oggetti esistenti.

Il concetto fondamentale che l’algoritmo YOLO propone è quello di utilizzare una rete neurale end-to-end che utilizza bounding box e probabilità di classe per effettuare previsioni in tempo reale. YOLO differiva dai precedenti modelli di rilevamento di oggetti nel senso che proponeva un approccio diverso per eseguire il rilevamento di oggetti riproponendo i classificatori.

Il cambiamento di approccio ha funzionato, poiché YOLO divenne presto lo standard dell’industria in quanto il divario di prestazioni tra YOLO e altri algoritmi di rilevamento di oggetti in tempo reale era significativo. Ma qual era il motivo per cui YOLO era così efficiente?

Come Funziona YOLO?

Ci sono tre passaggi che spiegano come funziona un algoritmo YOLO.

Riformulazione del Rilevamento di Oggetti come un Singolo Problema di Regressione

L’algoritmo YOLO cerca di riformulare il rilevamento di oggetti come un singolo problema di regressione, compresi i pixel dell’immagine, le probabilità di classe e le coordinate dei bounding box. Pertanto, l’algoritmo deve guardare l’immagine solo una volta per prevedere e localizzare gli oggetti di destinazione nell’immagine.

Motivi per cui l’Immagine Globale

Inoltre, quando l’algoritmo YOLO effettua previsioni, ragiona l’immagine globalmente. È diverso dalle tecniche basate su proposta di regione e da quelle a scorrimento, poiché l’algoritmo YOLO vede l’intera immagine durante l’addestramento e il test sul set di dati e può codificare informazioni contestuali sulle classi e su come appaiono.

Prima di YOLO, Fast R-CNN era uno degli algoritmi di rilevamento di oggetti più popolari che non poteva vedere il contesto più ampio nell’immagine perché utilizzava per errore patch di sfondo in un’immagine per un oggetto. Quando confrontato con l’algoritmo Fast R-CNN, YOLO è il 50% più preciso quando si tratta di errori di sfondo.

Generalizzazione della Rappresentazione degli Oggetti

Infine, l’algoritmo YOLO mira anche a generalizzare le rappresentazioni degli oggetti in un’immagine. Di conseguenza, quando un algoritmo YOLO è stato eseguito su un set di dati con immagini naturali e testato per i risultati, YOLO ha superato i modelli R-CNN esistenti con un ampio margine.

YOLOv7: Cosa c’è di Nuovo?

Ora che abbiamo una comprensione di base di cosa sono i modelli di rilevamento di oggetti in tempo reale e cosa è l’algoritmo YOLO, è il momento di discutere l’algoritmo YOLOv7.

Ottimizzazione del Processo di Addestramento

L’algoritmo YOLOv7 non solo cerca di ottimizzare l’architettura del modello, ma cerca anche di ottimizzare il processo di addestramento. Cerca di utilizzare moduli e metodi di ottimizzazione per migliorare l’accuratezza del rilevamento di oggetti, rafforzando il costo di addestramento, mantenendo il costo di interferenza.

Assegnazione di Etichette Coarse-to-Fine

L’algoritmo YOLOv7 prevede di utilizzare un nuovo assegnazione di etichette Coarse-to-Fine invece dell’assegnazione di etichette dinamica convenzionale.

Riparametrizzazione del Modello

La riparametrizzazione del modello è un concetto importante nel rilevamento di oggetti e il suo utilizzo è generalmente seguito da alcuni problemi durante l’addestramento.

Scalabilità Estesa e Composta

L’algoritmo YOLOv7 introduce anche i metodi di scalabilità estesi e composti per utilizzare e utilizzare efficacemente i parametri e i calcoli per il rilevamento di oggetti in tempo reale.

YOLOv7: Lavori Correlati

Rilevamento di Oggetti in Tempo Reale

YOLO è attualmente lo standard dell’industria e la maggior parte dei rilevatori di oggetti in tempo reale distribuisce algoritmi YOLO e FCOS (Fully Convolutional One-Stage Object-Detection).

Architettura di rete più forte e veloce.
Metodo di integrazione delle caratteristiche efficace.
Metodo di rilevamento di oggetti preciso.
Funzione di perdita robusta.
Metodo di assegnazione di etichette efficace.
Metodo di addestramento efficiente.

L’algoritmo YOLOv7 non utilizza l’apprendimento auto-supervisionato e la distillazione, che spesso richiedono grandi quantità di dati.

Riparametrizzazione del Modello

Le tecniche di riparametrizzazione del modello sono considerate una tecnica di ensemble che combina più moduli computazionali in una fase di interferenza.

Scalabilità del Modello

La scalabilità del modello è il processo di scalare un modello esistente in modo che si adatti a diversi dispositivi di calcolo.

Architettura YOLOv7

Il modello YOLOv7 utilizza i modelli YOLOv4, YOLO-R e YOLOv4 scalati come base.

Rete di Aggregazione di Strati Efficienti Estesa o E-ELAN

E-ELAN è il blocco fondamentale del modello YOLOv7 e deriva da modelli esistenti sull’efficienza della rete.

Scalabilità del Modello per Modelli Basati su Concatenazione

La scalabilità del modello aiuta a regolare gli attributi del modello per generare modelli di diverse scale per soddisfare diverse velocità di interferenza.

Sacchetti di Gratifiche Addestrabili

Un sacchetto di gratifiche è un termine utilizzato dai sviluppatori per descrivere un set di metodi o tecniche che possono alterare la strategia di addestramento o il costo per aumentare l’accuratezza del modello.

Convolutione Riparametrizzata Pianificata

L’algoritmo YOLOv7 utilizza i percorsi di propagazione del gradiente per determinare come combinare idealmente una rete con la convoluzione riparametrizzata.

Assegnazione di Etichette Coarse-to-Fine per la Testa Guida

L’algoritmo YOLOv7 utilizza un nuovo metodo di assegnazione di etichette Coarse-to-Fine per la testa guidata.

Altre Gratifiche Addestrabili

In aggiunta a quelle menzionate sopra, l’algoritmo YOLOv7 utilizza altre gratifiche addestrabili, anche se non sono state proposte originariamente da loro.

Normalizzazione del Batch nella Tecnologia Conv-Bn-Attivazione: Questa strategia viene utilizzata per collegare direttamente una layer convoluzionale alla layer di normalizzazione del batch.
Conoscenza Implicita in YOLOR: L’algoritmo YOLOv7 combina la strategia con la mappa di caratteristiche convoluzionali.
Modello EMA: Il modello EMA viene utilizzato come modello di riferimento finale in YOLOv7, anche se il suo utilizzo principale è quello di essere utilizzato nel metodo del maestro medio.

YOLOv7: Esperimenti

Impostazione Sperimentale

L’algoritmo YOLOv7 utilizza il set di dati Microsoft COCO per l’addestramento e la convalida del modello di rilevamento di oggetti.

Linee di Base

L’algoritmo YOLOv7 utilizza i modelli YOLO precedenti e l’algoritmo di rilevamento di oggetti YOLOR come linee di base.

Confronto con Modelli di Rilevamento di Oggetti di Ultima Generazione

Studio di Ablazione: Metodo di Scalabilità Composto Proposto

Modello Riparametrizzato Pianificato Proposto

Per verificare la generalità del modello riparametrizzato proposto, l’algoritmo YOLOv7 lo utilizza su modelli basati su concatenazione e su modelli basati su residui per la verifica.

Perdita Ausiliaria Proposta per la Testa Ausiliaria

Per la perdita ausiliaria per la testa ausiliaria, il modello YOLOv7 confronta l’assegnazione di etichette indipendente per la testa ausiliaria e la testa principale.

Risultati YOLOv7

Sulla base degli esperimenti sopra, ecco il risultato delle prestazioni di YOLOv7 rispetto ad altri algoritmi di rilevamento di oggetti.

Conclusione

YOLO o You Only Look Once è l’algoritmo di rilevamento di oggetti di ultima generazione nella visione artificiale moderna. L’algoritmo YOLO è noto per la sua alta accuratezza e efficienza e, di conseguenza, trova un’applicazione estensiva nell’industria del rilevamento di oggetti in tempo reale.

Il modello YOLOv7 è l’ultima aggiunta alla famiglia YOLO e rappresenta l’algoritmo YOLO più potente fino ad oggi. In questo articolo, abbiamo discusso i fondamenti di YOLOv7 e abbiamo cercato di spiegare cosa rende YOLOv7 così efficiente.

Kunal Kejriwal

Un ingegnere per professione, uno scrittore per passione. Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedicato a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.