mozzicone YOLOv7: l'algoritmo di rilevamento degli oggetti più avanzato? - Unite.AI
Seguici sui social

Intelligenza Artificiale

YOLOv7: l'algoritmo di rilevamento degli oggetti più avanzato?

mm

Pubblicato il

 on

Il 6 luglio 2022 sarà segnato come una pietra miliare nella storia dell'IA perché è stato in questo giorno che è stato rilasciato YOLOv7. Sin dal suo lancio, YOLOv7 è stato l'argomento più caldo nella comunità degli sviluppatori di Computer Vision, e per le giuste ragioni. YOLOv7 è già considerato una pietra miliare nel settore del rilevamento di oggetti. 

Poco dopo la È stato pubblicato il documento YOLOv7, si è rivelato il modello di rilevamento delle obiezioni in tempo reale più rapido e accurato. Ma come fa YOLOv7 a superare i suoi predecessori? Cosa rende YOLOv7 così efficiente nell'esecuzione di attività di visione artificiale? 

In questo articolo proveremo ad analizzare il modello YOLOv7 e proveremo a trovare la risposta al motivo per cui YOLOv7 sta diventando uno standard del settore? Ma prima di poter rispondere, dovremo dare un'occhiata alla breve storia del rilevamento di oggetti. 

Che cos'è il rilevamento di oggetti?

Il rilevamento degli oggetti è un ramo della visione artificiale che identifica e localizza gli oggetti in un'immagine o in un file video. Il rilevamento degli oggetti è l'elemento costitutivo di numerose applicazioni, tra cui auto a guida autonoma, sorveglianza monitorata e persino robotica. 

Un modello di rilevamento degli oggetti può essere classificato in due diverse categorie, rivelatori a colpo singolo, ed rivelatori multi-colpo. 

Rilevamento di oggetti in tempo reale

Per capire veramente come funziona YOLOv7, è essenziale per noi capire l'obiettivo principale di YOLOv7, "Rilevamento di oggetti in tempo reale". Il rilevamento di oggetti in tempo reale è un componente chiave della moderna visione artificiale. I modelli di rilevamento oggetti in tempo reale cercano di identificare e localizzare gli oggetti di interesse in tempo reale. I modelli di rilevamento degli oggetti in tempo reale hanno reso davvero efficiente per gli sviluppatori il monitoraggio degli oggetti di interesse in un fotogramma in movimento come un video o un input di sorveglianza dal vivo. 

I modelli di rilevamento degli oggetti in tempo reale sono essenzialmente un passo avanti rispetto ai modelli di rilevamento delle immagini convenzionali. Mentre il primo viene utilizzato per tracciare oggetti nei file video, il secondo individua e identifica gli oggetti all'interno di una cornice fissa come un'immagine. 

Di conseguenza, i modelli di rilevamento degli oggetti in tempo reale sono davvero efficienti per l'analisi video, i veicoli autonomi, il conteggio degli oggetti, il tracciamento di più oggetti e molto altro. 

Cos'è YOLO?

YOLO o “Guarda solo una volta” è una famiglia di modelli di rilevamento di oggetti in tempo reale. Il concetto YOLO è stato introdotto per la prima volta nel 2016 da Joseph Redmon, ed è stato quasi subito il discorso della città perché era molto più veloce e molto più preciso degli algoritmi di rilevamento degli oggetti esistenti. Non passò molto tempo prima che l'algoritmo YOLO diventasse uno standard nel settore della visione artificiale. 

Il concetto fondamentale proposto dall'algoritmo YOLO è quello di utilizzare una rete neurale end-to-end utilizzando i bounding box e le probabilità di classe per fare previsioni in tempo reale. YOLO era diverso dal precedente modello di rilevamento degli oggetti nel senso che proponeva un approccio diverso per eseguire il rilevamento degli oggetti riproponendo i classificatori. 

Il cambio di approccio ha funzionato quando YOLO è diventato presto lo standard del settore poiché il divario di prestazioni tra se stesso e altri algoritmi di rilevamento di oggetti in tempo reale era significativo. Ma qual era il motivo per cui YOLO era così efficiente? 

Rispetto a YOLO, gli algoritmi di rilevamento degli oggetti allora utilizzavano Region Proposal Networks per rilevare possibili regioni di interesse. Il processo di riconoscimento è stato quindi eseguito su ciascuna regione separatamente. Di conseguenza, questi modelli spesso eseguivano più iterazioni sulla stessa immagine, e quindi la mancanza di accuratezza e tempi di esecuzione più elevati. D'altra parte, l'algoritmo YOLO utilizza un singolo livello completamente connesso per eseguire la previsione in una sola volta. 

Come funziona YOLO?

Ci sono tre passaggi che spiegano come funziona un algoritmo YOLO. 

Riformulare il rilevamento degli oggetti come un singolo problema di regressione

I L'algoritmo YOLO tenta di riformulare il rilevamento degli oggetti come un singolo problema di regressione, inclusi i pixel dell'immagine, alle probabilità di classe e alle coordinate del riquadro di delimitazione. Pertanto, l'algoritmo deve guardare l'immagine solo una volta per prevedere e individuare gli oggetti target nelle immagini. 

Ragioni l'immagine a livello globale

Per di più, quando l'algoritmo YOLO fa previsioni, ragiona l'immagine a livello globale. È diverso dalle tecniche di scorrimento e basate sulla proposta regionale poiché l'algoritmo YOLO vede l'immagine completa durante l'addestramento e il test sul set di dati ed è in grado di codificare le informazioni contestuali sulle classi e su come appaiono. 

Prima di YOLO, Fast R-CNN era uno degli algoritmi di rilevamento degli oggetti più popolari che non riusciva a vedere il contesto più ampio nell'immagine perché era solito scambiare le patch di sfondo in un'immagine per un oggetto. Rispetto all'algoritmo Fast R-CNN, YOLO è più preciso del 50%. quando si tratta di errori di background. 

Generalizza la rappresentazione degli oggetti

Infine, l'algoritmo YOLO mira anche a generalizzare le rappresentazioni di oggetti in un'immagine. Di conseguenza, quando un algoritmo YOLO è stato eseguito su un set di dati con immagini naturali e testato per i risultati, YOLO ha superato di gran lunga i modelli R-CNN esistenti. È perché YOLO è altamente generalizzabile, le possibilità che si rompa quando implementato su input imprevisti o nuovi domini erano scarse. 

YOLOv7: Cosa c'è di nuovo?

Ora che abbiamo una conoscenza di base di cosa sono i modelli di rilevamento di oggetti in tempo reale e cos'è l'algoritmo YOLO, è il momento di discutere l'algoritmo YOLOv7. 

Ottimizzazione del processo di formazione

L'algoritmo YOLOv7 non solo cerca di ottimizzare l'architettura del modello, ma mira anche a ottimizzare il processo di addestramento. Mira a utilizzare moduli e metodi di ottimizzazione per migliorare l'accuratezza del rilevamento degli oggetti, rafforzando il costo della formazione, pur mantenendo il costo dell'interferenza. Questi moduli di ottimizzazione possono essere indicati come a borsa addestrabile di omaggi. 

Assegnazione di etichette guidate da grossolana a fine

L'algoritmo YOLOv7 prevede di utilizzare una nuova assegnazione di etichette guidate da grossolana a fine anziché quella convenzionale Assegnazione dinamica delle etichette. È così perché con l'assegnazione dinamica delle etichette, l'addestramento di un modello con più livelli di output causa alcuni problemi, il più comune dei quali è come assegnare obiettivi dinamici per diversi rami e i loro output. 

Riparametrizzazione del modello

La riparametrizzazione del modello è un concetto importante nel rilevamento di oggetti e il suo utilizzo è generalmente seguito da alcuni problemi durante l'addestramento. L'algoritmo YOLOv7 prevede di utilizzare il concetto di percorso di propagazione del gradiente per analizzare le politiche di riparametrizzazione del modello applicabile a diversi strati della rete. 

Ridimensionamento esteso e composto

L'algoritmo YOLOv7 introduce anche il metodi di scaling estesi e composti utilizzare e utilizzare efficacemente i parametri e i calcoli per il rilevamento di oggetti in tempo reale. 

YOLOv7 : Lavoro correlato

Rilevamento di oggetti in tempo reale

YOLO è attualmente lo standard del settore e la maggior parte dei rilevatori di oggetti in tempo reale implementa algoritmi YOLO e FCOS (Fully Convolutional One-Stage Object-Detection). Un rilevatore di oggetti in tempo reale allo stato dell'arte di solito ha le seguenti caratteristiche

  • Architettura di rete più forte e più veloce. 
  • Un efficace metodo di integrazione delle funzionalità. 
  • Un accurato metodo di rilevamento degli oggetti. 
  • Una robusta funzione di perdita. 
  • Un efficiente metodo di assegnazione delle etichette. 
  • Un metodo di allenamento efficiente. 

L'algoritmo YOLOv7 non utilizza metodi di apprendimento e distillazione auto-supervisionati che spesso richiedono grandi quantità di dati. Al contrario, l'algoritmo YOLOv7 utilizza un metodo di borsa di omaggi addestrabile. 

Riparametrizzazione del modello

Le tecniche di riparametrizzazione del modello sono considerate una tecnica di ensemble che unisce più moduli computazionali in una fase di interferenza. La tecnica può essere ulteriormente suddivisa in due categorie, ensemble a livello di modello, ed insieme a livello di modulo. 

Ora, per ottenere il modello di interferenza finale, la tecnica di riparametrizzazione a livello di modello utilizza due pratiche. La prima pratica utilizza dati di addestramento diversi per addestrare numerosi modelli identici, quindi calcola la media dei pesi dei modelli addestrati. In alternativa, l'altra pratica calcola la media dei pesi dei modelli durante diverse iterazioni. 

La riparametrizzazione a livello di modulo sta guadagnando un'immensa popolarità di recente perché suddivide un modulo in diversi rami del modulo o diversi rami identici durante la fase di addestramento, quindi procede all'integrazione di questi diversi rami in un modulo equivalente durante l'interferenza. 

Tuttavia, le tecniche di riparametrizzazione non possono essere applicate a tutti i tipi di architettura. È il motivo per cui il L'algoritmo YOLOv7 utilizza nuove tecniche di riparametrizzazione del modello per progettare strategie correlate adatto a diverse architetture. 

Ridimensionamento del modello

Il ridimensionamento del modello è il processo di ridimensionamento verso l'alto o verso il basso di un modello esistente in modo che si adatti a diversi dispositivi di elaborazione. Il ridimensionamento del modello generalmente utilizza una varietà di fattori come il numero di livelli (profondità), dimensione delle immagini di input (risoluzione), numero di caratteristiche piramidali(palcoscenico) e il numero di canali (larghezza). Questi fattori svolgono un ruolo cruciale nell'assicurare un compromesso equilibrato per i parametri di rete, la velocità di interferenza, il calcolo e l'accuratezza del modello. 

Uno dei metodi di ridimensionamento più comunemente usati è NAS o Ricerca architettura di rete che cerca automaticamente i fattori di scala adeguati dai motori di ricerca senza regole complicate. Il principale svantaggio dell'utilizzo del NAS è che si tratta di un approccio costoso per la ricerca di fattori di ridimensionamento adeguati. 

Quasi ogni modello di riparametrizzazione del modello analizza i fattori di scala individuali e unici in modo indipendente e, inoltre, li ottimizza anche in modo indipendente. È perché l'architettura NAS funziona con fattori di scala non correlati. 

Vale la pena notare che i modelli basati sulla concatenazione come VoVNet or Rete densa modificare la larghezza di input di alcuni livelli quando la profondità dei modelli viene ridimensionata. YOLOv7 funziona su un'architettura proposta basata sulla concatenazione e quindi utilizza un metodo di ridimensionamento composto.

La figura sopra menzionata confronta il reti di aggregazione di strati efficienti estese (E-ELAN) di diversi modelli. Il metodo E-ELAN proposto mantiene il percorso di trasmissione del gradiente dell'architettura originale, ma mira ad aumentare la cardinalità delle caratteristiche aggiunte utilizzando la convoluzione di gruppo. Il processo può migliorare le funzionalità apprese da diverse mappe e può rendere ulteriormente più efficiente l'uso di calcoli e parametri. 

YOLOv7 Architettura

Il modello YOLOv7 utilizza come base i modelli YOLOv4, YOLO-R e Scaled YOLOv4. Lo YOLOv7 è il risultato degli esperimenti effettuati su questi modelli per migliorare i risultati e rendere il modello più accurato. 

Rete di aggregazione di livelli efficienti estesa o E-ELAN

E-ELAN è l'elemento costitutivo fondamentale del modello YOLOv7 e deriva da modelli già esistenti sull'efficienza della rete, principalmente ELAN. 

Le considerazioni principali nella progettazione di un'architettura efficiente sono il numero di parametri, la densità computazionale e la quantità di calcolo. Altri modelli considerano anche fattori come l'influenza del rapporto del canale di ingresso/uscita, i rami nella rete dell'architettura, la velocità di interferenza della rete, il numero di elementi nei tensori della rete convoluzionale e altro ancora. 

I CSPVoNet Il modello non solo considera i parametri sopra menzionati, ma analizza anche il percorso del gradiente per apprendere caratteristiche più diverse abilitando i pesi di diversi strati. L'approccio consente alle interferenze di essere molto più veloci e accurate. IL ELAN l'architettura mira a progettare una rete efficiente per controllare il percorso gradiente più breve e lungo in modo che la rete possa essere più efficace nell'apprendimento e nella convergenza. 

ELAN ha già raggiunto uno stadio stabile indipendentemente dal numero di blocchi di calcolo e dalla lunghezza del percorso del gradiente. Lo stato stabile potrebbe essere distrutto se i blocchi computazionali vengono impilati in modo illimitato e il tasso di utilizzo dei parametri diminuirà. IL l'architettura E-ELAN proposta può risolvere il problema in quanto utilizza l'espansione, lo shuffling e la fusione di cardinalità per migliorare continuamente la capacità di apprendimento della rete mantenendo il percorso del gradiente originale. 

Inoltre, confrontando l'architettura di E-ELAN con ELAN, l'unica differenza è nel blocco computazionale, mentre l'architettura del livello di transizione è invariata. 

E-ELAN propone di espandere la cardinalità dei blocchi computazionali ed espandere il canale utilizzando convoluzione di gruppo. La mappa delle caratteristiche verrà quindi calcolata e mescolata in gruppi in base al parametro del gruppo e verrà quindi concatenata insieme. Il numero di canali in ciascun gruppo rimarrà lo stesso dell'architettura originale. Infine, verranno aggiunti i gruppi di mappe delle caratteristiche per eseguire la cardinalità. 

Ridimensionamento del modello per modelli basati sulla concatenazione

Il ridimensionamento del modello aiuta regolazione degli attributi dei modelli che aiuta a generare modelli secondo i requisiti e di diverse scale per soddisfare le diverse velocità di interferenza. 

La figura parla del ridimensionamento del modello per diversi modelli basati sulla concatenazione. Come è possibile nelle figure (a) e (b), l'ampiezza dell'output del blocco computazionale aumenta con l'aumentare del ridimensionamento della profondità dei modelli. Di conseguenza, la larghezza di ingresso degli strati di trasmissione viene aumentata. Se questi metodi sono implementati su un'architettura basata sulla concatenazione, il processo di ridimensionamento viene eseguito in modo approfondito ed è rappresentato nella figura (c). 

Si può quindi concludere che non è possibile analizzare i fattori di scala in modo indipendente per i modelli basati sulla concatenazione, e piuttosto devono essere considerati o analizzati insieme. Pertanto, per un modello basato sulla concatenazione, è opportuno utilizzare il metodo di ridimensionamento del modello composto corrispondente. Inoltre, quando il fattore di profondità viene ridimensionato, anche il canale di uscita del blocco deve essere ridimensionato. 

Borsa addestrabile di omaggi 

Una borsa di omaggi è un termine che gli sviluppatori usano per descrivere un insieme di metodi o tecniche che possono alterare la strategia o il costo della formazione nel tentativo di aumentare la precisione del modello. Allora, quali sono queste borse addestrabili di omaggi in YOLOv7? Diamo un'occhiata. 

Convoluzione ridefinita pianificata

L'algoritmo YOLOv7 utilizza percorsi di propagazione del flusso gradiente per determinare come combinare idealmente una rete con la convoluzione riparametrizzata. Questo approccio di YOLov7 è un tentativo di contrastare Algoritmo RepConv che sebbene abbia funzionato serenamente sul modello VGG, si comporta male se applicato direttamente ai modelli DenseNet e ResNet. 

Per identificare le connessioni in uno strato convoluzionale, il L'algoritmo RepConv combina la convoluzione 3×3 e la convoluzione 1×1. Se analizziamo l'algoritmo, le sue prestazioni e l'architettura osserveremo che RepConv distrugge il file concatenazione in DenseNet e il residuo in ResNet

L'immagine sopra mostra un modello riparametrizzato pianificato. Si può vedere che l'algoritmo YOLov7 ha rilevato che un livello nella rete con concatenazione o connessioni residue non dovrebbe avere una connessione di identità nell'algoritmo RepConv. Di conseguenza, è accettabile passare a RepConvN senza connessioni di identità. 

Grossolano per Ausiliario e Fine per Perdita di Piombo

Supervisione profonda è una branca dell'informatica che spesso trova il suo utilizzo nel processo di formazione delle reti profonde. Il principio fondamentale della supervisione profonda è che esso aggiunge un'ulteriore testina ausiliaria negli strati intermedi della rete insieme ai pesi di rete poco profondi con la perdita dell'assistente come guida. L'algoritmo YOLOv7 fa riferimento alla testa responsabile dell'output finale come testa guida, mentre la testa ausiliaria è la testa che assiste nell'allenamento. 

Andando avanti, YOLOv7 utilizza un metodo diverso per l'assegnazione delle etichette. Convenzionalmente, l'assegnazione di etichette è stata utilizzata per generare etichette facendo riferimento direttamente alla verità fondamentale e sulla base di un determinato insieme di regole. Tuttavia, negli ultimi anni, la distribuzione e la qualità dell'input di previsione svolgono un ruolo importante per generare un'etichetta affidabile. YOLOv7 genera un'etichetta morbida dell'oggetto utilizzando le previsioni di bounding box e ground truth. 

Inoltre, il nuovo metodo di assegnazione delle etichette dell'algoritmo YOLOv7 utilizza le previsioni del lead head per guidare sia il lead che il lead ausiliario. Il metodo di assegnazione delle etichette ha due strategie proposte. 

Assegnatore di etichette guidato dalla testina principale

La strategia effettua calcoli sulla base dei risultati della previsione del lead head e della verità di base, quindi utilizza l'ottimizzazione per generare etichette soft. Queste etichette morbide vengono quindi utilizzate come modello di addestramento sia per la testa principale che per la testa ausiliaria. 

La strategia funziona partendo dal presupposto che, poiché il responsabile principale ha una maggiore capacità di apprendimento, le etichette che genera dovrebbero essere più rappresentative e correlate tra la fonte e l'obiettivo. 

Assegnatore di etichette guidato da testa in piombo da grossolana a fine

Questa strategia effettua anche calcoli sulla base dei risultati della previsione del lead head e della verità di base, quindi utilizza l'ottimizzazione per generare etichette soft. Tuttavia, c'è una differenza fondamentale. In questa strategia, ci sono due gruppi di soft label, livello grossolano, ed bella etichetta. 

L'etichetta grossolana viene generata allentando i vincoli del campione positivo

processo di assegnazione che tratta più griglie come obiettivi positivi. Viene fatto per evitare il rischio di perdere informazioni a causa della minore capacità di apprendimento del capo ausiliario. 

La figura sopra spiega l'uso di un sacco di omaggi addestrabili nell'algoritmo YOLOv7. Raffigura grossolano per la testa ausiliaria e fine per la testa di piombo. Quando confrontiamo un Modello con Testa Ausiliaria (b) con il Modello Normale (a), osserviamo che lo schema in (b) ha una testa ausiliaria, mentre non lo è in (a). 

La figura (c) raffigura l'assegnatore di etichetta indipendente comune mentre la figura (d) e la figura (e) rappresentano rispettivamente l'assegnatore guidato dal piombo e l'assegnatore guidato dal piombo grossolano utilizzato da YOLOv7.  

Altro Borsa trainabile di omaggi

Oltre a quelli sopra menzionati, l'algoritmo YOLOv7 utilizza ulteriori borse di omaggi, sebbene non siano stati proposti da loro in origine. Sono

  • Normalizzazione batch nella tecnologia di attivazione Conv-Bn: Questa strategia viene utilizzata per connettere un livello convoluzionale direttamente al livello di normalizzazione batch. 
  • Conoscenza implicita in YOLOR: YOLOv7 combina la strategia con la mappa delle caratteristiche convoluzionali. 
  • Modello dell'EMA: Il modello EMA è utilizzato come modello di riferimento finale in YOLOv7, anche se il suo utilizzo principale deve essere utilizzato nel metodo dell'insegnante medio. 

YOLOv7 : Esperimenti

Setup sperimentale

L'algoritmo YOLOv7 utilizza l'estensione Set di dati Microsoft COCO per l'addestramento e la convalida il loro modello di rilevamento degli oggetti e non tutti questi esperimenti utilizzano un modello pre-addestrato. Gli sviluppatori hanno utilizzato il set di dati del treno del 2017 per l'addestramento e il set di dati di convalida del 2017 per la selezione degli iperparametri. Infine, le prestazioni dei risultati del rilevamento di oggetti YOLOv7 vengono confrontate con algoritmi all'avanguardia per il rilevamento di oggetti. 

Gli sviluppatori hanno progettato un modello base per GPU edge (YOLOv7-tiny), GPU normale (YOLOv7) e GPU cloud (YOLOv7-W6). Inoltre, l'algoritmo YOLOv7 utilizza anche un modello di base per il ridimensionamento del modello in base ai diversi requisiti del servizio e ottiene modelli diversi. Per l'algoritmo YOLOv7 il ridimensionamento dello stack viene eseguito sul collo e vengono utilizzati i composti proposti per aumentare la profondità e la larghezza del modello. 

Baseline

L'algoritmo YOLOv7 utilizza i modelli YOLO precedenti e l'algoritmo di rilevamento degli oggetti YOLOR come linea di base.

La figura sopra confronta la linea di base del modello YOLOv7 con altri modelli di rilevamento di oggetti e i risultati sono abbastanza evidenti. Se confrontato con il Algoritmo YOLOv4, YOLOv7 non solo utilizza il 75% in meno di parametri, ma utilizza anche il 15% in meno di calcolo e ha una precisione superiore dello 0.4%. 

Confronto con i modelli di rilevatori di oggetti allo stato dell'arte

La figura sopra mostra i risultati quando YOLOv7 viene confrontato con modelli di rilevamento di oggetti all'avanguardia per GPU mobili e generiche. Si può osservare che il metodo proposto dall'algoritmo YOLOv7 ha il miglior punteggio di compromesso velocità-accuratezza. 

Studio sull'ablazione: metodo di scaling composto proposto

La figura mostrata sopra confronta i risultati dell'utilizzo di diverse strategie per l'aumento di scala del modello. La strategia di ridimensionamento nel modello YOLOv7 aumenta la profondità del blocco computazionale di 1.5 volte e ridimensiona la larghezza di 1.25 volte. 

Se confrontato con un modello che aumenta solo la profondità, il modello YOLOv7 offre prestazioni migliori dello 0.5% utilizzando meno parametri e potenza di calcolo. D'altra parte, rispetto ai modelli che aumentano solo la profondità, l'accuratezza di YOLOv7 è migliorata dello 0.2%, ma il numero di parametri deve essere ridimensionato del 2.9% e il calcolo dell'1.2%. 

Modello Proposto Pianificato Ri-Parametrizzato

Per verificare la generalità del modello riparametrizzato proposto, il L'algoritmo YOLOv7 lo utilizza su modelli basati sui residui e sulla concatenazione per la verifica. Per il processo di verifica, utilizza l'algoritmo YOLOv7 ELAN a 3 strati per il modello basato sulla concatenazione e CSPDarknet per il modello basato sui residui. 

Per il modello basato sulla concatenazione, l'algoritmo sostituisce i livelli convoluzionali 3×3 nell'ELAN a 3 strati con RepConv. La figura seguente mostra la configurazione dettagliata di Planned RepConv e 3-stacked ELAN. 

Inoltre, quando si ha a che fare con il modello basato sui residui, l'algoritmo YOLOv7 utilizza un blocco scuro invertito perché il blocco scuro originale non ha un blocco di convoluzione 3×3. La figura seguente mostra l'architettura del Reversed CSPDarknet che inverte le posizioni del livello convoluzionale 3×3 e 1×1. 

Perdita dell'assistente proposta per il capo ausiliario

Per la perdita dell'assistente per la testa ausiliaria, il modello YOLOv7 confronta l'assegnazione di etichette indipendenti per i metodi della testa ausiliaria e della testa principale. 

La figura in alto contiene i risultati dello studio sulla testata ausiliaria proposta. Si può vedere che le prestazioni complessive del modello aumentano con un aumento della perdita dell'assistente. Inoltre, l'assegnazione dell'etichetta guidata dal lead proposta dal modello YOLOv7 ha prestazioni migliori rispetto alle strategie di assegnazione del lead indipendente. 

Risultati YOLOv7

Sulla base degli esperimenti di cui sopra, ecco il risultato delle prestazioni di YOLov7 rispetto ad altri algoritmi di rilevamento degli oggetti. 

La figura sopra confronta il modello YOLOv7 con altri algoritmi di rilevamento degli oggetti e si può osservare chiaramente che YOLOv7 supera altri modelli di rilevamento degli oggetti in termini di Precisione media (AP) v/s interferenza batch

Inoltre, la figura seguente confronta le prestazioni di YOLOv7 rispetto ad altri algoritmi di rilevamento di obiezioni in tempo reale. Ancora una volta, YOLOv7 riesce ad altri modelli in termini di prestazioni complessive, precisione ed efficienza. 

Ecco alcune osservazioni aggiuntive dai risultati e dalle prestazioni di YOLOv7. 

  1. YOLOv7-Tiny è il modello più piccolo della famiglia YOLO, con oltre 6 milioni di parametri. YOLOv7-Tiny ha una precisione media del 35.2% e supera i modelli YOLOv4-Tiny con parametri comparabili. 
  2. Il modello YOLOv7 ha oltre 37 milioni di parametri e supera i modelli con parametri più elevati come YOLov4. 
  3. Il modello YOLOv7 ha il più alto tasso di mAP e FPS nell'intervallo da 5 a 160 FPS. 

Conclusione

YOLO o You Only Look Once è il modello di rilevamento di oggetti all'avanguardia nella moderna visione artificiale. L'algoritmo YOLO è noto per la sua elevata precisione ed efficienza e, di conseguenza, trova ampia applicazione nel settore del rilevamento di oggetti in tempo reale. Da quando il primo algoritmo YOLO è stato introdotto nel 2016, gli esperimenti hanno permesso agli sviluppatori di migliorare continuamente il modello. 

Il modello YOLOv7 è l'ultima aggiunta nella famiglia YOLO ed è l'algoritmo YOLO più potente fino ad oggi. In questo articolo abbiamo parlato dei fondamenti di YOLOv7 e cercato di spiegare cosa rende YOLOv7 così efficiente. 

"Un ingegnere di professione, uno scrittore a memoria". Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedito a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.