Kunstmatige intelligentie

YOLOv7: De meest geavanceerde objectdetectiealgoritme?

Published July 24, 2023

Updated April 4, 2026

Kunal Kejriwal

6 juli 2022 zal een mijlpaal in de geschiedenis van AI zijn, omdat op deze dag YOLOv7 werd uitgebracht. Sinds de lancering is YOLOv7 het onderwerp van gesprek in de community van Computer Vision-ontwikkelaars, en terecht. YOLOv7 wordt al beschouwd als een mijlpaal in de objectdetectie-industrie.

Kort na de publicatie van het YOLOv7-artikel bleek het de snelste en meest nauwkeurige real-time objectdetectiemodel te zijn. Maar hoe weet YOLOv7 zijn voorgangers te overtreffen? Wat maakt YOLOv7 zo efficiënt in het uitvoeren van computer vision-taken?

In dit artikel zullen we proberen het YOLOv7-model te analyseren en te zoeken naar het antwoord op de vraag waarom YOLOv7 nu de industrienorm wordt. Maar voordat we dat kunnen beantwoorden, moeten we eerst een korte geschiedenis van objectdetectie bekijken.

Wat is objectdetectie?

Objectdetectie is een tak van computer vision die objecten in een afbeelding of een videobestand identificeert en lokaliseert. Objectdetectie is de basis voor talloze toepassingen, waaronder zelfrijdende auto’s, bewaakte surveillance en zelfs robotica.

Een objectdetectiemodel kan worden onderverdeeld in twee verschillende categorieën, single-shot detectors, en multi-shot detectors.

Real-time objectdetectie

Om echt te begrijpen hoe YOLOv7 werkt, is het essentieel om YOLOv7’s hoofddoel te begrijpen, “Real-time objectdetectie”. Real-time objectdetectie is een sleutelcomponent van moderne computer vision. De real-time objectdetectiemodellen proberen objecten van interesse in real-time te identificeren en te lokaliseren. Real-time objectdetectiemodellen maakten het voor ontwikkelaars erg efficiënt om objecten van interesse in een bewegend kader, zoals een video of een live-surveillance-input, te volgen.

Real-time objectdetectiemodellen zijn eigenlijk een stap verder dan de conventionele beeld detectie modellen. Terwijl de eerste wordt gebruikt om objecten in videobestanden te volgen, lokaliseert de laatste objecten binnen een stationair kader, zoals een afbeelding.

Als gevolg daarvan zijn real-time objectdetectiemodellen erg efficiënt voor video-analyse, autonome voertuigen, object telling, multi-object tracking en veel meer.

Wat is YOLO?

YOLO of “Je kijkt maar één keer” is een familie van real-time objectdetectiemodellen. Het YOLO-concept werd voor het eerst geïntroduceerd in 2016 door Joseph Redmon, en het was meteen het onderwerp van gesprek omdat het veel sneller en nauwkeuriger was dan de bestaande objectdetectie-algoritmen. Het duurde niet lang voordat het YOLO-algoritme de standaard werd in de computer vision-industrie.

Het fundamentele concept dat het YOLO-algoritme voorstelt, is het gebruik van een end-to-end neurale netwerk met begrenzingsvakken en klassewaarschijnlijkheden om voorspellingen in real-time te doen. YOLO was anders dan het vorige objectdetectiemodel, omdat het een andere aanpak voorstelde om objectdetectie uit te voeren door classificatoren opnieuw te gebruiken.

De verandering in aanpak werkte, omdat YOLO al snel de industrienorm werd, aangezien het prestatieverschil tussen zichzelf en andere real-time objectdetectie-algoritmen aanzienlijk was. Maar wat was de reden waarom YOLO zo efficiënt was?

Wanneer YOLO wordt vergeleken met objectdetectie-algoritmen uit die tijd, gebruikten deze modellen Region Proposal Networks om mogelijke regio’s van interesse te detecteren. Het herkenningproces werd vervolgens afzonderlijk voor elke regio uitgevoerd. Als gevolg daarvan voerden deze modellen vaak meerdere iteraties uit op hetzelfde beeld, en vandaar de gebrek aan nauwkeurigheid en hogere uitvoeringsduur. Aan de andere kant gebruikt het YOLO-algoritme een enkele volledig verbonden laag om de voorspelling in één keer uit te voeren.

Hoe werkt YOLO?

Er zijn drie stappen die uitleggen hoe een YOLO-algoritme werkt.

Objectdetectie als een enkel regressieprobleem

Het YOLO-algoritme probeert objectdetectie te herformuleren als een enkel regressieprobleem, inclusief beeldpixels, tot klassewaarschijnlijkheden en begrenzingsvakcoördinaten. Vandaar dat het algoritme slechts één keer naar het beeld hoeft te kijken om de doelobjecten in de afbeeldingen te voorspellen en te lokaliseren.

Redeneert het beeld wereldwijd

Bovendien redeneert het YOLO-algoritme het beeld wereldwijd wanneer het voorspellingen doet. Het is anders dan regio-gebaseerde en schuiftechnieken, omdat het YOLO-algoritme het volledige beeld ziet tijdens de training en het testen op de dataset, en kan contextuele informatie over de klassen en hoe ze verschijnen, coderen.

Voordat YOLO, was Fast R-CNN een van de meest populaire objectdetectie-algoritmen, die de grotere context in het beeld niet kon zien, omdat het achtergrondpatches in een beeld voor een object aanzag. Wanneer YOLO wordt vergeleken met het Fast R-CNN-algoritme, is YOLO 50% nauwkeuriger wanneer het gaat om achtergrondfouten.

Generaliseert de voorstelling van objecten

Tenslotte probeert het YOLO-algoritme de voorstelling van objecten in een beeld te generaliseren. Als gevolg daarvan, wanneer een YOLO-algoritme werd uitgevoerd op een dataset met natuurlijke afbeeldingen en getest op de resultaten, overtrof YOLO de bestaande R-CNN-modellen met een grote marge. Het is omdat YOLO zeer generaliseerbaar is, de kans dat het breekt wanneer het wordt geïmplementeerd op onverwachte invoer of nieuwe domeinen was klein.

YOLOv7: Wat is er nieuw?

Nu we een basisbegrip hebben van wat real-time objectdetectiemodellen zijn en wat het YOLO-algoritme is, is het tijd om het YOLOv7-algoritme te bespreken.

Optimaliseert het trainingsproces

Het YOLOv7-algoritme probeert niet alleen het modelarchitectuur te optimaliseren, maar het probeert ook het trainingsproces te optimaliseren. Het probeert optimalisatiemodules en -methoden te gebruiken om de nauwkeurigheid van objectdetectie te verbeteren, de kosten van training te verhogen, terwijl de interferentiekosten worden gehandhaafd. Deze optimalisatiemodules kunnen worden aangeduid als een trainbare zak van freebies.

Coarse to Fine Lead Guided Label Assignment

Het YOLOv7-algoritme probeert een nieuwe Coarse to Fine Lead Guided Label Assignment te gebruiken in plaats van de conventionele Dynamic Label Assignment. Het is omdat met dynamische labeltoewijzing, het trainen van een model met meerdere uitvoerlagen enkele problemen veroorzaakt, waarvan de meest voorkomende is hoe dynamische doelen voor verschillende takken en hun uitvoer moeten worden toegewezen.

Model Re-Parameterization

Model re-parameterization is een belangrijk concept in objectdetectie, en het gebruik ervan wordt meestal gevolgd door enkele problemen tijdens de training. Het YOLOv7-algoritme probeert het concept van gradient propagation path te gebruiken om de model re-parameterization policies die van toepassing zijn op verschillende lagen in het netwerk te analyseren.

Extend en Compound Scaling

Het YOLOv7-algoritme introduceert ook de extended en compound scaling methoden om de parameters en berekeningen voor real-time objectdetectie efficiënt te gebruiken.

YOLOv7 : Gerelateerd werk

Real-time objectdetectie

YOLO is momenteel de industrienorm, en de meeste real-time objectdetectoren implementeren YOLO-algoritmen, en FCOS (Fully Convolutional One-Stage Object-Detection). Een state-of-the-art real-time objectdetector heeft meestal de volgende kenmerken

Sterkere en snellere netwerkarchitectuur.
Een effectieve functie-integratiemethode.
Een nauwkeurige objectdetectiemethode.
Een robuuste verliesfunctie.
Een efficiënte labeltoewijzingsmethode.
Een efficiënte trainingsmethode.

Het YOLOv7-algoritme gebruikt geen zelfsupervised learning- en distillatiemethoden die vaak grote hoeveelheden gegevens vereisen. In plaats daarvan gebruikt het YOLOv7-algoritme een trainbare zak van freebies-methode.

Model Re-Parameterization

Model re-parameterization technieken worden beschouwd als een ensemble-techniek die meerdere berekeningsmodules in een interferentie-stadium combineert. De techniek kan verder worden onderverdeeld in twee categorieën, model-niveau ensemble, en module-niveau ensemble.

Nu, om het uiteindelijke interferentiemodel te verkrijgen, gebruikt de model-niveau reparameterization-techniek twee praktijken. De eerste praktijk gebruikt verschillende trainingsgegevens om meerdere identieke modellen te trainen, en vervolgens de gewichten van de getrainde modellen te middelen. Als alternatief gebruikt de andere praktijk de gewichten van modellen tijdens verschillende iteraties te middelen.

Module-niveau reparameterization wint de laatste tijd aan populariteit, omdat het een module splitst in verschillende module-takken, of verschillende identieke takken tijdens de trainingsfase, en vervolgens deze verschillende takken integreert in een equivalente module tijdens de interferentie.

Echter, reparameterization-technieken kunnen niet op alle soorten architectuur worden toegepast. Het is de reden waarom het YOLOv7-algoritme nieuwe model reparameterization-technieken gebruikt om gerelateerde strategieën te ontwerpen die geschikt zijn voor verschillende architectuur.

Model Scaling

Model scaling is het proces van het schalen van een bestaand model zodat het past op verschillende compute-apparaten. Model scaling gebruikt meestal een verscheidenheid aan factoren zoals het aantal lagen (diepte), de grootte van de invoerafbeeldingen (resolutie), het aantal functiepiramiden (stadium), en het aantal kanalen (breedte). Deze factoren spelen een cruciale rol bij het waarborgen van een evenwichtige afweging voor netwerkparameters, interferentiesnelheid, berekening en nauwkeurigheid van het model.

Een van de meest gebruikelijke schaalmethoden is NAS of Network Architecture Search die automatisch zoekt naar geschikte schaalfactoren uit zoekmachines zonder enige ingewikkelde regels. Het belangrijkste nadeel van het gebruik van NAS is dat het een dure benadering is voor het zoeken naar geschikte schaalfactoren.

Bijna elk model reparameterization-model analyseert individuele en unieke schaalfactoren onafhankelijk, en optimaliseert deze factoren vervolgens onafhankelijk. Het is omdat de NAS-architectuur werkt met niet-gecorreleerde schaalfactoren.

Het is de moeite waard om op te merken dat concatenatie-gebaseerde modellen zoals VoVNet of DenseNet de invoerbreedte van enkele lagen veranderen wanneer de diepte van de modellen wordt geschaald. YOLOv7 werkt op een voorgestelde concatenatie-gebaseerde architectuur, en gebruikt daarom een samengestelde schaalmethode.

De bovenstaande figuur vergelijkt de uitgebreide efficiënte laagaggregatienetwerken (E-ELAN) van verschillende modellen. De voorgestelde E-ELAN-methode behoudt het gradienttransmissiepad van de oorspronkelijke architectuur, maar probeert de cardinaliteit van de toegevoegde functies te verhogen met behulp van groepsconvolutie. Het proces kan de functies die zijn geleerd door verschillende kaarten verbeteren, en kan de berekeningen en parameters nog efficiënter maken.

YOLOv7 Architectuur

Het YOLOv7-model gebruikt de YOLOv4-, YOLO-R- en de Scaled YOLOv4-modellen als basis. Het YOLOv7-model is het resultaat van de experimenten die zijn uitgevoerd op deze modellen om de resultaten te verbeteren en het model nauwkeuriger te maken.

Uitgebreide Efficiënte Laagaggregatienetwerk of E-ELAN

E-ELAN is het fundamentele bouwsteen van het YOLOv7-model, en het is afgeleid van bestaande modellen op netwerkefficiëntie, voornamelijk de ELAN.

De belangrijkste overwegingen bij het ontwerpen van een efficiënte architectuur zijn het aantal parameters, de berekeningsdichtheid en de hoeveelheid berekening. Andere modellen overwegen ook factoren zoals de invloed van de invoer-/uitvoerkanalenverhouding, takken in de netwerkarchitectuur, netwerksnelheid, het aantal elementen in de tensors van het convolutionale netwerk, en meer.

De CSPVoNet model overweegt niet alleen de bovenstaande parameters, maar analyseert ook het gradientpad om meer diverse functies te leren door de gewichten van verschillende lagen te activeren. De aanpak stelt de interferenties in staat om veel sneller en nauwkeuriger te zijn. De ELAN architectuur probeert een efficiënt netwerk te ontwerpen om het kortste langste gradientpad te controleren, zodat het netwerk effectiever kan leren en convergeren.

ELAN heeft al een stabiele staat bereikt, ongeacht het aantal gestapelde computationele blokken en de lengte van het gradientpad. De stabiele staat kan worden verbroken als computationele blokken onbeperkt worden gestapeld, en de parametergebruiksgraad zal afnemen. De voorgestelde E-ELAN-architectuur kan het probleem oplossen, omdat het expansie, shuffling en samenvoeging van cardinaliteit gebruikt om de leerbaarheid van het netwerk voortdurend te verbeteren, terwijl het oorspronkelijke gradientpad behoudt.

Bovendien, wanneer we de architectuur van E-ELAN vergelijken met ELAN, is het enige verschil in het computationele blok, terwijl de overgangslaagarchitectuur ongewijzigd blijft.

E-ELAN stelt voor om de cardinaliteit van de computationele blokken uit te breiden en de kanaalbreedte uit te breiden met behulp van groepsconvolutie. De functiekaart zal vervolgens worden berekend en geschud in groepen volgens de groepsparameter, en vervolgens worden samengevoegd. Het aantal kanalen in elke groep blijft hetzelfde als in de oorspronkelijke architectuur. Ten slotte worden de groepen functiekaarten toegevoegd om de cardinaliteit uit te voeren.

Model Scaling voor Concatenatie-gebaseerde Modellen

Model scaling helpt bij het aanpassen van attributen van de modellen die helpen bij het genereren van modellen volgens de vereisten en van verschillende schalen om te voldoen aan de verschillende interferentiesnelheden.

De figuur spreekt over model scaling voor verschillende concatenatie-gebaseerde modellen. Zoals u kunt zien in figuur (a) en (b), neemt de uitvoerbreedte van het computationele blok toe met een toename van de diepteschaal van de modellen. Als gevolg daarvan neemt de invoerbreedte van de transmissielagen toe. Als deze methoden worden toegepast op concatenatie-gebaseerde architectuur, wordt het schaalproces uitgevoerd in de diepte, en wordt het weergegeven in figuur (c).

Het kan dus worden geconcludeerd dat het niet mogelijk is om de schaalfactoren onafhankelijk te analyseren voor concatenatie-gebaseerde modellen, en dat ze in plaats daarvan samen moeten worden geanalyseerd. Daarom is het voor een concatenatie-gebaseerd model geschikt om de overeenkomstige samengestelde schaalmethode te gebruiken. Bovendien, wanneer de dieptefactor wordt geschaald, moet de uitvoerkanaal van het blok ook worden geschaald.

Trainbare Zak van Freebies

Een zak van freebies is een term die ontwikkelaars gebruiken om een set methoden of technieken te beschrijven die de trainingsstrategie of kosten kunnen veranderen in een poging om de modelnauwkeurigheid te verbeteren. Wat zijn deze trainbare zakken van freebies in YOLOv7? Laten we eens kijken.

Geplande Re-Parameterized Convolutie

Het YOLOv7-algoritme gebruikt gradientstroompropagatiepaden om te bepalen hoe een netwerk idealiter kan worden gecombineerd met de re-parameterized convolutie. Deze aanpak van YOLOv7 is een poging om RepConv-algoritme tegen te gaan, dat hoewel het goed heeft gepresteerd op het VGG-model, slecht presteert wanneer het rechtstreeks op de DenseNet- en ResNet-modellen wordt toegepast.

Om de verbindingen in een convolutionele laag te identificeren, combineert het RepConv-algoritme 3×3 convolutie en 1×1 convolutie. Als we het algoritme analyseren, de prestaties en de architectuur, zullen we zien dat RepConv de concatenatie in DenseNet en de residual in ResNet vernietigt.

De bovenstaande afbeelding toont een gepland re-parameterized model. Het kan worden gezien dat het YOLOv7-algoritme ontdekte dat een laag in het netwerk met concatenatie- of restverbindingen geen identiteitsverbinding in het RepConv-algoritme zou moeten hebben. Als gevolg daarvan is het acceptabel om over te schakelen naar RepConvN met geen identiteitsverbindingen.

Coarse voor Hulp en Fijn voor Leidende Verlies

Diepe supervisie is een tak van computerwetenschap die vaak wordt gebruikt in het trainingsproces van diepe netwerken. Het fundamentele principe van diepe supervisie is dat het een extra hulpkop toevoegt in de middelste lagen van het netwerk, samen met de ondiepe netwerkgewichten met assistentieverlies als gids. Het YOLOv7-algoritme verwijst naar de kop die verantwoordelijk is voor de definitieve uitvoer als de leidende kop, en de hulpkop is de kop die helpt bij de training.

Verder, YOLOv7 gebruikt een andere methode voor labeltoewijzing. Conventioneel is labeltoewijzing gebruikt om labels te genereren door rechtstreeks naar de grondwaarheid te verwijzen en op basis van een gegeven set regels. Echter, in recente jaren speelt de distributie en kwaliteit van de voorspellinginvoer een belangrijke rol bij het genereren van een betrouwbaar label. YOLOv7 genereert een zacht label van het object door de voorspellingen van de begrenzingsvak en de grondwaarheid te gebruiken.

Bovendien, de nieuwe labeltoewijzingsmethode van het YOLOv7-algoritme gebruikt de voorspellingen van de leidende kop om zowel de leidende als de hulpkop te leiden. De labeltoewijzingsmethode heeft twee voorgestelde strategieën.

Leidende Kop Geleide Label Assigner

De strategie maakt berekeningen op basis van de voorspellingen van de leidende kop en de grondwaarheid, en gebruikt vervolgens optimalisatie om zachte labels te genereren. Deze zachte labels worden vervolgens gebruikt als trainingsmodel voor zowel de leidende als de hulpkop.

De strategie werkt op de veronderstelling dat, omdat de leidende kop een grotere leerbaarheid heeft, de labels die het genereert meer representatief zouden moeten zijn en correleren tussen de bron en het doel.

Coarse-to-Fine Leidende Kop Geleide Label Assigner

Deze strategie maakt ook berekeningen op basis van de voorspellingen van de leidende kop en de grondwaarheid, en gebruikt vervolgens optimalisatie om zachte labels te genereren. Echter, er is een belangrijk verschil. In deze strategie zijn er twee sets zachte labels, grof niveau, en fijn label.

Het grove label wordt gegenereerd door de beperkingen van de positieve steekproef

toewijzingsproces te ontspannen, die meer roosters als positieve doelen behandelt. Het wordt gedaan om het risico te vermijden van het verlies van informatie vanwege de zwakkere leerbaarheid van de hulpkop.

De bovenstaande figuur legt de gebruik van een trainbare zak van freebies in het YOLOv7-algoritme uit. Het toont grof voor de hulpkop en fijn voor de leidende kop. Wanneer we een model met hulpkop (b) vergelijken met een normaal model (a), zullen we zien dat het schema in (b) een hulpkop heeft, terwijl het niet in (a) is.

Figuur (c) toont de gemeenschappelijke onafhankelijke labeltoewijzer, terwijl figuur (d) en figuur (e) respectievelijk de Leidende Geleide Assigner en de Coarse-to-Fine Leidende Kop Geleide Assigner weergeven die door YOLOv7 worden gebruikt.

Andere Trainbare Zak van Freebies

Naast de bovenstaande, gebruikt het YOLOv7-algoritme extra zakken van freebies, hoewel ze niet oorspronkelijk door hen zijn voorgesteld. Ze zijn

Batch Normalisatie in Conv-Bn-Activation Technology: Deze strategie wordt gebruikt om een convolutionele laag rechtstreeks te verbinden met de batchnormalisatielaag.
Impliete Kennis in YOLOR: Het YOLOv7-algoritme combineert de strategie met de convolutionele functiekaart.
EMA Model: Het EMA-model wordt gebruikt als een definitief referentiemodel in YOLOv7, hoewel het primaire gebruik ervan is om te worden gebruikt in de mean teacher-methode.

YOLOv7 : Experimenten

Experimentele Opstelling

Het YOLOv7-algoritme gebruikt de Microsoft COCO-dataset voor training en validatie van hun objectdetectiemodel, en niet alle van deze experimenten gebruiken een voorgetraind model. De ontwikkelaars gebruikten de 2017 trainingsdataset voor training en gebruikten de 2017 validatiedataset voor het selecteren van hyperparameters. Ten slotte worden de resultaten van de objectdetectie van YOLOv7 vergeleken met state-of-the-art algoritmen voor objectdetectie.

Ontwikkelaars ontwierpen een basismodel voor rand-GPU (YOLOv7-tiny), normale GPU (YOLOv7), en cloud-GPU (YOLOv7-W6). Bovendien gebruikt het YOLOv7-algoritme ook een basismodel voor model scaling volgens verschillende servicerequirementen en krijgt verschillende modellen. Voor het YOLOv7-algoritme wordt de stapelingsschaal uitgevoerd op de nek en worden voorgestelde samengestelde schaalmethoden gebruikt om de diepte en breedte van het model op te schalen.

Baselines

Het YOLOv7-algoritme gebruikt voorgaande YOLO-modellen en het YOLOR-objectdetectie-algoritme als baseline.

De bovenstaande figuur vergelijkt de baseline van het YOLOv7-model met andere objectdetectiemodellen, en de resultaten zijn vrij duidelijk. Wanneer het wordt vergeleken met het YOLOv4-algoritme, gebruikt YOLOv7 niet alleen 75% minder parameters, maar het gebruikt ook 15% minder berekening en heeft 0,4% hogere nauwkeurigheid.

Vergelijking met State-of-the-Art Object Detector Modellen

De bovenstaande figuur toont de resultaten wanneer YOLOv7 wordt vergeleken met state-of-the-art objectdetectiemodellen voor mobiele en algemene GPU’s. Het kan worden waargenomen dat de methode die door het YOLOv7-algoritme wordt voorgesteld, de beste snelheidsnauwkeurigheidsscore heeft.

Afleidingsstudie : Voorgestelde Samengestelde Schaalmethode

De bovenstaande figuur vergelijkt de resultaten van het gebruik van verschillende strategieën voor het opschalen van het model. De schaalmethode in het YOLOv7-model schaalt de diepte van het computationele blok op met 1,5 keer en schaalt de breedte op met 1,25 keer.

Wanneer het wordt vergeleken met een model dat alleen de diepte opschalt, presteert het YOLOv7-model beter met 0,5% terwijl het minder parameters en berekening gebruikt. Aan de andere kant, wanneer het wordt vergeleken met modellen die alleen de diepte opschalen, is de nauwkeurigheid van YOLOv7 verbeterd met 0,2%, maar moet het aantal parameters worden opgeschaald met 2,9% en de berekening met 1,2%.

Voorgestelde Geplande Re-Parameterized Model

Om de generaliteit van zijn voorgestelde re-parameterized model te verifiëren, gebruikt het YOLOv7-algoritme het op rest-gebaseerde en concatenatie-gebaseerde modellen voor verificatie. Voor de verificatieproces gebruikt het YOLOv7-algoritme 3-gestapelde ELAN voor het concatenatie-gebaseerde model en CSPDarknet voor het rest-gebaseerde model.

Voor het concatenatie-gebaseerde model vervangt het YOLOv7-algoritme de 3×3 convolutionele lagen in de 3-gestapelde ELAN met RepConv. De onderstaande figuur toont de gedetailleerde configuratie van het Geplande RepConv en 3-gestapelde ELAN.

Bovendien, wanneer het gaat om het rest-gebaseerde model, gebruikt het YOLOv7-algoritme een omgekeerde donkere blok, omdat het oorspronkelijke donkere blok geen 3×3 convolutioneel blok heeft. De onderstaande figuur toont de architectuur van de Omgekeerde CSPDarknet die de posities van de 3×3 en de 1×1 convolutionele lagen omkeert.

Voorgestelde Hulpverlies voor Hulpkop

Voor het hulpverlies voor de hulpkop, vergelijkt het YOLOv7-model de onafhankelijke labeltoewijzing voor de hulpkop en de leidende kop.

De bovenstaande figuur bevat de resultaten van de studie over de voorgestelde hulpkop. Het kan worden gezien dat de algehele prestatie van het model toeneemt met een toename van het hulpverlies. Bovendien presteert de leidende labeltoewijzing die door het YOLOv7-model wordt voorgesteld, beter dan onafhankelijke leidende toewijzingsstrategieën.

YOLOv7 Resultaten

Op basis van de bovenstaande experimenten, hier zijn de resultaten van YOLOv7’s prestaties wanneer het wordt vergeleken met andere objectdetectie-algoritmen.

De bovenstaande figuur vergelijkt het YOLOv7-model met andere objectdetectie-algoritmen, en het kan duidelijk worden waargenomen dat het YOLOv7-model andere objectdetectiemodellen overtreft in termen van Gemiddelde Precisie (AP) vs batchinterferentie.

Bovendien, de onderstaande figuur vergelijkt de prestatie van YOLOv7 vs andere real-time objectdetectie-algoritmen. Opnieuw overtreft YOLOv7 andere modellen in termen van de algehele prestatie, nauwkeurigheid en efficiëntie.

Hier zijn enkele extra observaties van de YOLOv7-resultaten en -prestaties.

Het YOLOv7-Tiny is het kleinste model in de YOLO-familie, met meer dan 6 miljoen parameters. Het YOLOv7-Tiny heeft een Gemiddelde Precisie van 35,2%, en het overtreft het YOLOv4-Tiny-model met vergelijkbare parameters.
Het YOLOv7-model heeft meer dan 37 miljoen parameters, en het overtreft modellen met meer parameters, zoals YOLov4.
Het YOLOv7-model heeft de hoogste mAP en FPS-snelheid in het bereik van 5 tot 160 FPS.

Conclusie

YOLO of “Je kijkt maar één keer” is het state-of-the-art objectdetectiemodel in de moderne computer vision. Het YOLO-algoritme is bekend om zijn hoge nauwkeurigheid en efficiëntie, en als gevolg daarvan vindt het uitgebreide toepassingen in de real-time objectdetectie-industrie. Sinds de eerste YOLO-algoritme werd geïntroduceerd in 2016, hebben experimenten ontwikkelaars toegestaan om het model continu te verbeteren.

Het YOLOv7-model is de laatste toevoeging aan de YOLO-familie, en het is het meest krachtige YOLO-algoritme tot nu toe. In dit artikel hebben we gesproken over de fundamenten van YOLOv7 en hebben we geprobeerd uit te leggen wat YOLOv7 zo efficiënt maakt.

Kunal Kejriwal

Een ingenieur van beroep, een schrijver van hart. Kunal is een technisch schrijver met een diepe liefde en begrip voor AI en ML, toegewijd aan het vereenvoudigen van complexe concepten in deze gebieden door middel van zijn boeiende en informatieve documentatie.