stub YOLOv7: Den mest avancerede objektgenkendelsesalgoritme? - Unite.AI
Følg os

Kunstig intelligens

YOLOv7: Den mest avancerede objektgenkendelsesalgoritme?

mm

Udgivet

 on

6. juli 2022 vil blive markeret som et vartegn i AI-historien, fordi det var på denne dag, hvor YOLOv7 blev udgivet. Lige siden lanceringen har YOLOv7 været det hotteste emne i Computer Vision-udviklerfællesskabet og af de rigtige grunde. YOLOv7 betragtes allerede som en milepæl i objektdetektionsindustrien. 

Kort efter YOLOv7 papir blev offentliggjort, det viste sig som den hurtigste og mest nøjagtige real-time indsigelsesdetektionsmodel. Men hvordan udkonkurrerer YOLOv7 sine forgængere? Hvad gør YOLOv7 så effektiv til at udføre computervisionsopgaver? 

I denne artikel vil vi forsøge at analysere YOLOv7-modellen, og forsøge at finde svaret på, hvorfor YOLOv7 nu er ved at blive industristandard? Men før vi kan svare på det, bliver vi nødt til at se på den korte historie om objektdetektering. 

Hvad er objektdetektion?

Objektdetektion er en gren inden for computersyn der identificerer og lokaliserer objekter i et billede eller en videofil. Objektdetektion er byggestenen i adskillige applikationer, herunder selvkørende biler, overvåget overvågning og endda robotteknologi. 

En objektdetektionsmodel kan klassificeres i to forskellige kategorier, enkeltskudsdetektorer, , multi-shot detektorer. 

Genkendelse af objekter i realtid

For virkelig at forstå, hvordan YOLOv7 fungerer, er det vigtigt for os at forstå YOLOv7s hovedmål, "Objektdetektion i realtid". Real Time Object Detection er en nøglekomponent i moderne computervision. Real Time Object Detection-modellerne forsøger at identificere og lokalisere objekter af interesse i realtid. Real Time Object Detection-modeller gjorde det virkelig effektivt for udviklere at spore objekter af interesse i en bevægelig frame som en video eller en live overvågningsinput. 

Real Time Object Detection-modeller er i det væsentlige et skridt foran de konventionelle billeddetekteringsmodeller. Mens førstnævnte bruges til at spore objekter i videofiler, lokaliserer og identificerer sidstnævnte objekter inden for en stationær ramme som et billede. 

Som et resultat er realtidsobjektdetektionsmodeller virkelig effektive til videoanalyse, autonome køretøjer, objekttælling, multi-objektsporing og meget mere. 

Hvad er YOLO?

YOLO eller "Du ser kun én gang” er en familie af objektdetekteringsmodeller i realtid. YOLO-konceptet blev først introduceret i 2016 af Joseph Redmon, og det blev snakken i byen næsten øjeblikkeligt, fordi det var meget hurtigere og meget mere præcist end de eksisterende objektdetekteringsalgoritmer. Det varede ikke længe, ​​før YOLO-algoritmen blev en standard i computervision-industrien. 

Det grundlæggende koncept, som YOLO-algoritmen foreslår, er at bruge et ende-til-ende neuralt netværk ved hjælp af grænsefelter og klassesandsynligheder til at lave forudsigelser i realtid. YOLO var forskellig fra den tidligere objektdetektionsmodel i den forstand, at den foreslog en anden tilgang til at udføre objektdetektering ved at genbruge klassifikatorer. 

Ændringen i tilgang virkede, da YOLO snart blev industristandarden, da ydeevnegabet mellem sig selv og andre realtidsobjektdetekteringsalgoritmer var betydelige. Men hvad var grunden til, at YOLO var så effektiv? 

Sammenlignet med YOLO brugte objektdetektionsalgoritmer dengang Region Proposal Networks til at opdage mulige områder af interesse. Genkendelsesprocessen blev derefter udført på hver region separat. Som et resultat udførte disse modeller ofte flere iterationer på det samme billede, og dermed den manglende nøjagtighed og højere udførelsestid. På den anden side bruger YOLO-algoritmen et enkelt fuldt tilsluttet lag til at udføre forudsigelsen på én gang. 

Hvordan virker YOLO?

Der er tre trin, der forklarer, hvordan en YOLO-algoritme fungerer. 

Reframing af objektdetektion som et enkelt regressionsproblem

YOLO-algoritmen forsøger at omformulere objektdetektering som et enkelt regressionsproblem, herunder billedpixel, til klassesandsynligheder og afgrænsningsbokskoordinater. Derfor skal algoritmen kun se på billedet én gang for at forudsige og lokalisere målobjekterne i billederne. 

Begrunder billedet globalt

Endvidere når YOLO-algoritmen laver forudsigelser, begrunder den billedet globalt. Det er forskelligt fra regionsforslagsbaserede og glidende teknikker, da YOLO-algoritmen ser det komplette billede under træning og test på datasættet og er i stand til at indkode kontekstuelle oplysninger om klasserne, og hvordan de fremstår. 

Før YOLO var Fast R-CNN en af ​​de mest populære objektdetekteringsalgoritmer, der ikke kunne se den større kontekst i billedet, fordi den plejede at forveksle baggrundspletter i et billede for et objekt. Sammenlignet med Fast R-CNN-algoritmen er YOLO 50 % mere nøjagtig når det kommer til baggrundsfejl. 

Generaliserer repræsentation af objekter

Endelig sigter YOLO-algoritmen også på at generalisere repræsentationerne af objekter i et billede. Som et resultat, da en YOLO-algoritme blev kørt på et datasæt med naturlige billeder og testet for resultaterne, overgik YOLO eksisterende R-CNN-modeller med en bred margin. Det er fordi YOLO er meget generaliserbart, chancerne for at det går i stykker, når det implementeres på uventede input eller nye domæner, var små. 

YOLOv7: Hvad er nyt?

Nu hvor vi har en grundlæggende forståelse af, hvad realtidsobjektdetektionsmodeller er, og hvad er YOLO-algoritmen, er det tid til at diskutere YOLOv7-algoritmen. 

Optimering af træningsprocessen

YOLOv7-algoritmen forsøger ikke kun at optimere modelarkitekturen, men den sigter også på at optimere træningsprocessen. Det sigter mod at bruge optimeringsmoduler og metoder til at forbedre nøjagtigheden af ​​objektdetektion, styrke omkostningerne til træning, samtidig med at interferensomkostningerne opretholdes. Disse optimeringsmoduler kan omtales som en træningspose med freebies. 

Grov til fin Lead Guided Label Assignment

YOLOv7-algoritmen planlægger at bruge en ny Coarse to Fine Lead Guided Label Assignment i stedet for den konventionelle Dynamisk etikettildeling. Det er sådan, fordi med dynamisk etikettildeling forårsager træning af en model med flere outputlag nogle problemer, hvor det mest almindelige er, hvordan man tildeler dynamiske mål for forskellige grene og deres output. 

Model re-parameterisering

Model re-parametrisering er et vigtigt koncept i objektdetektion, og dets brug følges generelt med nogle problemer under træning. YOLOv7-algoritmen planlægger at bruge konceptet gradientudbredelsessti for at analysere modellens re-parametriseringspolitikker gælder for forskellige lag i netværket. 

Udvid og sammensat skalering

YOLOv7-algoritmen introducerer også udvidede og sammensatte skaleringsmetoder at udnytte og effektivt bruge parametrene og beregningerne til realtidsgenkendelse af objekter. 

YOLOv7 : Relateret arbejde

Genkendelse af objekter i realtid

YOLO er i øjeblikket industristandarden, og de fleste af realtidsobjektdetektorerne implementerer YOLO-algoritmer og FCOS (Fully Convolutional One-Stage Object-Detection). En topmoderne realtidsobjektdetektor har normalt følgende egenskaber

  • Stærkere og hurtigere netværksarkitektur. 
  • En effektiv funktionsintegrationsmetode. 
  • En nøjagtig genstandsdetekteringsmetode. 
  • En robust tabsfunktion. 
  • En effektiv etikettildelingsmetode. 
  • En effektiv træningsmetode. 

YOLOv7-algoritmen bruger ikke selvovervågede indlærings- og destillationsmetoder, der ofte kræver store mængder data. Omvendt bruger YOLOv7-algoritmen en træningsbar bag-of-freebie-metode. 

Model re-parameterisering

Model re-parameterization teknikker betragtes som en ensemble teknik, der fusionerer flere beregningsmæssige moduler i en interferens fase. Teknikken kan yderligere opdeles i to kategorier, ensemble på modelniveau, , ensemble på modulniveau. 

Nu, for at opnå den endelige interferensmodel, bruger genparametriseringsteknikken på modelniveau to praksisser. Den første øvelse bruger forskellige træningsdata til at træne adskillige identiske modeller, og derefter gennemsnittet vægten af ​​de trænede modeller. Alternativt tager den anden praksis gennemsnit af modellernes vægte under forskellige iterationer. 

Omparametrering på modulniveau vinder enorm popularitet for nylig, fordi det opdeler et modul i forskellige modulgrene eller forskellige identiske grene under træningsfasen, og derefter fortsætter med at integrere disse forskellige grene i et tilsvarende modul mens interferens. 

Re-parameteriseringsteknikker kan dog ikke anvendes på alle slags arkitektur. Det er grunden til, at YOLOv7-algoritmen bruger nye modelgenparametriseringsteknikker til at designe relaterede strategier velegnet til forskellige arkitekturer. 

Modelskalering

Modelskalering er processen med at skalere en eksisterende model op eller ned, så den passer på tværs af forskellige computerenheder. Modelskalering bruger generelt en række forskellige faktorer som antallet af lag(dybde), størrelse på inputbilleder(resolution), antal featurepyramider(etape), og antal kanaler(bredde). Disse faktorer spiller en afgørende rolle for at sikre en afbalanceret afvejning af netværksparametre, interferenshastighed, beregning og modellens nøjagtighed. 

En af de mest brugte skaleringsmetoder er NAS eller Network Architecture Search der automatisk søger efter passende skaleringsfaktorer fra søgemaskiner uden komplicerede regler. Den største ulempe ved at bruge NAS er, at det er en dyr tilgang til at søge efter passende skaleringsfaktorer. 

Næsten hver model omparameteriseringsmodel analyserer individuelle og unikke skaleringsfaktorer uafhængigt og optimerer desuden selv disse faktorer uafhængigt. Det er fordi NAS-arkitekturen arbejder med ikke-korrelerede skaleringsfaktorer. 

Det er værd at bemærke, at sammenkædningsbaserede modeller som VoVNet or DenseNet ændre inputbredden på nogle få lag, når dybden af ​​modellerne skaleres. YOLOv7 arbejder på en foreslået sammenkædningsbaseret arkitektur og bruger derfor en sammensat skaleringsmetode.

Figuren nævnt ovenfor sammenligner udvidede effektive lagaggregeringsnetværk (E-ELAN) af forskellige modeller. Den foreslåede E-ELAN-metode fastholder gradienttransmissionsstien for den originale arkitektur, men sigter mod at øge kardinaliteten af ​​de tilføjede funktioner ved hjælp af gruppefoldning. Processen kan forbedre de funktioner, der læres af forskellige kort, og kan yderligere gøre brugen af ​​beregninger og parametre mere effektiv. 

YOLOv7 arkitektur

YOLOv7-modellen bruger YOLOv4-, YOLO-R- og Scaled YOLOv4-modellerne som sin base. YOLOv7 er et resultat af de eksperimenter, der er udført på disse modeller for at forbedre resultaterne og gøre modellen mere nøjagtig. 

Extended Efficient Layer Aggregation Network eller E-ELAN

E-ELAN er den grundlæggende byggesten i YOLOv7-modellen, og den er afledt af allerede eksisterende modeller for netværkseffektivitet, primært ELAN. 

De vigtigste overvejelser ved design af en effektiv arkitektur er antallet af parametre, beregningstæthed og mængden af ​​beregninger. Andre modeller overvejer også faktorer som indflydelse af input/output-kanalforhold, grene i arkitekturnetværket, netværksinterferenshastighed, antallet af elementer i tensorerne af foldningsnetværk og mere. 

CSPvoNet Modellen tager ikke kun hensyn til de ovennævnte parametre, men den analyserer også gradientstien for at lære flere forskellige funktioner ved at aktivere vægten af ​​forskellige lag. Fremgangsmåden gør det muligt for interferenserne at være meget hurtigere og nøjagtige. Det ELAN Arkitektur sigter mod at designe et effektivt netværk til at kontrollere den korteste længste gradientvej, så netværket kan være mere effektivt til at lære og konvergere. 

ELAN har allerede nået et stabilt stadie uanset stablingsantallet af beregningsblokke og gradientvejlængde. Den stabile tilstand kan blive ødelagt, hvis beregningsblokke stables ubegrænset, og parameterudnyttelseshastigheden vil falde. Det foreslået E-ELAN-arkitektur kan løse problemet, da den bruger udvidelse, blanding og fletningskardinalitet for løbende at forbedre netværkets indlæringsevne og samtidig bevare den oprindelige gradientsti. 

Desuden, når man sammenligner arkitekturen af ​​E-ELAN med ELAN, den eneste forskel er i beregningsblokken, mens overgangslagets arkitektur er uændret. 

E-ELAN foreslår at udvide kardinaliteten af ​​beregningsblokkene og udvide kanalen ved at bruge gruppe konvolution. Funktionskortet vil derefter blive beregnet og blandet i grupper i henhold til gruppeparameteren og vil derefter blive kædet sammen. Antallet af kanaler i hver gruppe vil forblive det samme som i den originale arkitektur. Til sidst vil grupperne af feature maps blive tilføjet for at udføre kardinalitet. 

Modelskalering for sammenkædningsbaserede modeller

Modelskalering hjælper justering af modellernes egenskaber der hjælper med at generere modeller i henhold til kravene og af forskellige skalaer for at imødekomme de forskellige interferenshastigheder. 

Figuren taler om modelskalering for forskellige sammenkædningsbaserede modeller. Som du kan i figur (a) og (b), øges udgangsbredden af ​​beregningsblokken med en stigning i modellernes dybdeskalering. Som følge heraf øges indgangsbredden af ​​transmissionslagene. Hvis disse metoder er implementeret på sammenkædningsbaseret arkitektur, udføres skaleringsprocessen i dybden, og den er afbildet i figur (c). 

Det kan således konkluderes, at det ikke er muligt at analysere skaleringsfaktorerne uafhængigt for sammenkædningsbaserede modeller, og snarere skal de betragtes eller analyseres sammen. Derfor, for en sammenkædningsbaseret model, det er velegnet at bruge den tilsvarende sammensatte model skaleringsmetode. Derudover, når dybdefaktoren skaleres, skal udgangskanalen for blokken også skaleres. 

Trænbar pose gratis 

En pose gratis er et udtryk, som udviklere bruger til at beskrive et sæt metoder eller teknikker, der kan ændre træningsstrategien eller omkostningerne i et forsøg på at øge modellens nøjagtighed. Så hvad er disse træningsposer med freebies i YOLOv7? Lad os kigge på det. 

Planlagt re-parameteriseret foldning

YOLOv7-algoritmen bruger gradientflow-udbredelsesstier til at bestemme hvordan man ideelt set kombinerer et netværk med den re-parameteriserede foldning. Denne tilgang fra YOLov7 er et forsøg på at imødegå RepConv algoritme at selvom den har fungeret roligt på VGG-modellen, yder den dårligt, når den anvendes direkte på DenseNet- og ResNet-modellerne. 

For at identificere forbindelserne i et foldningslag RepConv-algoritmen kombinerer 3×3 foldning og 1×1 foldning. Hvis vi analyserer algoritmen, dens ydeevne og arkitekturen vil vi observere, at RepConv ødelægger sammenkædning i DenseNet, og det resterende i ResNet

Billedet ovenfor viser en planlagt re-parameteriseret model. Det kan ses, at YOLov7-algoritmen fandt, at et lag i netværket med sammenkædning eller resterende forbindelser ikke skulle have en identitetsforbindelse i RepConv-algoritmen. Som følge heraf er det acceptabelt at skifte med RepConvN uden identitetsforbindelser. 

Grov for hjælpe og fin for blytab

Dyb Supervision er en gren inden for datalogi, der ofte finder sin anvendelse i træningsprocessen af ​​dybe netværk. Det grundlæggende princip for dybt tilsyn er, at det tilføjer et ekstra hjælpehoved i netværkets midterste lag sammen med de lavvandede netværksvægte med assistenttab som guide. YOLOv7-algoritmen refererer til hovedet, der er ansvarlig for det endelige output, som hovedhovedet, og hjælpehovedet er hovedet, der hjælper med træning. 

YOLOv7 bruger en anden metode til etikettildeling. Konventionelt er etikettildeling blevet brugt til at generere etiketter ved at referere direkte til grundsandheden og på grundlag af et givet sæt regler. I de senere år har distributionen og kvaliteten af ​​forudsigelsesinputtet imidlertid spillet en vigtig rolle for at generere en pålidelig etiket. YOLOv7 genererer en blød etiket af objektet ved at bruge forudsigelserne af bounding box og ground truth. 

Ydermere bruger den nye etikettildelingsmetode i YOLOv7-algoritmen ledningshovedets forudsigelser til at guide både ledningen og hjælpehovedet. Etikettildelingsmetoden har to foreslåede strategier. 

Lead Head Guided Label Assigner

Strategien laver beregninger på baggrund af lead-hovedets forudsigelsesresultater og grundsandheden og bruger derefter optimering til at generere bløde etiketter. Disse bløde etiketter bruges derefter som træningsmodel for både blyhovedet og hjælpehovedet. 

Strategien fungerer ud fra den antagelse, at fordi hovedet har en større indlæringsevne, bør de etiketter, den genererer, være mere repræsentative og korrelere mellem kilden og målet. 

Grov-til-Fin Lead Head Guided Label Assigner

Denne strategi laver også beregninger på basis af lead-hovedets forudsigelsesresultater og grundsandheden og bruger derefter optimering til at generere bløde etiketter. Der er dog en væsentlig forskel. I denne strategi er der to sæt bløde etiketter, groft niveau, , fint mærke. 

Den grove mærkning genereres ved at slække på begrænsningerne for den positive prøve

tildelingsproces, der behandler flere grids som positive mål. Det er gjort for at undgå risikoen for at miste information på grund af hjælpehovedets svagere indlæringsstyrke. 

Figuren ovenfor forklarer brugen af ​​en træningspose med freebies i YOLOv7-algoritmen. Den viser groft for hjælpehovedet og fint for blyhovedet. Når vi sammenligner en model med hjælpehoved(b) med den normale model (a), vil vi observere, at skemaet i (b) har et hjælpehoved, mens det ikke er i (a). 

Figur (c) viser den almindelige uafhængige etikettildeler, mens figur (d) og figur (e) henholdsvis repræsenterer Lead Guided Assigner og Coarse-toFine Lead Guided Assigner, der bruges af YOLOv7.  

Anden træningspose med freebies

Ud over dem, der er nævnt ovenfor, bruger YOLOv7-algoritmen yderligere sække med freebies, selvom de ikke oprindeligt blev foreslået af dem. De er

  • Batchnormalisering i Conv-Bn-Activation Technology: Denne strategi bruges til at forbinde et foldningslag direkte til batchnormaliseringslaget. 
  • Implicit viden i YOLOR: YOLOv7 kombinerer strategien med Convolutional feature map. 
  • EMA model: EMA-modellen bruges som en endelig referencemodel i YOLOv7, selvom dens primære anvendelse skal bruges i middellærermetoden. 

YOLOv7 : Eksperimenter

Forsøgsopstilling

YOLOv7-algoritmen bruger Microsoft COCO-datasæt til træning og validering deres objektdetektionsmodel, og ikke alle disse eksperimenter bruger en forudtrænet model. Udviklerne brugte 2017-togdatasættet til træning og brugte 2017-valideringsdatasættet til at vælge hyperparametrene. Endelig sammenlignes ydeevnen af ​​YOLOv7 objektdetektionsresultaterne med state of the art algoritmer til objektdetektion. 

Udviklere designet en grundlæggende model til edge GPU (YOLOv7-tiny), normal GPU (YOLOv7) og cloud GPU (YOLOv7-W6). Ydermere bruger YOLOv7-algoritmen også en grundlæggende model til modelskalering i henhold til forskellige servicekrav og får forskellige modeller. For YOLOv7-algoritmen udføres stak-skaleringen på halsen, og foreslåede forbindelser bruges til at opskalere dybden og bredden af ​​modellen. 

basislinjer

YOLOv7-algoritmen bruger tidligere YOLO-modeller og YOLOR-objektdetektionsalgoritmen som sin baseline.

Ovenstående figur sammenligner basislinjen for YOLOv7-modellen med andre objektdetekteringsmodeller, og resultaterne er ret tydelige. Når man sammenligner med YOLOv4-algoritmen, YOLOv7 bruger ikke kun 75 % færre parametre, men den bruger også 15 % mindre beregning og har 0.4 % højere nøjagtighed. 

Sammenligning med state of the art objektdetektormodeller

Ovenstående figur viser resultaterne, når YOLOv7 sammenlignes med avancerede objektdetektionsmodeller til mobile og generelle GPU'er. Det kan observeres, at metoden foreslået af YOLOv7-algoritmen har den bedste hastighed-nøjagtighed afvejningsscore. 

Ablationsundersøgelse: Foreslået sammensætningsskaleringsmetode

Figuren vist ovenfor sammenligner resultaterne af at bruge forskellige strategier til opskalering af modellen. Skaleringsstrategien i YOLOv7-modellen skalerer dybden af ​​beregningsblokken op med 1.5 gange og skalerer bredden med 1.25 gange. 

Sammenlignet med en model, der kun skalerer dybden op, klarer YOLOv7-modellen sig bedre med 0.5 %, mens den bruger færre parametre og regnekraft. På den anden side, sammenlignet med modeller, der kun skalerer dybden op, er YOLOv7s nøjagtighed forbedret med 0.2 %, men antallet af parametre skal skaleres med 2.9 % og beregningen med 1.2 %. 

Foreslået planlagt re-parameteriseret model

For at verificere generaliteten af ​​dens foreslåede re-parameteriserede model, YOLOv7-algoritmen bruger den på restbaserede og sammenkædningsbaserede modeller til verifikation. Til verifikationsprocessen bruger YOLOv7-algoritmen 3-stablet ELAN for den sammenkædningsbaserede model og CSPDarknet for den restbaserede model. 

For den sammenkædningsbaserede model erstatter algoritmen de 3×3 foldningslag i det 3-stablede ELAN med RepConv. Figuren nedenfor viser den detaljerede konfiguration af Planned RepConv og 3-stablet ELAN. 

Ydermere, når man beskæftiger sig med den residual-baserede model, bruger YOLOv7-algoritmen en omvendt mørk blok, fordi den originale mørke blok ikke har en 3×3 foldningsblok. Nedenstående figur viser arkitekturen af ​​det omvendte CSPDarknet, der vender positionerne af 3×3 og 1×1 foldningslaget. 

Foreslået assistenttab for hjælpechef

For assistenttabet for hjælpehovedet sammenligner YOLOv7-modellen den uafhængige etikettildeling for hjælpehovedet og ledningshovedmetoderne. 

Ovenstående figur indeholder resultaterne af undersøgelsen af ​​det foreslåede hjælpehoved. Det kan ses, at modellens overordnede præstation stiger med en stigning i assistenttabet. Ydermere yder den lead guided label-tildeling, der foreslås af YOLOv7-modellen, bedre end uafhængige lead-tildelingsstrategier. 

YOLOv7 resultater

Baseret på ovenstående eksperimenter er her resultatet af YOLov7's ydeevne sammenlignet med andre objektdetekteringsalgoritmer. 

Ovenstående figur sammenligner YOLOv7-modellen med andre objektdetekteringsalgoritmer, og det kan tydeligt observeres, at YOLOv7 overgår andre indvendingsdetektionsmodeller mht. Gennemsnitlig præcision (AP) v/s batchinterferens

Desuden sammenligner nedenstående figur ydeevnen af ​​YOLOv7 v/s andre realtidsregistreringsalgoritmer. Endnu en gang efterfølger YOLOv7 andre modeller med hensyn til den samlede ydeevne, nøjagtighed og effektivitet. 

Her er nogle yderligere observationer fra YOLOv7 resultater og præstationer. 

  1. YOLOv7-Tiny er den mindste model i YOLO-familien med over 6 millioner parametre. YOLOv7-Tiny har en gennemsnitlig præcision på 35.2 %, og den overgår YOLOv4-Tiny-modellerne med sammenlignelige parametre. 
  2. YOLOv7-modellen har over 37 millioner parametre, og den overgår modeller med højere parametre som YOLov4. 
  3. YOLOv7-modellen har den højeste mAP- og FPS-hastighed i området fra 5 til 160 FPS. 

Konklusion

YOLO eller You Only Look Once er topmoderne objektgenkendelsesmodel i moderne computervision. YOLO-algoritmen er kendt for sin høje nøjagtighed og effektivitet, og som et resultat finder den omfattende anvendelse i realtids-objektdetektionsindustrien. Lige siden den første YOLO-algoritme blev introduceret tilbage i 2016, har eksperimenter gjort det muligt for udviklere at forbedre modellen løbende. 

YOLOv7-modellen er den seneste tilføjelse i YOLO-familien, og det er den mest kraftfulde YOLo-algoritme til dato. I denne artikel har vi talt om det grundlæggende i YOLOv7 og forsøgt at forklare, hvad der gør YOLOv7 så effektiv. 

"En ingeniør af profession, en forfatter udenad". Kunal er en teknisk skribent med en dyb kærlighed og forståelse for AI og ML, dedikeret til at forenkle komplekse begreber på disse områder gennem sin engagerende og informative dokumentation.