stubbur YOLOv7: Háþróaðasta reiknirit til að finna hluti? - Unite.AI
Tengja við okkur

Artificial Intelligence

YOLOv7: Háþróaðasta reiknirit til að finna hluti?

mm

Útgefið

 on

6. júlí 2022 verður merktur sem kennileiti í gervigreindarsögunni vegna þess að það var á þessum degi þegar YOLOv7 kom út. Allt frá því að hann var settur á markað hefur YOLOv7 verið heitasta umræðuefnið í tölvusjón þróunarsamfélaginu og af réttum ástæðum. Nú þegar er litið á YOLOv7 sem tímamót í hlutgreiningariðnaðinum. 

Stuttu eftir YOLOv7 blaðið var gefið út, það kom upp sem hraðasta og nákvæmasta rauntímamótmælaskynjunarlíkanið. En hvernig keppir YOLOv7 framúr forverum sínum? Hvað gerir YOLOv7 svo skilvirkan í að framkvæma tölvusjónverkefni? 

Í þessari grein munum við reyna að greina YOLOv7 líkanið og reyna að finna svarið við því hvers vegna YOLOv7 er nú að verða iðnaðarstaðall? En áður en við getum svarað því verðum við að skoða stutta sögu hlutgreiningar. 

Hvað er hlutgreining?

Hlutagreining er grein í tölvusjón sem auðkennir og staðsetur hluti í mynd eða myndbandsskrá. Hlutagreining er byggingareining fjölmargra forrita, þar á meðal sjálfkeyrandi bíla, vöktað eftirlit og jafnvel vélfærafræði. 

Hlutagreiningarlíkan er hægt að flokka í tvo mismunandi flokka, eins skot skynjarar, og fjölskotaskynjarar. 

Rauntíma hlutgreining

Til að skilja hvernig YOLOv7 virkar, er nauðsynlegt fyrir okkur að skilja meginmarkmið YOLOv7, "Rauntíma hlutgreining“. Rauntímahlutgreining er lykilþáttur nútíma tölvusjónar. Rauntímahlutagreiningarlíkönin reyna að bera kennsl á og staðsetja áhugaverða hluti í rauntíma. Rauntíma hlutgreiningarlíkön gerðu það mjög skilvirkt fyrir þróunaraðila að fylgjast með áhugaverðum hlutum í hreyfanlegum ramma eins og myndbandi, eða lifandi eftirlitsinntak. 

Rauntíma hlutgreiningarlíkön eru í meginatriðum skrefi á undan hefðbundnum myndgreiningarlíkönum. Þó að hið fyrra sé notað til að rekja hluti í myndbandsskrám, þá finnur og auðkennir hið síðara hluti innan kyrrstæðs ramma eins og mynd. 

Fyrir vikið eru rauntíma hlutgreiningarlíkön mjög dugleg fyrir myndbandsgreiningar, sjálfstýrð farartæki, talningu hluta, rakningu margra hluta og margt fleira. 

Hvað er YOLO?

YOLO eða “Þú lítur bara einu sinni” er fjölskylda rauntíma mótmælagreiningarlíkana. YOLO hugtakið var fyrst kynnt árið 2016 af Joseph Redmon og það var umtalsefni bæjarins næstum samstundis vegna þess að það var miklu fljótlegra og mun nákvæmara en núverandi reiknirit til að finna hluti. Það leið ekki á löngu þar til YOLO reikniritið varð staðall í tölvusjóngeiranum. 

Grundvallarhugtakið sem YOLO reikniritið leggur til er að nota tauganet frá enda til enda með því að nota afmarkandi reiti og flokkslíkur til að gera spár í rauntíma. YOLO var frábrugðið fyrra hlutgreiningarlíkani í þeim skilningi að það lagði til aðra nálgun til að framkvæma hlutgreiningu með því að endurnota flokkara. 

Breytingin á nálgun virkaði þar sem YOLO varð fljótlega staðallinn í iðnaði þar sem frammistöðubilið á milli sjálfs síns og annarra rauntímahlutagreiningarreiknirita var verulegt. En hver var ástæðan fyrir því að YOLO var svo duglegur? 

Samanborið við YOLO notuðu reiknirit til greiningar hluta á þeim tíma svæðistillögunet til að greina möguleg áhugaverð svæði. Viðurkenningarferlið var síðan framkvæmt á hverju svæði fyrir sig. Þess vegna gerðu þessi líkön oft margar endurtekningar á sömu myndinni, og þar af leiðandi skortur á nákvæmni og lengri framkvæmdartíma. Á hinn bóginn notar YOLO reikniritið eitt fulltengt lag til að framkvæma spána í einu. 

Hvernig virkar YOLO?

Það eru þrjú skref sem útskýra hvernig YOLO reiknirit virkar. 

Endurramma hlutgreiningu sem stakt aðhvarfsvandamál

The YOLO reiknirit reynir að endurgera hlutgreiningu sem eitt aðhvarfsvandamál, þar á meðal myndpixlar, í flokkslíkur og hnit afmörkunarkassa. Þess vegna þarf reikniritið að skoða myndina aðeins einu sinni til að spá fyrir um og staðsetja markhlutina á myndunum. 

Ástæður fyrir myndinni á heimsvísu

Enn fremur, þegar YOLO reiknirit spáir, rökstyður það myndina á heimsvísu. Það er ólíkt svæðisbundnum tillögugerðum og rennitækni þar sem YOLO reikniritið sér heildarmyndina við þjálfun og prófun á gagnasafninu og er fær um að umrita samhengisupplýsingar um bekkina og hvernig þeir birtast. 

Fyrir YOLO var Fast R-CNN eitt vinsælasta reiknirit til að skynja hluti sem gat ekki séð stærra samhengi í myndinni vegna þess að það notaði til að misskilja bakgrunnsblettir í mynd fyrir hlut. Í samanburði við Fast R-CNN reikniritið er YOLO 50% nákvæmari þegar kemur að bakgrunnsvillum. 

Alhæfir framsetningu hluta

Að lokum miðar YOLO reikniritið einnig að því að alhæfa framsetningu hlutar í mynd. Þar af leiðandi, þegar YOLO reiknirit var keyrt á gagnasafni með náttúrulegum myndum, og prófað fyrir niðurstöðurnar, stóð YOLO miklu betur en núverandi R-CNN módel. Það er vegna þess að YOLO er mjög alhæfanlegt, líkurnar á því að það brotni niður þegar það var innleitt á óvænt inntak eða ný lén voru litlar. 

YOLOv7: Hvað er nýtt?

Nú þegar við höfum grunnskilning á því hvað rauntíma hlutgreiningarlíkön eru og hvað er YOLO reikniritið, þá er kominn tími til að ræða YOLOv7 reikniritið. 

Hagræðing á þjálfunarferlinu

YOLOv7 reikniritið reynir ekki aðeins að fínstilla líkanarkitektúrinn heldur miðar það einnig að því að hámarka þjálfunarferlið. Það miðar að því að nota hagræðingareiningar og aðferðir til að bæta nákvæmni hlutgreiningar, styrkja kostnað við þjálfun, en viðhalda truflunarkostnaði. Þessar hagræðingareiningar má vísa til sem a þjálfunarpoki af ókeypis vörum. 

Gróft til fínt blý leiðsögn merkimiðaúthlutun

YOLOv7 reikniritið stefnir að því að nota nýtt gróft til fínt blý stýrt merkimiðaúthlutun í stað hefðbundins Dynamic Label Assignment. Það er svo vegna þess að með kraftmikilli úthlutun merkimiða veldur þjálfun líkans með mörgum framleiðslulögum nokkrum vandamálum, það algengasta er hvernig á að úthluta kraftmiklum markmiðum fyrir mismunandi greinar og úttak þeirra. 

Re-parameterization líkan

Endurstilling líkans er mikilvægt hugtak í hlutgreiningu og notkun þess er almennt fylgt eftir með sumum vandamálum meðan á þjálfun stendur. YOLOv7 reikniritið ætlar að nota hugmyndina um halla útbreiðslu leið til að greina líkan endur-parametrization stefnu gilda um mismunandi lög í netinu. 

Lengja og samsett skala

YOLOv7 reikniritið kynnir einnig víðtækar og samsettar mælingaraðferðir til að nýta og nota færibreytur og útreikninga á áhrifaríkan hátt til að greina hluti í rauntíma. 

YOLOv7: Tengd vinna

Rauntíma hlutgreining

YOLO er sem stendur iðnaðarstaðallinn og flestir rauntímahlutskynjarar nota YOLO reiknirit og FCOS (Fully Convolutional One-Stage Object-Detection). Nýjasta rauntímahlutskynjari hefur venjulega eftirfarandi eiginleika

  • Sterkari og hraðari netarkitektúr. 
  • Áhrifarík sameining aðferð. 
  • Nákvæm hlutgreiningaraðferð. 
  • Öflug tapaðgerð. 
  • Skilvirk aðferð við úthlutun merkimiða. 
  • Skilvirk þjálfunaraðferð. 

YOLOv7 reikniritið notar ekki sjálfstætt eftirlits- og eimingaraðferðir sem krefjast oft mikið magn af gögnum. Aftur á móti notar YOLOv7 reikniritið þjálfaðan poka-of-freebies aðferð. 

Re-parameterization líkan

Litið er á aðferðir við endurstillingu líkana sem samstæðutækni sem sameinar margar reiknieiningar á truflunarstigi. Hægt er að skipta tækninni frekar í tvo flokka, fyrirmyndarhópur, og ensemble á einingastigi. 

Nú, til að fá endanlegt truflunarlíkan, notar endurstillingartæknin á líkanastigi tvær aðferðir. Fyrsta æfingin notar mismunandi þjálfunargögn til að þjálfa mörg eins módel, og síðan er meðaltal þyngd þjálfaðra módela. Að öðrum kosti tekur hin æfingin meðaltal af vægi líkana við mismunandi endurtekningar. 

Endurstilling einingarstigs nýtur gríðarlegra vinsælda nýlega vegna þess að hún skiptir einingu í mismunandi greinar eininga, eða mismunandi eins greinar á þjálfunarstiginu, og heldur síðan áfram að samþætta þessar mismunandi greinar í jafngilda einingu á meðan truflanir eru. 

Hins vegar er ekki hægt að beita endurstillingaraðferðum á alls kyns arkitektúr. Það er ástæðan fyrir því að YOLOv7 reiknirit notar nýjar endurstillingaraðferðir til að hanna tengdar aðferðir hentugur fyrir mismunandi arkitektúr. 

Stærð módel

Líkönsstærð er ferlið við að stækka eða minnka núverandi líkan svo það passi yfir mismunandi tölvutæki. Stærð líkans notar almennt ýmsa þætti eins og fjölda laga(dýpt), stærð inntaksmynda(upplausn), fjöldi eiginleika pýramída(stigi), og fjöldi rása(breidd). Þessir þættir gegna mikilvægu hlutverki við að tryggja jafnvægi milli netbreyta, truflunarhraða, útreikninga og nákvæmni líkansins. 

Ein algengasta mælikvarðaaðferðin er NAS eða Network Architecture Search sem leitar sjálfkrafa að viðeigandi stærðarstuðlum úr leitarvélum án flókinna reglna. Helsti gallinn við að nota NAS er að það er dýr nálgun til að leita að viðeigandi stærðarstuðlum. 

Næstum sérhvert líkan endurbreytibreytileika greinir einstaka og einstaka mælikvarðastuðla sjálfstætt, og ennfremur, fínstillir jafnvel þessa þætti sjálfstætt. Það er vegna þess að NAS arkitektúrinn vinnur með stærðarstuðlum sem ekki eru tengdir. 

Það er athyglisvert að líkön sem byggjast á samtengingu eins og VoVNet or Þéttnet breyta inntaksbreidd nokkurra laga þegar dýpt líkananna er kvarðað. YOLOv7 vinnur að fyrirhuguðum arkitektúr sem byggir á samtengingu og notar þess vegna samsetta mælikvarða.

Myndin sem nefnd er hér að ofan ber saman útvíkkuð skilvirk lagsöfnunarnet (E-ELAN) af mismunandi gerðum. Fyrirhuguð E-ELAN aðferð viðheldur hallaflutningsleið upprunalega arkitektúrsins, en miðar að því að auka aðalgildi viðbótareiginleika með því að nota hópsnúning. Ferlið getur aukið eiginleikana sem lært eru af mismunandi kortum og getur enn frekar gert notkun útreikninga og breytu skilvirkari. 

YOLOv7 arkitektúr

YOLOv7 líkanið notar YOLOv4, YOLO-R og Scaled YOLOv4 gerðirnar sem grunn. YOLOv7 er afleiðing af tilraunum sem gerðar voru á þessum gerðum til að bæta niðurstöðurnar og gera líkanið nákvæmara. 

Extended Efficient Layer Aggregation Network eða E-ELAN

E-ELAN er grundvallarbyggingin í YOLOv7 líkaninu og er unnin úr þegar núverandi gerðum um skilvirkni netkerfisins, aðallega ELAN. 

Helstu atriðin við hönnun á skilvirkum arkitektúr eru fjöldi breytu, reikniþéttleiki og magn útreikninga. Aðrar gerðir taka einnig tillit til þátta eins og áhrif inntaks/úttaksrásarhlutfalls, útibúa í arkitektúrnetinu, truflunarhraða netsins, fjölda þátta í tensorum snúningsnets og fleira. 

The CSPvoNet líkanið tekur ekki aðeins tillit til ofangreindra breytur, heldur greinir það einnig hallaleiðina til að læra fjölbreyttari eiginleika með því að virkja þyngd mismunandi laga. Aðferðin gerir truflunum kleift að vera mun hraðari og nákvæmari. The ELAN arkitektúr miðar að því að hanna skilvirkt net til að stjórna stystu lengstu hallaleiðinni svo að netið geti verið skilvirkara í námi og samruna. 

ELAN hefur þegar náð stöðugu stigi óháð stöflun fjölda reiknikubba og lengd hallaleiðar. Stöðugt ástand gæti eyðilagst ef reikniblokkum er staflað ótakmarkað og færibreytunotkunarhlutfallið mun minnka. The fyrirhugaður E-ELAN arkitektúr getur leyst málið þar sem það notar stækkun, uppstokkun og sameiningu til að efla stöðugt námsgetu netsins á sama tíma og upprunalegu hallabrautinni er haldið. 

Ennfremur, þegar arkitektúr E-ELAN er borinn saman við ELAN, eini munurinn er í reikniblokkinni, en arkitektúr breytingalagsins er óbreytt. 

E-ELAN leggur til að stækka aðalgildi reikniblokkanna og stækka rásina með því að nota hópsnúningur. Eiginleikakortið verður síðan reiknað út og stokkað í hópa samkvæmt hópbreytu og verður síðan sett saman. Fjöldi rása í hverjum hópi verður sá sami og í upprunalegum arkitektúr. Að lokum verður hópum eiginleikakorta bætt við til að framkvæma kardinalitet. 

Líkönsstærð fyrir líkön sem byggjast á samtengingu

Módelskala hjálpar inn aðlaga eiginleika líkananna sem hjálpar til við að búa til gerðir í samræmi við kröfurnar og af mismunandi mælikvarða til að mæta mismunandi truflunarhraða. 

Myndin talar um mælikvarða líkans fyrir mismunandi líkön sem byggjast á samtengingu. Eins og þú getur á mynd (a) og (b), eykst úttaksbreidd reikniblokkarinnar með aukningu á dýptarkvarða líkananna. Fyrir vikið er inntaksbreidd flutningslaganna aukin. Ef þessar aðferðir eru útfærðar á arkitektúr sem byggir á samtengingu er kvarðaferlið framkvæmt ítarlega og það er sýnt á mynd (c). 

Þannig má draga þá ályktun að ekki sé hægt að greina stærðarstuðla sjálfstætt fyrir samtengingarmiðuð líkön, heldur verður að skoða þá eða greina saman. Þess vegna, fyrir samtenging byggt líkan, það er hentugur að nota samsvarandi mælikvarða fyrir samsett líkan. Að auki, þegar dýptarstuðullinn er skalaður, verður einnig að skala úttaksrás blokkarinnar. 

Þjálfanleg poki af ókeypis vörum 

Poki af ókeypis vörum er hugtak sem forritarar nota til að lýsa safn aðferða eða tækni sem geta breytt þjálfunarstefnu eða kostnaði til að reyna að auka nákvæmni líkansins. Svo hvað eru þessar þjálfanlegu töskur af ókeypis vörum í YOLOv7? Við skulum skoða. 

Skipulögð endurstillingarbreyting

YOLOv7 reikniritið notar útbreiðsluleiðir hallaflæðis til að ákvarða hvernig á að sameina símkerfi helst við endurstilltu sveifluna. Þessi nálgun YOLov7 er tilraun til að vinna gegn RepConv reiknirit að þrátt fyrir að hafa staðið sig rólega á VGG líkaninu, gengur það illa þegar það er notað beint á DenseNet og ResNet líkanið. 

Til að bera kennsl á tengingarnar í snúningslagi, er RepConv reiknirit sameinar 3×3 snúning og 1×1 snúning. Ef við greinum reikniritið, frammistöðu þess og arkitektúrinn munum við sjá að RepConv eyðileggur samtenging í DenseNet, og leifar í ResNet

Myndin hér að ofan sýnir fyrirhugað endurstillt líkan. Það má sjá að YOLov7 reikniritið komst að því að lag í netinu með samtengingu eða leifartengingum ætti ekki að hafa auðkennistengingu í RepConv reikniritinu. Þar af leiðandi er ásættanlegt að skipta með RepConvN án auðkennistenginga. 

Gróft fyrir aukaefni og fínt fyrir blýtap

Djúpt eftirlit er grein í tölvunarfræði sem oft nýtur sín í þjálfunarferli djúpra neta. Grundvallarreglan um djúpt eftirlit er að það bætir við viðbótar haus í miðlög netsins ásamt grunnu netþyngdunum með aðstoðartap að leiðarljósi. YOLOv7 reikniritið vísar til höfuðsins sem ber ábyrgð á lokaúttakinu sem aðalhöfuðsins og hjálparhausinn er höfuðið sem aðstoðar við þjálfun. 

Með því að halda áfram notar YOLOv7 aðra aðferð við úthlutun merkimiða. Venjulega hefur úthlutun merkimiða verið notuð til að búa til merki með því að vísa beint til grunnsannleikans og á grundvelli ákveðinna reglna. Hins vegar, á undanförnum árum, hefur dreifing og gæði spáinntaksins gegnt mikilvægu hlutverki til að búa til áreiðanlegt merki. YOLOv7 býr til mjúkan merkimiða fyrir hlutinn með því að nota spár af mörkuðum ramma og grunnsannleika. 

Ennfremur notar nýja merkimiðunaraðferð YOLOv7 reikniritsins spár um leiðarhaus til að leiðbeina bæði leiðaranum og aukahausnum. Aðferðin við úthlutun merkimiða hefur tvær tillögur að aðferðum. 

Leiðsagnarstjóri merkimiða

Stefnan gerir útreikninga á grundvelli spániðurstaðna leiðarhaussins og grunnsannleikans og notar síðan hagræðingu til að búa til mjúk merki. Þessir mjúku merkimiðar eru síðan notaðir sem þjálfunarlíkan fyrir bæði blýhausinn og aukahausinn. 

Stefnan virkar á þeirri forsendu að vegna þess að leiðarhausinn hefur meiri námsgetu, ættu merkimiðin sem hann býr til að vera dæmigerðari og hafa fylgni á milli uppruna og markmiðs. 

Gróf-til-fínn leiðsögn um merkimiða

Þessi aðferð gerir einnig útreikninga á grundvelli spániðurstaðna leiðarhaussins og sannleikans á jörðu niðri og notar síðan hagræðingu til að búa til mjúka merkimiða. Hins vegar er lykilmunur. Í þessari stefnu eru tvö sett af mjúkum merkjum, gróft stig, og fínt merki. 

Gróft merki er myndað með því að slaka á takmörkunum á jákvæða sýninu

úthlutunarferli sem meðhöndlar fleiri net sem jákvæð markmið. Það er gert til að forðast hættu á að tapa upplýsingum vegna veikari námsstyrks aðstoðarhaussins. 

Myndin hér að ofan útskýrir notkun á þjálfanlegum poka af ókeypis vörum í YOLOv7 reikniritinu. Það sýnir gróft fyrir aukahausinn og fínt fyrir blýhausinn. Þegar við berum líkan saman við aukahaus (b) við venjulega líkanið (a), munum við sjá að skemað í (b) hefur aukahaus, á meðan það er ekki í (a). 

Mynd (c) sýnir algengan óháðan merkimiða en mynd (d) og mynd (e) tákna í sömu röð Lead Guided Assigner og Coarse-toFine Lead Guided Assigner notað af YOLOv7.  

Önnur þjálfunarpoki af ókeypis vörum

Til viðbótar við þau sem nefnd eru hér að ofan notar YOLOv7 reikniritið viðbótarpoka af ókeypis vörum, þó að þeir hafi ekki lagt til af þeim upphaflega. Þeir eru

  • Batch Normalization í Conv-Bn-Activation Technology: Þessi aðferð er notuð til að tengja sveiflulag beint við batch normalization lagið. 
  • Óbein þekking í YOLOR: YOLOv7 sameinar stefnuna við Convolutional eiginleikakortið. 
  • EMA Gerð: EMA líkanið er notað sem lokaviðmiðunarlíkan í YOLOv7 þó að aðalnotkun þess sé notuð í meðalkennaraaðferðinni. 

YOLOv7 : Tilraunir

Tilraunauppsetning

YOLOv7 reikniritið notar Microsoft COCO gagnapakka fyrir þjálfun og staðfestingu hlutgreiningarlíkan þeirra, og ekki allar þessar tilraunir nota fyrirfram þjálfað líkan. Hönnuðir notuðu 2017 lestargagnasettið til þjálfunar og notuðu 2017 staðfestingargagnasettið til að velja ofurfæribreyturnar. Að lokum er árangur YOLOv7 hlutgreiningarniðurstaðna borinn saman við nýjustu reiknirit fyrir hlutgreiningu. 

Hönnuðir hönnuðu grunnlíkan fyrir brún GPU (YOLOv7-lítill), venjulegur GPU (YOLOv7) og skýja-GPU (YOLOv7-W6). Ennfremur notar YOLOv7 reikniritið einnig grunnlíkan fyrir mælikvarða líkans samkvæmt mismunandi þjónustukröfum og fær mismunandi gerðir. Fyrir YOLOv7 reikniritið er staflakvörðun gerð á hálsinum og fyrirhuguð efnasambönd eru notuð til að auka dýpt og breidd líkansins. 

Grunnlínur

YOLOv7 reikniritið notar fyrri YOLO gerðir og YOLOR hlutgreiningarreikniritið sem grunnlínu.

Myndin hér að ofan ber saman grunnlínu YOLOv7 líkansins við önnur mótmælagreiningarlíkön og niðurstöðurnar eru nokkuð augljósar. Þegar borið er saman við YOLOv4 reiknirit, YOLOv7 notar ekki aðeins 75% færri færibreytur, heldur notar það líka 15% minni útreikninga og hefur 0.4% meiri nákvæmni. 

Samanburður við nýjustu hlutskynjaralíkön

Myndin hér að ofan sýnir niðurstöðurnar þegar YOLOv7 er borið saman við nýjustu hlutgreiningarlíkön fyrir farsíma og almennar GPU. Það má sjá að aðferðin sem YOLOv7 reikniritið leggur til hefur bestu hraða-nákvæmni skiptastigið. 

Ablation Study: Fyrirhuguð aðferð við blöndun að kvarða

Myndin sem sýnd er hér að ofan ber saman niðurstöður af því að nota mismunandi aðferðir til að stækka líkanið. Stækkunarstefnan í YOLOv7 líkaninu stækkar dýpt reikniblokkarinnar um 1.5 sinnum og skalar breiddina um 1.25 sinnum. 

Þegar borið er saman við líkan sem aðeins stækkar dýptina, skilar YOLOv7 líkaninu 0.5% betri árangri á meðan það notar færri færibreytur og reiknikraft. Á hinn bóginn, þegar borið er saman við líkön sem aðeins auka dýptina, er nákvæmni YOLOv7 bætt um 0.2%, en fjölda breytu þarf að skala um 2.9% og útreikninga um 1.2%. 

Tillögð fyrirhuguð endurbreytt líkan

Til að sannreyna almennileika fyrirhugaðs endurbreytts líkans, er YOLOv7 reiknirit notar það á leifar-undirstaða og samtengingar byggðar líkön til sannprófunar. Fyrir sannprófunarferlið notar YOLOv7 reikniritið 3-staflað ELAN fyrir samtengingar-undirstaða líkanið, og CSPDarknet fyrir leifar-undirstaða líkan. 

Fyrir samtengingar-undirstaða líkanið kemur reikniritið í stað 3×3 snúningslaga í 3-staflaða ELAN með RepConv. Myndin hér að neðan sýnir ítarlega uppsetningu Planned RepConv og 3-stafla ELAN. 

Ennfremur, þegar fjallað er um leifar sem byggir á líkaninu, notar YOLOv7 reikniritið öfuga dökka blokk vegna þess að upprunalega dökka blokkin er ekki með 3×3 snúningsblokk. Myndin hér að neðan sýnir arkitektúr Reversed CSPDarknet sem snýr við stöðu 3×3 og 1×1 snúningslagsins. 

Fyrirhugað tap aðstoðarmanns fyrir aðstoðarforstöðumann

Fyrir tap á aðstoðarhaus fyrir aukahaus ber YOLOv7 líkanið saman óháða úthlutun merkimiða fyrir aukahaus og blýhaus aðferðir. 

Myndin hér að ofan inniheldur niðurstöður rannsóknarinnar á fyrirhuguðum aukahaus. Það má sjá að heildarframmistaða líkansins eykst með aukningu á aðstoðarmannstapinu. Ennfremur skilar úthlutun leiðsagnarmiða sem YOLOv7 líkanið leggur til betri árangur en óháðar úthlutunaraðferðir. 

YOLOv7 úrslit

Byggt á ofangreindum tilraunum, hér er niðurstaðan af frammistöðu YOLov7 í samanburði við önnur reiknirit til að uppgötva hluti. 

Á myndinni hér að ofan er YOLOv7 líkanið borið saman við önnur reiknirit til að skynja hluti og það má greinilega sjá að YOLOv7 fer fram úr öðrum mótmælagreiningarlíkönum m.t.t. Meðalnákvæmni (AP) v/s lotutruflun

Ennfremur ber myndin að neðan frammistöðu YOLOv7 v/s annarra rauntíma mótmælagreiningarreiknirita. Enn og aftur, YOLOv7 tekur við af öðrum gerðum hvað varðar heildarframmistöðu, nákvæmni og skilvirkni. 

Hér eru nokkrar viðbótarathuganir frá YOLOv7 niðurstöðum og frammistöðu. 

  1. YOLOv7-Tiny er minnsta gerðin í YOLO fjölskyldunni, með yfir 6 milljón færibreytur. YOLOv7-Tiny er með meðalnákvæmni upp á 35.2% og er betri en YOLOv4-Tiny gerðirnar með sambærilegar breytur. 
  2. YOLOv7 líkanið hefur yfir 37 milljón færibreytur og það stendur sig betur en líkön með hærri breytur eins og YOLov4. 
  3. YOLOv7 líkanið hefur hæsta mAP og FPS hraðann á bilinu 5 til 160 FPS. 

Niðurstaða

YOLO eða You Only Look Once er hið nýjasta hlutgreiningarlíkan í nútíma tölvusjón. YOLO reikniritið er þekkt fyrir mikla nákvæmni og skilvirkni og þar af leiðandi finnur það víðtæka notkun í rauntíma hlutgreiningariðnaðinum. Allt frá því að fyrsta YOLO reikniritið var kynnt aftur árið 2016 hafa tilraunir gert hönnuðum kleift að bæta líkanið stöðugt. 

YOLOv7 líkanið er nýjasta viðbótin í YOLO fjölskyldunni og það er öflugasta YOLo reikniritið hingað til. Í þessari grein höfum við talað um grundvallaratriði YOLOv7 og reynt að útskýra hvað gerir YOLOv7 svo skilvirkan. 

"Verkfræðingur að atvinnu, rithöfundur utanbókar". Kunal er tæknilegur rithöfundur með djúpa ást og skilning á gervigreind og ML, tileinkað því að einfalda flókin hugtök á þessum sviðum með grípandi og upplýsandi skjölum.