Tekoäly

YOLOv7: Edistynein Objektin Havaitsemisalgoritmi?

Julkaistu 24. heinäkuuta 2023

Päivitetty 23. toukokuuta 2026

Tekijä

Kunal Kejriwal

7. heinäkuuta 2022 on merkittävä päivämäärä tekoälyhistoriassa, sillä silloin YOLOv7 julkaistiin. Sen julkaisun jälkeen YOLOv7 on ollut kuumin aihe tietokoneen näön kehittäjien yhteisössä, ja sen hyvästä syystä. YOLOv7 on jo pidetty merkittävänä askelena objektin havaitsemisessa.

Hetkeäkään YOLOv7-tutkimuksen julkaisemisen jälkeen, se nousi nopeimmaksi ja tarkin reaaliaikaiseksi objektin havaitsemismalliksi. Mutta miten YOLOv7 voittaa edeltäjiensä? Mikä tekee YOLOv7:stä niin tehokkaan tietokoneen näön tehtävissä?

Tässä artikkelissa yritämme analyysia YOLOv7-mallista ja yritämme löytää vastauksen siihen, miksi YOLOv7 on nyt teollisuuden standardi? Mutta ennen kuin voimme vastata siihen, meidän on katsottava objektin havaitsemisen lyhyt historia.

Mikä on Objektin Havaitseminen?

Objektin havaitseminen on tietokoneen näön ala, joka tunnistaa ja sijaintaa objekteja kuvassa tai videossa. Objektin havaitseminen on useiden sovellusten perusta, mukaan lukien itseohjautuvat autot, valvontakamerat ja jopa robotiikka.

Objektin havaitsemismalli voidaan luokitella kahteen eri kategoriaan, yksittäiset havainnot, ja monihavainnot.

Reaaliaikainen Objektin Havaitseminen

Jotta voimme ymmärtää, miten YOLOv7 toimii, on tärkeää ymmärtää YOLOv7:n päämäärä, “Reaaliaikainen Objektin Havaitseminen” . Reaaliaikainen objektin havaitseminen on tärkeä osa modernia tietokoneen näköä. Reaaliaikaiset objektin havaitsemismallit yrittävät tunnistaa ja sijaintaa kiinnostuksen kohteita reaaliajassa. Reaaliaikaiset objektin havaitsemismallit ovat tehokkaita seuraamaan kiinnostuksen kohteita liikkuvaan kuvaan, kuten videoon tai live-valvontaan.

Reaaliaikaiset objektin havaitsemismallit ovat periaatteessa edellä perinteisiä kuvan tunnistusmalleja. Kun edelliset ovat käytetty seuraamaan objekteja videossa, jälkimmäiset sijaintaavat ja tunnistavat objekteja paikallisessa kehyksessä, kuten kuvassa.

Näin ollen reaaliaikaiset objektin havaitsemismallit ovat erittäin tehokkaita videoanalytiikassa, itseohjautuvissa ajoneuvoissa, objektin laskemisessa, moni-objektin seuraamisessa ja paljon muussa.

Mikä on YOLO?

YOLO tai “Katselet vain kerran” on perhe reaaliaikaisia objektin havaitsemismalleja. YOLO-käsite esiteltiin ensimmäisen kerran vuonna 2016 Joseph Redmonin toimesta, ja se oli heti suosittu, koska se oli nopeampi ja tarkin kuin olemassa olevat objektin havaitsemisalgoritmit. Se ei kestänyt kauan, kunnes YOLO-algoritmi tuli teollisuuden standardiksi.

YOLO-algoritmin perusidea on käyttää loppupäästä loppuun neuroverkkoa, joka käyttää rajattuja laatikoita ja luokkien todennäköisyyksiä tekemään ennusteita reaaliajassa. YOLO oli erilainen kuin aiemmat objektin havaitsemismallit, koska se ehdotti eri lähestymistapaa objektin havaitsemiseen luokittelijoiden uudelleenohjauksella.

Muutos toimi, koska YOLO pian tuli teollisuuden standardiksi, ja sen suorituskykyero muihin reaaliaikaisiin objektin havaitsemisalgoritmeihin oli merkittävä. Mutta mikä oli syy siihen, että YOLO oli niin tehokas?

Kun verrataan YOLO:aan, objektin havaitsemisalgoritmit aiemmin käyttivät alueen ehdotusverkkoja tunnistamaan mahdollisia kiinnostuksen kohteita. Tunnistusprosessi suoritettiin kussakin alueessa erikseen. Tämän seurauksena nämä mallit usein suorittivat useita iteraatioita samalla kuvalla, ja siten puutteellinen tarkkuus ja korkeampi suoritusaika. Toisaalta YOLO-algoritmi käyttää yhtä täysin kytkettyä kerrosta tekemään ennusteen kerran.

Miten YOLO Toimii?

On kolme askelta, jotka selittävät, miten YOLO-algoritmi toimii.

Uudelleenmuotoilu Objektin Havaitseminen Yhtenä Regressio-ongelmana

YOLO-algoritmi yrittää uudelleenmuotoilla objektin havaitsemisen yhtenä regressio-ongelmana, mukaan lukien kuvapikseleitä, luokkien todennäköisyyksiä ja rajattujen laatikoiden koordinaatteja. Tämän seurauksena algoritmi on nähtävä kuvan vain kerran voidakseen ennustaa ja sijaintaa kohde-objekteja kuvissa.

Kuvan Syyt Globaalisti

Lisäksi, kun YOLO-algoritmi tekee ennusteita, se syyttää kuvaa globaalisti. Se on erilainen kuin alueen ehdotus- ja liukuvat tekniikat, koska YOLO-algoritmi näkee koko kuvan koulutuksen ja testauksen aikana, ja se pystyy koodaamaan kontekstuaalista tietoa luokista ja siitä, miten ne näyttäytyvät.

Ennen YOLO:ta, Fast R-CNN oli yksi suosituimmista objektin havaitsemisalgoritmeista, joka ei voinut nähdä laajempaa kontekstia kuvassa, koska se käytti taustapaloja kuvassa objektina. Kun verrataan Fast R-CNN-algoritmiin, YOLO on 50% tarkin taustavirheiden osalta.

Yleistäminen Objektin Edustusta

Lopulta YOLO-algoritmi pyrkii yleistämään objektiensa edustuksia kuvassa. Tämän seurauksena, kun YOLO-algoritmi suoritettiin luonnollisten kuvien datasetissa ja testattiin tuloksia, YOLO ylitti olemassa olevat R-CNN-mallit laajalla marginaalilla. Se on, koska YOLO on erittäin yleistettävissä, ja sen murtumisen mahdollisuus on vähäinen, kun se on toteutettu odottamattomissa syötteissä tai uusissa domeineissa.

YOLOv7: Mitä Uutta?

Nyt, kun meillä on perustiedot reaaliaikaisista objektin havaitsemismalleista ja YOLO-algoritmi, on aika keskustella YOLOv7-algoritmi.

Optimointi Koulutusprosessi

YOLOv7-algoritmi ei vain pyri optimoida mallin arkkitehtuuria, vaan se pyrkii myös optimoida koulutusprosessia. Se pyrkii käyttämään optimointimoduuleja ja -menetelmiä parantamaan objektin havaitsemisen tarkkuutta, vahvistamaan koulutuksen kustannuksia samalla, kun se ylläpitää häiriön kustannuksia. Nämä optimointimoduulit voidaan kutsua koulutettavaksi ilmainen paketti.

Karkeasta Hienoon Johtava Merkintä

YOLOv7-algoritmi suunnittelee uuden karkeasta hienoon johtavan merkintätapaa perinteisen dynaamisen merkintätapa sijaan. Se on, koska dynaamisella merkintätavalla on joitakin ongelmia, kuten miten määritellä dynaamiset kohdetiedot eri lähtökerroksille ja niiden tuloksille.

Mallin Uudelleenparametrisointi

Mallin uudelleenparametrisointi on tärkeä käsite objektin havaitsemisessa, ja sen käytöstä on seurannut joitakin ongelmia koulutuksen aikana. YOLOv7-algoritmi suunnittelee käyttämään gradientin etenemispolun analyysiä mallin uudelleenparametrisointipolitiikkojen soveltamiseksi eri kerroksille verkossa.

Laajennettu ja Yhdistetty Mittaaminen

YOLOv7-algoritmi esittelee myös laajennetun ja yhdistetyn mittausmenetelmän hyödyntämään ja käyttämään tehokkaasti parametreja ja laskelmia reaaliaikaisessa objektin havaitsemisessa.

YOLOv7: Liittyvät Työt

Reaaliaikainen Objektin Havaitseminen

YOLO on tällä hetkellä teollisuuden standardi, ja useimmat reaaliaikaiset objektin havainnoitsijat käyttävät YOLO-algoritmeja ja FCOS:ia (Täysin konvoluutionaalinen yksivaiheinen objektin havaitseminen). Valmiin reaaliaikaisen objektin havainnoitsijan ominaisuudet ovat yleensä

Vahvempi ja nopeampi verkkoarkkitehtuuri.
Tehokas ominaisuuden yhdistäminen.
Tarkin objektin havaitsemismenetelmä.
Luotettava häviöfunktio.
Tehokas merkintätapa.
Tehokas koulutusmenetelmä.

YOLOv7-algoritmi ei käytä itseohjautuvaa oppimista ja tiivistämistä, jotka usein vaativat suuria määriä dataa. Sen sijaan YOLOv7-algoritmi käyttää koulutettavan ilmainen paketin menetelmää.

Mallin Uudelleenparametrisointi

Mallin uudelleenparametrisointitekniikkaa pidetään yhdistelmätekniikkana, joka yhdistää useita laskelmallisia moduuleja häiriövaiheessa. Tekniikka voidaan jakaa kahteen kategoriaan, mallitaso, ja moduulitaso.

Nyt, jotta voidaan saada lopullinen häiriömalli, mallitasoisen uudelleenparametrisoinnin tekniikka käyttää kahta käytäntöä. Ensimmäinen käytäntö käyttää eri koulutusdataa kouluttaa useita samanlaisia malleja, ja sitten keskiarvo koulutettujen mallien painoja. Vaihtoehtoisesti, toinen käytäntö keskiarvoi mallien painoja eri iteraatioissa.

Moduulitasoinen uudelleenparametrisointi on saavuttamassa suurta suosiota viime aikoina, koska se jakaa moduulin eri moduulihaihiin tai samanlaisiin haishiin koulutusvaiheessa, ja sitten yhdistää nämä eri haishit vastaavan moduulin häiriövaiheessa.

Kuitenkin uudelleenparametrisointitekniikkaa ei voida soveltaa kaikkiin arkkitehtuureihin. Se on syy, miksi YOLOv7-algoritmi käyttää uusia mallin uudelleenparametrisointitekniikoita suunnitellakseen liittyviä strategioita eri arkkitehtuureille.

Mallin Mittaaminen

Mallin mittaaminen on prosessi, jossa olemassa olevaa mallia mitataan ylös tai alas, jotta se sopii eri laskentalaitteille. Mallin mittaaminen käyttää useita tekijöitä, kuten kerrosten määrää (syvyys), syötteen kuvan kokoa (resoluutio), ominaisuuspyramiiden määrää (vaihe) ja kanavien määrää (leveys). Nämä tekijät ovat avainasemassa varmistamassa tasapainoisen vaihdon verkko-parametreja, häiriönopeutta, laskentaa ja mallin tarkkuutta.

Yksi yleisimmin käytetty mittausmenetelmä on verkon arkkitehtuurihaun (NAS) , joka etsii automaattisesti sopivia mittauskertoimia hakukoneista ilman monimutkaisia sääntöjä. NAS:n suurin haitta on, että se on kallis lähestymistapa etsimään sopivia mittauskertoimia.

Lähes jokainen mallin uudelleenparametrisointimalli analysoi yksittäisiä ja yksilöllisiä mittauskertoimia erikseen, ja edelleen, ne optimoivat nämä kertoimet erikseen. Se on, koska NAS-arkkitehtuuri toimii ei-riippuvilla mittauskertoimilla.

On huomattava, että yhdistelmäpohjaiset mallit, kuten VoVNet tai DenseNet , muuttavat joitakin kerrosten syötteen leveyttä, kun mallin syvyyttä mitataan. YOLOv7 toimii ehdotetulla yhdistelmäarkkitehtuurilla, ja siten se käyttää yhdistetyn mittausmenetelmää.

Yllä oleva kuva vertaa laajennettuja tehokkaita kerrosten yhdistämismenetelmiä (E-ELAN) eri malleissa. Ehdotettu E-ELAN-menetelmä ylläpitää alkuperäisen arkkitehtuuriin gradientin siirtopolkua, mutta pyrkii lisäämään lisättyjen ominaisuuksien kardinaliteettia käyttämällä ryhmittävää konvoluutiota. Prosessi voi parantaa ominaisuuksia, jotka eri kartat oppivat, ja voidaan käyttää laskelmia ja parametreja tehokkaammin.

YOLOv7 Arkkitehtuuri

YOLOv7-malli käyttää YOLOv4-, YOLO-R- ja Scaled YOLOv4-malleja perustana. YOLOv7 on tulosta kokeista, jotka on tehty näillä malleilla parantamaan tuloksia ja tekemään mallista tarkin.

Laajennettu Tehokas Kerrosten Yhdistäminen tai E-ELAN

E-ELAN on YOLOv7-mallin perusrakennuspalikka, ja se on johdettu olemassa olevista verkon tehokkuuden malleista, erityisesti ELAN:sta.

Pääasialliset huomioon otettavat seikat suunniteltaessa tehokasta arkkitehtuuria ovat parametricount, laskelmien tiheys ja laskelmien määrä. Muiden mallien suunnittelussa otetaan huomioon tekijöitä, kuten syötteen ja tulosteen kanavien suhde, haarat arkkitehtuuriverkossa, verkon häiriönopeus, konvoluutionaalisen verkon tensorien alkioiden määrä ja paljon muuta.

CSPVoNet-malli ei ainoastaan ottaa huomioon edellä mainittuja parametreja, vaan se analysoi myös gradientin polun oppiakseen monipuolisempia ominaisuuksia sallimalla eri kerrosten painot. Lähestymistapa sallii häiriöt nopeammin ja tarkemmin. ELAN arkkitehtuuri pyrkii suunnittelemaan tehokkaan verkon hallitsemalla lyhin ja pisin gradientin polku, jotta verkko voi oppia tehokkaammin ja konvergoitua.

ELAN on jo saavuttanut vakaan tilan riippumatta laskelmallisten blokkien pinoutumisen määrästä ja gradientin polun pituudesta. Vakaan tilan saattaa tuhota, jos laskelmallisia blokkeja pinoutuu rajattomasti, ja parametrin hyötykäyttöaste vähenee. Ehdotettu E-ELAN-arkkitehtuuri voi ratkaista ongelman käyttämällä laajennusta, sekaisinheittoa ja yhdistämistä kardinaliteetin jatkuvasti parantamiseksi verkon oppimiskyvyn säilyttäen alkuperäisen gradientin polun.

Lisäksi, kun vertaillaan E-ELAN-arkkitehtuuria ELAN:in kanssa, ainoa ero on laskelmallisessa blokissa, kun taas siirtymäkerroksen arkkitehtuuri on muuttumaton.

E-ELAN ehdottaa laskelmallisten blokkien kardinaliteetin laajentamista ja kanavan laajentamista käyttämällä ryhmittävää konvoluutiota. Ominaisuuskartta lasketaan ja sekoitetaan ryhmiin ryhmäparametrin mukaan, ja sitten ne yhdistetään. Kunkin ryhmän kanavien määrä on sama kuin alkuperäisessä arkkitehtuurissa. Lopulta ryhmien ominaisuuskartat lisätään suorittamaan kardinaliteettia.

Mallin Mittaaminen Yhdistelmäpohjaisille Malleille

Mallin mittaaminen auttaa sopeuttamaan mallin ominaisuuksia, jotka auttavat luomaan malleja eri mittakaavoissa ja eri häiriönopeuksissa.

Kuva kertoo mallin mittausprosessista eri yhdistelmäpohjaisille malleille. Kuten voit nähdä kuvassa (a) ja (b), laskelmallisen blokin tulostusleveys kasvaa, kun mallin syvyyttä mitataan. Tuloksena laskelmallisten kerrosten syötteen leveys kasvaa. Jos nämä menetelmät sovelletaan yhdistelmäpohjaisiin arkkitehtuureihin, mittausprosessi suoritetaan syvyydessä, ja se on kuvassa (c).

Se voidaan johtopäätöksellisesti päätellä, että ei ole mahdollista analysoida mittauskertoimia riippumattomasti yhdistelmäpohjaisille malleille, vaan ne on analysoitava yhdessä. Siksi yhdistelmäpohjaiselle mallille on sopivaa käyttää vastaavaa yhdistettyä mittausmenetelmää. Lisäksi, kun syvyyttä mitataan, blokin tulostuskanavan on mitattava myös.

Koulutettava Ilmainen Paketti

Ilmainen paketti on kehittäjien käyttämä termi, jolla kuvaillaan joukkoa menetelmiä tai tekniikoita, jotka voivat muuttaa koulutusstrategiaa tai -kustannuksia pyrkimyksenä parantaa mallin tarkkuutta. Mitä ovat nämä koulutettavat ilmainen paketit YOLOv7:ssä? Katsotaan.

Suunniteltu Uudelleenparametrisoitu Konvoluutio

YOLOv7-algoritmi käyttää gradientin etenemispolun analyysiä määrittämään, miten yhdistää verkkoa uudelleenparametrisoidulla konvoluutiolla. YOLOv7:n lähestymistapa on yritys vastata RepConv-algoritmiin, joka on suorittanut hyvin VGG-mallissa, mutta suorittaa huonosti, kun se sovelletaan suoraan DenseNet- ja ResNet-malleihin.

RepConv-algoritmi yhdistää 3×3 konvoluution ja 1×1 konvoluution. Kun analyysimme algoritmi, sen suorituskyky ja arkkitehtuuri, havaitsemme, että RepConv tuhoaa DenseNetin yhdistämisen ja ResNetin residuaalisen yhteenlaskun.

Kuva yllä esittää suunnitellun uudelleenparametrisoidun mallin. Voidaan nähdä, että YOLOv7-algoritmi totesi, että kerros verkossa, jolla on yhdistämis- tai residuaalinen yhteys, ei saa olla identiteettiyhteys RepConv-algoritmissa. Se on hyväksyttyvää vaihtaa RepConv:ia RepConvN:ksi ilman identiteettiyhteyttä.

Karkeasta Hienoon Johtava Merkintä

Syvä valvonta on tietokoneen tieteen haara, joka usein löytää sovelluksia syvän verkkojen koulutusprosessissa. Syvän valvonnan perusperiaate on, että se lisää apuliittymän keskikerroksiin verkkoa yhdessä matalan verkkojen painojen kanssa avustavan häviön ohjaamana. YOLOv7-algoritmi viittaa pääliittymään, joka on vastuussa lopullisesta tuloksesta, johtavana liittymänä, ja apuliittymä on liittymä, joka auttaa koulutuksessa.

Jatkaessa YOLOv7 käyttää eri tapaa merkintätapaa. Perinteisesti merkintätapa on tehty viitaten suoraan maailman todellisuuteen ja annetun sääntöjoukon perusteella. Viime vuosina kuitenkin ennusteen jakelu ja laatu ovat pelannut tärkeää roolia luotettavan merkintätiedon luomisessa. YOLOv7 luo pehmeän merkintätiedon objektista käyttämällä rajaamisen ja maailman todellisuuden ennusteita.

Lisäksi YOLOv7-algoritmin uusi merkintätapa käyttää johtavan liittymän ennusteita ohjaamaan sekä johtavaa että apuliittymää. Merkintätapa tarjoaa kaksi ehdotettua strategiaa.

Johtavan Liittymän Ohjaava Merkintätapa

Strategia tekee laskelmia johtavan liittymän ennusteen tuloksien ja maailman todellisuuden perusteella, ja sitten käyttää optimointia luomaan pehmeitä merkintätietoja. Nämä pehmeät merkintätiedot käytetään koulutusmallina sekä johtavalle liittymälle että apuliittymälle.

Strategia perustuu oletukseen, että koska johtava liittymä on suurempi oppimiskyky, sen luomat merkintätiedot ovat edustavampia ja korreloivat lähteen ja kohteen välillä.

Karkeasta Hienoon Johtava Liittymän Ohjaava Merkintätapa

Tämä strategia tekee myös laskelmia johtavan liittymän ennusteen tuloksien ja maailman todellisuuden perusteella, ja sitten käyttää optimointia luomaan pehmeitä merkintätietoja. On kuitenkin tärkeä ero. Tässä strategiassa on kaksi joukkoa pehmeitä merkintätietoja, karkeataso, ja hienotaso.

Karkeatason merkintätieto luodaan rentouttamalla positiivisen näytteen sijoitusprosessin rajoituksia, jotka kohdeltavat useampia ruutuja positiivisina kohteina. Se tehdään välttääksesi tiedon menettämisen apuliittymän heikomman oppimiskyvyn vuoksi.

Kuva yllä selittää koulutettavan ilmainen paketin käytön YOLOv7-algoritmissa. Se esittää karkeatason apuliittymälle ja hienotason johtavalle liittymälle. Kun vertaamme mallia apuliittymällä (b) normaaliin malliin (a), havaitsemme, että skeema (b) sisältää apuliittymän, kun taas se ei ole (a).

Kuva (c) esittää yleisen riippumattoman merkintätiedon, kun taas kuva (d) ja (e) edustavat johtavan liittymän ohjaajaa ja karkeasta hienoon johtavaa liittymän ohjaajaa, jotka YOLOv7 käyttää.

Muut Koulutettavat Ilmainen Paketti

Lisäksi edellä mainittujen, YOLOv7-algoritmi käyttää muita koulutettavia ilmainen paketteja, vaikka ne eivät olleet alun perin ehdotettuja heille. Ne ovat

Batch Normalization Conv-Bn-Activation Teknologia: Tämä strategia käytetään yhdistämään konvoluutio kerrosta suoraan batch normalisointiin.
Implisiittinen Tieto YOLOR:issa: YOLOv7 yhdistää tämän strategian konvoluutionaaliseen ominaisuuskarttaan.
EMA-malli: EMA-malli käytetään lopullisena viite-mallina YOLOv7:ssä, vaikka sen ensisijainen käyttö on ollut keskimääräisessä opettajassa.

YOLOv7: Kokeet

Kokeellinen Asettelu

YOLOv7-algoritmi käyttää Microsoft COCO-tietojoukkoa kouluttamiseen ja validoimiseen objektin havaitsemismallia, ja kaikki nämä kokeet eivät käytä esikoulutettua mallia. Kehittäjät käyttivät 2017 koulutusjoukkoa kouluttamiseen ja 2017 validointijoukkoa valitsemaan hyperparametreja. Lopulta YOLOv7:n objektin havaitsemistulokset verrataan valmiisiin objektin havaitsemisalgoritmeihin.

Kehittäjät suunnittelivat perusmallin reunaprosessorille (YOLOv7-tiny), normaalille prosessorille (YOLOv7) ja pilviprosessorille (YOLOv7-W6). Lisäksi YOLOv7-algoritmi käyttää perusmallia mallin mittausmenetelmää eri palveluvaatimusten mukaan ja saa eri malleja. YOLOv7-algoritmissa pinoutusmittaus tehdään kaulassa, ja ehdotetut yhdistelmät käytetään skaalaamaan mallin syvyyttä ja leveyttä.

Vertailukohteet

YOLOv7-algoritmi käyttää aiempia YOLO-malleja ja YOLOR-objektin havaitsemisalgoritmiä vertailukohtana.

Yllä oleva kuva vertaa YOLOv7-mallin vertailukohdetta muihin objektin havaitsemismalleihin, ja tulokset ovat selvät. Kun verrataan YOLOv4-algoritmiin, YOLOv7 käyttää 75% vähemmän parametreja, 15% vähemmän laskentaa ja on 0,4% tarkin.

Vertailu Valmiisiin Objektin Havainnoitsijamalleihin

Yllä oleva kuva näyttää tulokset, kun YOLOv7 verrataan valmiisiin objektin havainnoitsijamalleihin mobiili- ja yleisprosessoreille. Voidaan havaita, että YOLOv7-algoritmin ehdottama menetelmä on paras nopeus-tarkkuus-kaupan suhde.

Ablation Tutkimus: Ehdotettu Yhdistetty Mittausmenetelmä

Yllä oleva kuva vertaa tuloksia eri strategioiden käytöstä mallin mittausmenetelmässä. Mittausstrategia YOLOv7-mallissa mittaa laskelmallisen blokin syvyyttä 1,5-kertaa ja mittaa leveyttä 1,25-kertaa.

Kun verrataan malliin, joka mittaa ainoastaan syvyyttä, YOLOv7 suorittaa paremmin 0,5%:lla vähemmän parametreja ja laskentaa. Toisaalta, kun verrataan malleihin, jotka mittaa ainoastaan syvyyttä, YOLOv7:n tarkkuus paranee 0,2%:lla, mutta parametreja on tarpeen mittaa 2,9%:lla ja laskentaa 1,2%:lla.

Ehdotettu Suunniteltu Uudelleenparametrisoitu Malli

Varmistaakseen ehdotetun uudelleenparametrisoidun mallin yleispätevyyttä, YOLOv7-algoritmi käyttää sitä residuaaliperusteisilla ja yhdistelmäperusteisilla malleilla vahvistamiseksi. Vahvistusprosessissa YOLOv7-algoritmi käyttää 3-pinoutettua ELAN:ia yhdistelmäperusteiselle mallille ja CSPDarknet:ia residuaaliperusteiselle mallille.

Yhdistelmäperusteiselle mallille algoritmi korvaa 3×3 konvoluutio kerrokset 3-pinoutetussa ELAN:issa RepConv:llä. Kuva alla näyttää tarkemman konfiguraation suunnitellusta RepConv:stä ja 3-pinoutetusta ELAN:ista.

Lisäksi, kun käsitellään residuaaliperusteista mallia, YOLOv7-algoritmi käyttää käännetyä tummaa lohkoa, koska alkuperäinen tumma lohko ei sisällä 3×3 konvoluutio kerrosta. Kuva alla näyttää käännetyn CSPDarknetin arkkitehtuurin, joka kääntää 3×3 ja 1×1 konvoluutio kerrosten sijaintia.

Proposed Assistant Loss for Auxiliary Head

Apuliittymän avustavan häviön osalta YOLOv7-malli vertaa riippumattoman merkintätiedon apuliittymälle ja johtavalle liittymälle menetelmiä.

Yllä oleva kuva sisältää tulokset ehdotetun apuliittymän tutkimuksesta. Voidaan nähdä, että mallin yleinen suorituskyky paranee, kun avustava häviö kasvaa. Lisäksi YOLOv7-algoritmin ehdottama johtava merkintätapa suorittaa paremmin kuin riippumattomat johtavat strategiat.

YOLOv7 Tulokset

Perustuen edellä oleviin kokeisiin, tässä on YOLOv7:n suorituskyky, kun se verrataan muihin objektin havainnoitsijamalleihin.

Yllä oleva kuva vertaa YOLOv7-mallia muihin objektin havainnoitsijamalleihin, ja voidaan selvästi nähdä, että YOLOv7 ylittää muut objektin havainnoitsijamallit keskimääräisen tarkkuuden (AP) suhteen batch-häiriössä.

Lisäksi alla oleva kuva vertaa YOLOv7:n suorituskykyä muihin reaaliaikaisiin objektin havainnoitsijamalleihin. Jälleen kerran YOLOv7 suorittaa paremmin kuin muut mallit yleisessä suorituskyvyssä, tarkkuudessa ja tehokkuudessa.

Tässä on joitakin lisätutkimuksia YOLOv7:n tuloksista ja suorituskyvystä.

YOLOv7-Tiny on pienin malli YOLO-perheessä, jolla on yli 6 miljoonaa parametriä. YOLOv7-Tinyllä on keskimääräinen tarkkuus 35,2%, ja se suorittaa paremmin kuin YOLOv4-Tiny-mallit, joilla on vertailukelpoiset parametrit.
YOLOv7-malli on yli 37 miljoonan parametrin, ja se suorittaa paremmin kuin mallit, joilla on enemmän parametreja, kuten YOLov4.
YOLOv7-malli on korkein mAP- ja FPS-tulos 5-160 FPS-välillä.

Johtopäätös

YOLO eli “Katselet vain kerran” on teollisuuden standardi objektin havaitsemisessä modernissa tietokoneen näössä. YOLO-algoritmi on tunnettu korkeasta tarkkuudestaan ja tehokkuudestaan, ja se löytää laajaa soveltamista reaaliaikaisessa objektin havaitsemisessä. Koska ensimmäinen YOLO-algoritmi esiteltiin vuonna 2016, kokeet ovat sallineet kehittäjien parantaa mallia jatkuvasti.

YOLOv7-malli on viimeisin lisäys YOLO-perheeseen, ja se on tehokkain YOLO-algoritmi tähän asti. Tässä artikkelissa olemme käyneet läpi YOLOv7:n perusteita ja yrittäneet selittää, mikä tekee YOLOv7:stä niin tehokkaan.

Kunal Kejriwal

Ammattina insinööri, sydämen vuoksi kirjailija. Kunal on tekninen kirjailija, jolla on syvä rakkaus ja ymmärrys AI: sta ja ML: stä, omistautunut yksinkertaistamaan monimutkaisia käsitteitä näissä aloissa hänen viihdyttävän ja informatiivisen dokumentaationsa kautta.