Хиймэл оюун

YOLOv7: Обьект илрүүлэх хамгийн дэвшилтэт алгоритм?

Нийтэлсэн

10 сарын өмнө

Долдугаар сарын 24, 2023

6 оны 2022-р сарын 7-ны өдөр хиймэл оюун ухааны түүхэнд тэмдэглэгдэх болно, учир нь яг энэ өдөр YOLOv7 гарсан. Гаргаснаасаа хойш YOLOv7 нь зөв шалтгааны улмаас Computer Vision хөгжүүлэгчдийн нийгэмлэгийн хамгийн халуун сэдэв байсаар ирсэн. YOLOvXNUMX нь аль хэдийн объект илрүүлэх салбарын чухал үе гэж тооцогддог.

Дараа нь YOLOv7 цаас хэвлэгдсэн, Энэ нь бодит цагийн эсэргүүцлийг илрүүлэх хамгийн хурдан бөгөөд үнэн зөв загвар болсон. Гэхдээ YOLOv7 өмнөх хувилбаруудаа хэрхэн гүйцэх вэ? Компьютерийн харааны даалгавруудыг гүйцэтгэхэд YOLOv7 юу нь тийм үр дүнтэй байдаг вэ?

Энэ нийтлэлд бид YOLOv7 загварт дүн шинжилгээ хийж, YOLOv7 яагаад одоо салбарын стандарт болж байгаа вэ гэсэн асуултын хариултыг олохыг хичээх болно. Гэхдээ үүнд хариулахын өмнө бид объект илрүүлэх товч түүхийг харах хэрэгтэй болно.

Объект илрүүлэх гэж юу вэ?

Объект илрүүлэх нь компьютерийн харааны салбар юм Энэ нь зураг эсвэл видео файл дахь объектуудыг тодорхойлж, байршуулдаг. Объект илрүүлэх нь өөрөө жолооддог машин, хяналттай тандалт, тэр ч байтугай робот техник зэрэг олон төрлийн хэрэглээний барилгын материал юм.

Объект илрүүлэх загварыг хоёр өөр ангилалд ангилж болно. нэг удаагийн илрүүлэгч, болон олон удаагийн детектор.

Бодит цагийн объект илрүүлэх

YOLOv7 хэрхэн ажилладагийг жинхэнэ утгаар нь ойлгохын тулд YOLOv7-ийн гол зорилгыг ойлгох нь чухал.Бодит цагийн объект илрүүлэх". Бодит цагийн объект илрүүлэх нь орчин үеийн компьютерийн харааны гол бүрэлдэхүүн хэсэг юм. Бодит цагийн объект илрүүлэх загварууд нь бодит цаг хугацаанд сонирхож буй объектуудыг тодорхойлж, олохыг оролддог. Бодит цагийн объект илрүүлэх загварууд нь видео бичлэг эсвэл шууд тандалтын оролт зэрэг хөдөлж буй фрейм дэх сонирхолтой объектуудыг хянах боломжийг хөгжүүлэгчдэд үнэхээр үр дүнтэй болгосон.

Бодит цагийн объект илрүүлэх загварууд нь ердийн дүрс илрүүлэх загваруудаас үндсэндээ нэг алхам урагшилдаг. Эхнийх нь видео файл дахь объектуудыг хянахад ашиглагддаг бол сүүлийнх нь зураг шиг хөдөлгөөнгүй хүрээн доторх объектуудыг байрлуулж, тодорхойлдог.

Үүний үр дүнд бодит цагийн объект илрүүлэх загварууд нь видео аналитик, бие даасан тээврийн хэрэгсэл, объект тоолох, олон объектыг хянах болон бусад олон зүйлд үнэхээр үр дүнтэй байдаг.

YOLO гэж юу вэ?

YOLO эсвэл "Та ганцхан удаа харна” нь бодит цагийн объект илрүүлэх загваруудын гэр бүл юм. YOLO үзэл баримтлалыг анх 2016 онд Жозеф Редмон танилцуулсан бөгөөд энэ нь одоо байгаа объект илрүүлэх алгоритмуудаас хамаагүй хурдан бөгөөд илүү нарийвчлалтай байсан тул энэ нь бараг тэр даруй хотын ярианы сэдэв болсон. Удалгүй YOLO алгоритм нь компьютерийн харааны салбарт стандарт болсон.

YOLO алгоритмын санал болгож буй үндсэн үзэл баримтлал нь бодит цаг хугацаанд таамаглал гаргахын тулд хязгаарлах хайрцаг, ангиллын магадлалыг ашиглан төгсгөлийн мэдрэлийн сүлжээг ашиглах явдал юм. YOLO нь ангилагчийн зориулалтыг өөрчлөх замаар объект илрүүлэх өөр аргыг санал болгосон гэдгээрээ өмнөх объект илрүүлэх загвараас ялгаатай байв.

Арга барилын өөрчлөлт нь YOLO нь удалгүй үйлдвэрлэлийн стандарт болсон тул бусад бодит цагийн объект илрүүлэх алгоритмууд чухал ач холбогдолтой байв. Гэхдээ YOLO яагаад ийм үр дүнтэй байсан бэ?

YOLO-тэй харьцуулбал тухайн үеийн объект илрүүлэх алгоритмууд сонирхож буй бүс нутгийг илрүүлэхийн тулд Бүсийн саналын сүлжээг ашигладаг байсан. Дараа нь хүлээн зөвшөөрөх үйл явцыг бүс тус бүр дээр тус тусад нь гүйцэтгэсэн. Үүний үр дүнд эдгээр загварууд нь ихэвчлэн нэг зураг дээр олон давталт хийдэг байсан тул нарийвчлал дутмаг, гүйцэтгэлийн хугацаа өндөр байдаг. Нөгөөтэйгүүр, YOLO алгоритм нь нэг зэрэг бүрэн холбогдсон давхаргыг ашиглан таамаглалыг нэг дор гүйцэтгэдэг.

YOLO хэрхэн ажилладаг вэ?

YOLO алгоритм хэрхэн ажилладагийг тайлбарлах гурван алхам байдаг.

Объект илрүүлэхийг дан регрессийн бодлого болгон дахин боловсруулах

The YOLO алгоритм нь объект илрүүлэхийг нэг регрессийн бодлого болгон өөрчлөхийг оролддог, үүнд зургийн пиксел, ангиллын магадлал, хязгаарлах хайрцагны координат орно. Тиймээс алгоритм нь зураг дээрх зорилтот объектуудыг урьдчилан таамаглах, байршлыг тогтоохын тулд зургийг зөвхөн нэг удаа харах ёстой.

Дэлхий даяар дүр төрхийг бий болгох шалтгаанууд

Цаашилбал, YOLO алгоритм нь таамаглал дэвшүүлэхдээ дэлхийн хэмжээнд дүр төрхийг бий болгодог. YOLO алгоритм нь өгөгдлийн багц дээрх сургалт, туршилтын явцад дүрсийг бүрэн харж, ангиудын тухай контекст мэдээлэл, тэдгээр нь хэрхэн харагдахыг кодлох чадвартай тул энэ нь бүс нутгийн саналд суурилсан, гулсах техникээс ялгаатай юм.

YOLO-ээс өмнө Fast R-CNN нь зураг дээрх дэвсгэр нөхөөсийг объект гэж андуурдаг байсан тул зураг дээрх том контекстийг харж чаддаггүй хамгийн алдартай объект илрүүлэх алгоритмуудын нэг байсан. Fast R-CNN алгоритмтай харьцуулахад YOLO нь 50% илүү нарийвчлалтай байдаг арын алдааны тухайд.

Объектуудын төлөөллийг ерөнхийд нь илэрхийлдэг

Эцэст нь, YOLO алгоритм нь зураг дээрх объектуудын дүрслэлийг ерөнхийд нь харуулах зорилготой юм. Үүний үр дүнд YOLO алгоритмыг байгалийн дүрс бүхий өгөгдлийн багц дээр ажиллуулж, үр дүнг нь туршиж үзэхэд YOLO нь одоо байгаа R-CNN загваруудаас хамаагүй илүү байсан. Учир нь YOLO нь ерөнхийд нь маш сайн байдаг тул гэнэтийн оролт эсвэл шинэ домэйн дээр хэрэгжсэн үед эвдрэх магадлал маш бага байсан.

YOLOv7: Шинэ юу байна?

Одоо бид бодит цагийн объект илрүүлэх загвар гэж юу болох, YOLO алгоритм гэж юу болох талаар үндсэн ойлголттой болсон тул YOLOv7 алгоритмын талаар ярилцах цаг болжээ.

Сургалтын үйл явцыг оновчтой болгох

YOLOv7 алгоритм нь зөвхөн загварын архитектурыг оновчтой болгохыг оролдоод зогсохгүй сургалтын үйл явцыг оновчтой болгох зорилготой юм. Энэ нь объект илрүүлэх нарийвчлалыг сайжруулах, сургалтын зардлыг нэмэгдүүлэх, хөндлөнгийн оролцооны зардлыг хадгалахын тулд оновчлолын модуль, аргуудыг ашиглахад чиглэгддэг. Эдгээр оновчлолын модулиудыг a гэж нэрлэж болно сургах боломжтой уут үнэгүй.

Бүдүүн-нарийн хар тугалга чиглүүлсэн шошгоны даалгавар

YOLOv7 алгоритм нь ердийн стандартын оронд Бүдүүн, Нарийн хар тугалгатай шинэ шошгыг ашиглахаар төлөвлөж байна. Динамик шошгоны хуваарилалт. Динамик шошгоны хуваарилалтаар олон гаралтын давхаргатай загварыг сургах нь зарим асуудал үүсгэдэг бөгөөд тэдгээрийн хамгийн түгээмэл нь өөр өөр салбарууд болон тэдгээрийн гаралтуудад динамик зорилтуудыг хэрхэн хуваарилах явдал юм.

Загварыг дахин параметржүүлэх

Загварыг дахин параметржүүлэх нь объект илрүүлэхэд чухал ойлголт бөгөөд сургалтын явцад түүний хэрэглээ нь ерөнхийдөө зарим асуудлуудыг дагаж мөрддөг. YOLOv7 алгоритм нь ойлголтыг ашиглахаар төлөвлөж байна загварыг дахин параметржүүлэх бодлогод дүн шинжилгээ хийх градиент тархалтын зам сүлжээний өөр өөр давхаргад хэрэглэх боломжтой.

Өргөтгөх болон нийлмэл масштаблах

YOLOv7 алгоритм нь мөн танилцуулдаг өргөтгөсөн болон нийлмэл масштабын аргууд бодит цагийн объект илрүүлэх параметр, тооцооллыг ашиглах, үр дүнтэй ашиглах.

YOLOv7 : Холбогдох ажил

Бодит цагийн объект илрүүлэх

YOLO нь одоогоор салбарын стандарт бөгөөд бодит цагийн объект илрүүлэгчдийн ихэнх нь YOLO алгоритмууд болон FCOS (Fully Convolutional One-Stage Object-Detection) ашигладаг. Бодит цагийн объект илрүүлэгч нь ихэвчлэн дараах шинж чанартай байдаг

Илүү хүчтэй, хурдан сүлжээний бүтэц.
Онцлогуудыг нэгтгэх үр дүнтэй арга.
Объект илрүүлэх үнэн зөв арга.
Бат бөх алдагдлын функц.
Шошго хуваарилах үр дүнтэй арга.
Сургалтын үр дүнтэй арга.

YOLOv7 алгоритм нь ихэвчлэн их хэмжээний өгөгдөл шаарддаг бие даан суралцах, нэрэх аргуудыг ашигладаггүй. Эсрэгээр, YOLOv7 алгоритм нь сургаж болох үнэгүй уутны аргыг ашигладаг.

Загварыг дахин параметржүүлэх

Загварыг дахин параметржүүлэх техникийг интерференцийн үе шатанд олон тооцооллын модулиудыг нэгтгэдэг нэгдсэн арга техник гэж үздэг. Энэ техникийг хоёр төрөлд хувааж болно. загвар түвшний чуулга, болон модулийн түвшний чуулга.

Одоо интерференцийн эцсийн загварыг олж авахын тулд загварын түвшний дахин параметржүүлэх арга нь хоёр практикийг ашигладаг. Эхний дадлага нь олон тооны ижил төстэй загваруудыг сургахдаа сургалтын өөр өөр өгөгдлийг ашигладаг бөгөөд дараа нь бэлтгэгдсэн загваруудын жинг дунджаар тооцдог. Эсвэл өөр практик нь янз бүрийн давталтуудын үед загваруудын жинг дунджаар тооцдог.

Сургалтын үе шатанд модулийг өөр өөр модулийн салбарууд эсвэл өөр өөр ижил салбаруудад хувааж, дараа нь хөндлөнгийн оролцоотой байх үед эдгээр өөр салбаруудыг ижил төстэй модульд нэгтгэх ажлыг үргэлжлүүлж байгаа тул модулийн түвшний дахин параметржуулалт нь сүүлийн үед асар их алдартай болж байна.

Гэсэн хэдий ч дахин параметрийн техникийг бүх төрлийн архитектурт ашиглах боломжгүй. Үүний шалтгаан нь юм YOLOv7 алгоритм нь холбогдох стратегийг боловсруулахын тулд шинэ загварын дахин параметржүүлэх арга техникийг ашигладаг. янз бүрийн архитектурт тохиромжтой.

Загварын масштаб

Загварын масштаб гэдэг нь одоо байгаа загварыг өөр өөр компьютерийн төхөөрөмжид тааруулж өсгөх эсвэл багасгах үйл явц юм. Загварын масштаблалт нь ерөнхийдөө давхаргын тоо зэрэг олон хүчин зүйлийг ашигладаг.гүн), оролтын зургийн хэмжээ(тогтоол), онцлог пирамидын тоо (шат), сувгийн тоо(өргөн). Эдгээр хүчин зүйлүүд нь сүлжээний параметрүүд, хөндлөнгийн хурд, тооцоолол, загварын нарийвчлалын тэнцвэртэй солилцоог хангахад чухал үүрэг гүйцэтгэдэг.

Хамгийн түгээмэл хэрэглэгддэг масштабын аргуудын нэг нь NAS эсвэл сүлжээний архитектурын хайлт ямар ч төвөгтэй дүрэмгүйгээр хайлтын системээс тохирох масштабын хүчин зүйлсийг автоматаар хайдаг. NAS-ийн гол сул тал нь масштабын тохирох хүчин зүйлийг хайхад үнэтэй арга юм.

Бараг бүх загварын дахин параметрийн загвар нь хувь хүний болон өвөрмөц масштабын хүчин зүйлсийг бие даан шинжилж, бүр эдгээр хүчин зүйлсийг бие даан оновчтой болгодог. Учир нь NAS архитектур нь хамааралгүй масштабын хүчин зүйлүүдтэй ажилладаг.

Холболт дээр суурилсан загварууд дуртай гэдгийг тэмдэглэх нь зүйтэй VoVNet or DenseNet загваруудын гүнийг масштаблах үед хэд хэдэн давхаргын оролтын өргөнийг өөрчлөх. YOLOv7 нь санал болгож буй холболтод суурилсан архитектур дээр ажилладаг тул нийлмэл масштабын аргыг ашигладаг.

Дээр дурдсан зураг харьцуулж байна өргөтгөсөн үр ашигтай давхаргын нэгтгэх сүлжээ (E-ELAN) янз бүрийн загварууд. Санал болгож буй E-ELAN арга нь анхны архитектурын градиент дамжуулах замыг хадгалдаг боловч бүлгийн эргэлтийг ашиглан нэмэлт функцүүдийн үндсэн чанарыг нэмэгдүүлэх зорилготой юм. Уг процесс нь өөр өөр газрын зургаас сурсан шинж чанаруудыг сайжруулж, тооцоолол, параметрүүдийг илүү үр дүнтэй болгох боломжтой.

YOLOv7 Архитектур

YOLOv7 загвар нь YOLOv4, YOLO-R, Scaled YOLOv4 загваруудыг суурь болгон ашигладаг. YOLOv7 нь үр дүнг сайжруулах, загварыг илүү нарийвчлалтай болгох зорилгоор эдгээр загварууд дээр хийсэн туршилтуудын үр дүн юм.

Өргөтгөсөн үр ашигтай давхаргын нэгтгэх сүлжээ эсвэл E-ELAN

E-ELAN нь YOLOv7 загварын үндсэн барилгын материал бөгөөд сүлжээний үр ашгийн талаар одоо байгаа загваруудаас гаралтай бөгөөд голчлон ELAN.

Үр ашигтай архитектурыг төлөвлөхдөө анхаарах гол зүйл бол параметрийн тоо, тооцооллын нягтрал, тооцооллын хэмжээ юм. Бусад загварууд нь оролт/гаралтын сувгийн харьцаа, архитектурын сүлжээн дэх салбарууд, сүлжээний интерференцийн хурд, эргэлтийн сүлжээний тензор дахь элементийн тоо гэх мэт хүчин зүйлсийг авч үздэг.

The CSPVoNet Энэхүү загвар нь дээр дурдсан параметрүүдийг харгалзан үзээд зогсохгүй өөр өөр давхаргын жинг идэвхжүүлэх замаар илүү олон янзын шинж чанаруудыг судлахын тулд градиент замд дүн шинжилгээ хийдэг. Энэ арга нь хөндлөнгийн оролцоог илүү хурдан бөгөөд үнэн зөв болгох боломжийг олгодог. The ELAN Архитектур нь хамгийн богино градиент замыг хянах үр ашигтай сүлжээг зохион бүтээх зорилготой бөгөөд ингэснээр сүлжээ нь суралцах, нэгтгэхэд илүү үр дүнтэй байх болно.

Тооцооллын блокуудын овоолгын тоо, градиент замын уртаас үл хамааран ELAN аль хэдийн тогтвортой үе шатанд хүрсэн. Тооцооллын блокуудыг хязгааргүй овоолсон тохиолдолд тогтвортой төлөв устаж, параметрийн ашиглалтын түвшин буурах болно. The Санал болгож буй E-ELAN архитектур нь өргөтгөх, холих, нэгтгэх үндсэн байдлыг ашигладаг тул асуудлыг шийдэж чадна. анхны градиент замыг хадгалахын зэрэгцээ сүлжээний суралцах чадварыг тасралтгүй сайжруулах.

Цаашилбал, E-ELAN-ийн архитектурыг ELAN-тай харьцуулахдаа, Шилжилтийн давхаргын архитектур өөрчлөгдөөгүй байхад цорын ганц ялгаа нь тооцооллын блок юм.

E-ELAN нь тооцооллын блокуудын үндсэн байдлыг өргөжүүлж, сувгийг ашиглах замаар өргөтгөхийг санал болгож байна. бүлгийн эргэлт. Дараа нь онцлог газрын зургийг тооцоолж, бүлгийн параметрийн дагуу бүлэг болгон хольж, дараа нь нэгтгэх болно. Бүлэг тус бүрийн сувгийн тоо анхны архитектуртай ижил хэвээр байх болно. Эцэст нь, үндсэн функцийг гүйцэтгэхийн тулд онцлог газрын зургийн бүлгүүд нэмэгдэх болно.

Холболтод суурилсан загварт зориулсан загварын масштаб

Загварын масштаб нь үүнд тусална загваруудын шинж чанаруудыг тохируулах Энэ нь янз бүрийн интерференцийн хурдыг хангахын тулд шаардлагад нийцүүлэн, өөр өөр масштабтай загваруудыг бий болгоход тусалдаг.

Зураг нь холболтод суурилсан янз бүрийн загваруудад зориулсан загвар масштабын тухай өгүүлдэг. (a) ба (b) зурагт үзүүлсэнчлэн тооцооллын блокийн гаралтын өргөн нь загваруудын гүний хэмжээ нэмэгдэх тусам нэмэгддэг. Үүний үр дүнд дамжуулах давхаргын оролтын өргөн нэмэгддэг. Хэрэв эдгээр аргуудыг холболтод суурилсан архитектур дээр хэрэгжүүлсэн бол масштаблах процессыг гүнзгийрүүлэн гүйцэтгэх бөгөөд үүнийг (c) зурагт дүрсэлсэн болно.

Тиймээс уялдаа холбоонд суурилсан загваруудын хувьд масштабын хүчин зүйлсийг бие даан шинжлэх боломжгүй, харин тэдгээрийг хамтад нь авч үзэх эсвэл дүн шинжилгээ хийх шаардлагатай гэж дүгнэж болно. Тиймээс холболтод суурилсан загварын хувьд, харгалзах нийлмэл загварын масштабын аргыг ашиглахад тохиромжтой. Нэмж дурдахад, гүний коэффициентийг масштаблах үед блокийн гаралтын сувгийг мөн масштабтай болгох шаардлагатай.

Сургалтанд хамрагдах боломжтой үнэ төлбөргүй уут

Үнэгүй бэлэгтэй уут гэдэг нь хөгжүүлэгчид тайлбарлахдаа ашигладаг нэр томъёо юм сургалтын стратеги эсвэл зардлыг өөрчлөх арга, арга барилын багц загварын нарийвчлалыг нэмэгдүүлэх оролдлого. Тэгвэл YOLOv7 дээрх эдгээр сургах боломжтой үнэгүй уутнууд юу вэ? Ингээд харцгаая.

Төлөвлөсөн дахин параметржүүлсэн эргэлт

YOLOv7 алгоритм нь тодорхойлохдоо градиент урсгалын тархалтын замыг ашигладаг Сүлжээг дахин параметрчилсэн эргэлттэй хэрхэн хамгийн тохиромжтой хослуулах. YOLov7-ийн энэ арга нь эсрэг оролдлого юм RepConv алгоритм VGG загвар дээр тайван ажилласан хэдий ч DenseNet болон ResNet загварт шууд хэрэглэхэд муу ажилладаг.

Хувиралт давхарга дахь холболтыг тодорхойлохын тулд RepConv алгоритм нь 3×3 эргэлт ба 1×1 эргэлтийг нэгтгэдэг.. Хэрэв бид алгоритм, түүний гүйцэтгэл, архитектурт дүн шинжилгээ хийвэл RepConv нь програмыг устгадаг болохыг ажиглах болно. DenseNet дахь холболт, ResNet дахь үлдэгдэл.

Дээрх зураг нь төлөвлөсөн дахин параметржүүлсэн загварыг дүрсэлсэн байна. YOLov7 алгоритм нь сүлжээн дэх холболт эсвэл үлдэгдэл холболттой давхарга нь RepConv алгоритмд таних холболтгүй байх ёстойг олж мэдсэн. Үүний үр дүнд таних холболтгүйгээр RepConvN-ээр шилжихийг зөвшөөрнө.

Туслах зориулалттай бүдүүн ширхэгтэй, хар тугалга алдагдлын хувьд нарийн

Гүн хяналт нь гүнзгий сүлжээг сургах үйл явцад ихэвчлэн ашиглагддаг компьютерийн шинжлэх ухааны салбар юм. Гүнзгий хяналтын үндсэн зарчим нь энэ сүлжээний дунд давхаргад нэмэлт туслах толгойг нэмнэ туслах алдагдал бүхий гүехэн сүлжээний жингийн хамт. YOLOv7 алгоритм нь эцсийн гаралтыг хариуцдаг толгойг хар тугалга толгой гэж хэлдэг бөгөөд туслах толгой нь сургалтанд туслах толгой юм.

Цаашид YOLOv7 шошго оноохдоо өөр аргыг ашигладаг. Уламжлал ёсоор шошгоны хуваарилалтыг үндсэн үнэнд шууд дурдаж, өгөгдсөн дүрмийн үндсэн дээр шошго үүсгэхэд ашигладаг. Гэсэн хэдий ч сүүлийн жилүүдэд таамаглалын оролтын тархалт, чанар нь найдвартай шошгыг бий болгоход чухал үүрэг гүйцэтгэдэг. YOLOv7 нь объектын зөөлөн шошгыг үүсгэдэг хязгаарлах хайрцаг ба газрын үнэний таамаглалыг ашиглан.

Цаашилбал, YOLOv7 алгоритмын шошго хуваарилах шинэ арга нь хар тугалга ба туслах толгойг хоёуланг нь чиглүүлэхийн тулд хар тугалга толгойн таамаглалыг ашигладаг. Шошго хуваарилах арга нь санал болгож буй хоёр стратегитай.

Тэргүүлэх дарга чиглүүлсэн шошго хуваарилагч

Стратеги нь удирдагчийн таамагласан үр дүн, үндсэн үнэн дээр үндэслэн тооцоолол хийж, дараа нь зөөлөн шошго үүсгэхийн тулд оновчлолыг ашигладаг. Дараа нь эдгээр зөөлөн шошгыг хар тугалга болон туслах толгойн аль алинд нь сургалтын загвар болгон ашигладаг.

Удирдагч дарга илүү их суралцах чадвартай тул түүний үүсгэсэн шошго нь илүү төлөөлөлтэй байх ёстой бөгөөд эх сурвалж, зорилтот хоорондын уялдаа холбоотой байх ёстой гэсэн таамаглал дээр үндэслэн стратеги хэрэгжүүлдэг.

Бүдүүн-нарийн тугалгатай толгойн удирдамжтай шошго хуваарилагч

Энэхүү стратеги нь удирдагчийн таамагласан үр дүн, үндсэн үнэн дээр үндэслэн тооцоолол хийж, дараа нь зөөлөн шошго үүсгэхийн тулд оновчлолыг ашигладаг. Гэсэн хэдий ч гол ялгаа бий. Энэ стратегид хоёр багц зөөлөн шошго байдаг. бүдүүн түвшин, болон нарийн шошго.

Эерэг дээжийн хязгаарлалтыг зөөлрүүлэх замаар бүдүүн шошгыг бий болгодог

илүү олон сүлжээг эерэг зорилт гэж үздэг хуваарилалтын процесс. Энэ нь туслах толгойн сурах чадвар сул учраас мэдээлэл алдах эрсдэлээс зайлсхийхийн тулд хийгдсэн.

Дээрх зурагт YOLOv7 алгоритмд сургаж болох уут үнэгүй хэрэглэхийг тайлбарлав. Энэ нь туслах толгойн хувьд бүдүүн ширхэгтэй, хар тугалганы толгойн хувьд нарийн ширхэгтэй дүрслэгдсэн байна. Туслах толгой(b)-тай загварыг ердийн загвар (a)-тай харьцуулах үед (a)-д байхгүй байхад (b)-д байгаа схем нь туслах толгойтой байгааг ажиглах болно.

Зураг (в) нь нийтлэг бие даасан шошго хуваарилагчийг дүрсэлсэн бол зураг (d) ба зураг (e) нь YOLOv7-н ашигладаг Lead Guided Assigner болон Coarse-toNorfine Lead Guided Assigner-ийг тус тус харуулж байна.

Бусад сургах боломжтой үнэгүй цүнх

Дээр дурьдсан зүйлсээс гадна YOLOv7 алгоритм нь анхнаасаа санал болгоогүй байсан ч нэмэлт уутыг ашигладаг. Тэд байна

Conv-Bn-идэвхжүүлэх технологи дахь багцын хэвийн байдал: Энэ стратеги нь эргэлтийн давхаргыг багцын хэвийн болгох давхаргад шууд холбоход хэрэглэгддэг.
YOLOR дахь далд мэдлэг: YOLOv7 нь стратегийг Convolutional онцлог газрын зурагтай хослуулсан.
EMA загвар: EMA загварыг YOLOv7-д эцсийн жишиг загвар болгон ашигладаг боловч үндсэн хэрэглээ нь багшийн дундаж аргад ашиглагдана.

YOLOv7: Туршилтууд

Туршилтын тохиргоо

YOLOv7 алгоритм нь ашигладаг Сургалт, баталгаажуулалтад зориулсан Microsoft COCO мэдээллийн багц Тэдний объект илрүүлэх загвар бөгөөд эдгээр бүх туршилтууд нь урьдчилан бэлтгэгдсэн загварыг ашигладаггүй. Хөгжүүлэгчид 2017 оны галт тэрэгний мэдээллийн багцыг сургалтанд ашигласан бөгөөд гиперпараметр сонгохдоо 2017 оны баталгаажуулалтын өгөгдлийн багцыг ашигласан. Эцэст нь YOLOv7 объект илрүүлэх үр дүнгийн гүйцэтгэлийг объект илрүүлэх орчин үеийн алгоритмуудтай харьцуулсан болно.

Хөгжүүлэгчид үндсэн загварыг боловсруулсан захын GPU (YOLOv7-жижиг), энгийн GPU (YOLOv7) болон үүл GPU (YOLOv7-W6). Цаашилбал, YOLOv7 алгоритм нь үйлчилгээний өөр өөр шаардлагын дагуу загварыг масштаблах үндсэн загварыг ашигладаг бөгөөд өөр өөр загваруудыг авдаг. YOLOv7 алгоритмын хувьд стекийн масштабыг хүзүүн дээр хийдэг бөгөөд санал болгож буй нэгдлүүдийг загварын гүн, өргөнийг нэмэгдүүлэхэд ашигладаг.

Үндсэн чиглэл

YOLOv7 алгоритм нь өмнөх YOLO загваруудыг ашигладаг бөгөөд YOLOR объект илрүүлэх алгоритмыг үндсэн шугам болгон ашигладаг.

Дээрх зураг нь YOLOv7 загварын суурь үзүүлэлтийг бусад объект илрүүлэх загваруудтай харьцуулсан бөгөөд үр дүн нь тодорхой харагдаж байна. -тай харьцуулбал YOLOv4 алгоритмын дагуу YOLOv7 нь зөвхөн 75% бага параметр ашигладаг төдийгүй 15% бага тооцоолол ашигладаг бөгөөд 0.4% илүү нарийвчлалтай байдаг.

Орчин үеийн объект илрүүлэгч загваруудтай харьцуулах

Дээрх зураг нь YOLOv7-г гар утасны болон ерөнхий GPU-д зориулсан орчин үеийн объект илрүүлэх загвартай харьцуулсан үр дүнг харуулж байна. YOLOv7 алгоритмын санал болгож буй арга нь хурд-нарийвчлалын солилцооны хамгийн сайн оноотой болохыг ажиглаж болно.

Абляцийн судалгаа: Санал болгож буй нэгдлүүдийг масштаблах арга

Дээр үзүүлсэн зураг нь загварыг өргөжүүлэхэд өөр өөр стратеги ашиглах үр дүнг харьцуулсан болно. YOLOv7 загварын масштабын стратеги нь тооцооллын блокийн гүнийг 1.5 дахин, өргөнийг 1.25 дахин томруулдаг.

Зөвхөн гүнийг томруулдаг загвартай харьцуулбал YOLOv7 загвар нь бага параметр, тооцооллын хүч ашиглан 0.5%-иар илүү сайн ажилладаг. Нөгөөтэйгүүр, зөвхөн гүнийг томруулдаг загваруудтай харьцуулахад YOLOv7-ийн нарийвчлал 0.2% -иар сайжирсан боловч параметрийн тоог 2.9%, тооцооллыг 1.2% -иар нэмэгдүүлэх шаардлагатай.

Санал болгож буй Төлөвлөсөн дахин параметржүүлсэн загвар

Түүний санал болгож буй дахин параметржүүлсэн загварын ерөнхий байдлыг шалгахын тулд YOLOv7 алгоритм нь үүнийг үлдэгдэл болон холболтод суурилсан загваруудад баталгаажуулах зорилгоор ашигладаг.. Баталгаажуулах процессын хувьд YOLOv7 алгоритмыг ашигладаг 3 давхарласан ELAN холболтод суурилсан загварт, CSPDarknet үлдэгдэлд суурилсан загварт зориулагдсан.

Холболтод суурилсан загварын хувьд алгоритм нь 3 давхарласан ELAN дахь 3×3 эргэлтийн давхаргыг RepConv-ээр сольсон. Доорх зурагт Төлөвлөсөн RepConv болон 3 давхарласан ELAN-ийн нарийвчилсан тохиргоог харуулав.

Цаашилбал, үлдэгдэлд суурилсан загвартай ажиллахдаа YOLOv7 алгоритм нь урвуу харанхуй блок ашигладаг, учир нь анхны харанхуй блок нь 3 × 3 эргэлтийн блокгүй байдаг. Доорх зурагт 3×3 болон 1×1 эргэлтийн давхаргын байрлалыг өөрчилдөг Reversed CSPDarknet-ийн архитектурыг харуулав.

Туслах даргад санал болгож буй туслах алдагдал

Туслах толгойн туслах алдагдлын хувьд YOLOv7 загвар нь туслах толгой ба хар тугалганы толгойн аргуудын бие даасан шошгоны хуваарилалтыг харьцуулдаг.

Дээрх зураг нь санал болгож буй туслах толгойн талаархи судалгааны үр дүнг агуулна. Туслах алдагдал нэмэгдэхийн хэрээр загварын ерөнхий гүйцэтгэл нэмэгдэж байгааг харж болно. Цаашилбал, YOLOv7 загвараас санал болгож буй тэргүүлэх удирдамжтай шошгоны хуваарилалт нь бие даасан удирдагч томилох стратегиас илүү сайн ажилладаг.

YOLOv7 үр дүн

Дээрх туршилтууд дээр үндэслэн YOLov7-ийн гүйцэтгэлийн үр дүнг бусад объект илрүүлэх алгоритмуудтай харьцуулахад энд харуулав.

Дээрх зурагт YOLOv7 загварыг бусад объект илрүүлэх алгоритмуудтай харьцуулсан бөгөөд YOLOv7 нь эсэргүүцлийг илрүүлэх бусад загваруудаас давуу талтай нь тодорхой харагдаж байна. Дундаж нарийвчлал (AP) v/s багц интерференц.

Цаашилбал, доорх зурагт YOLOv7 v/s бусад бодит цагийн эсэргүүцлийг илрүүлэх алгоритмуудын гүйцэтгэлийг харьцуулсан болно. Дахин нэг удаа YOLOv7 нь ерөнхий гүйцэтгэл, нарийвчлал, үр ашгийн хувьд бусад загваруудыг амжилттай гүйцэтгэсэн.

YOLOv7-ийн үр дүн, гүйцэтгэлээс зарим нэмэлт ажиглалт энд байна.

YOLOv7-Tiny нь 6 сая гаруй параметртэй YOLO гэр бүлийн хамгийн жижиг загвар юм. YOLOv7-Tiny нь 35.2%-ийн дундаж нарийвчлалтай бөгөөд харьцуулж болох параметрүүдтэй YOLOv4-Tiny загваруудаас давуу юм.
YOLOv7 загвар нь 37 сая гаруй параметртэй бөгөөд YOLov4 гэх мэт илүү өндөр үзүүлэлттэй загваруудаас давуу юм.
YOLOv7 загвар нь 5-аас 160 FPS хооронд хамгийн өндөр mAP болон FPS хурдтай.

Дүгнэлт

YOLO буюу You Only Look One нь орчин үеийн компьютерийн харааны орчин үеийн объект илрүүлэх орчин үеийн загвар юм. YOLO алгоритм нь өндөр нарийвчлал, үр ашигтай байдгаараа алдартай бөгөөд үүний үр дүнд бодит цагийн объект илрүүлэх салбарт өргөн хэрэглээг олж авдаг. Анхны YOLO алгоритмыг 2016 онд танилцуулснаас хойш туршилтууд нь хөгжүүлэгчдэд загварыг тасралтгүй сайжруулах боломжийг олгосон.

YOLOv7 загвар нь YOLO гэр бүлийн хамгийн сүүлийн үеийн нэмэлт загвар бөгөөд өнөөг хүртэл хамгийн хүчирхэг YOLo алгоритм юм. Энэ нийтлэлд бид YOLOv7-ийн үндсэн зарчмуудын талаар ярилцаж, YOLOv7-г юу ийм үр дүнтэй болгодог талаар тайлбарлахыг хичээсэн.

Дараа хүртэл

Сурах муруйг чиглүүлэх нь: AI-ийн ой санамжийг хадгалахтай тэмцэх

Бүү саад бол

Метагийн Лама 2 OpenAI-ийн ChatGPT-ийг сорьж байна: хиймэл оюун ухааны хөгжлийн шинэ эрин үе

Кунал Кежривал

"Мэргэжилээрээ инженер, цээжээрээ зохиолч". Кунал бол хиймэл оюун ухаан болон ML-д гүн гүнзгий хайртай, ойлголттой техникийн зохиолч бөгөөд эдгээр салбар дахь нарийн төвөгтэй ойлголтуудыг сонирхолтой, мэдээлэл сайтай баримт бичгүүдээрээ хялбарчлахад зориулагдсан.

Unite.AI

YOLOv7: Обьект илрүүлэх хамгийн дэвшилтэт алгоритм?

Хиймэл оюун

YOLOv7: Обьект илрүүлэх хамгийн дэвшилтэт алгоритм?

Агуулгын хүснэгт

Объект илрүүлэх гэж юу вэ?

Бодит цагийн объект илрүүлэх

YOLO гэж юу вэ?

YOLO хэрхэн ажилладаг вэ?

Объект илрүүлэхийг дан регрессийн бодлого болгон дахин боловсруулах

Дэлхий даяар дүр төрхийг бий болгох шалтгаанууд

Объектуудын төлөөллийг ерөнхийд нь илэрхийлдэг