стуб ИОЛОв7: Најнапреднији алгоритам за детекцију објеката? - Уните.АИ
Повежите се са нама

Вештачка интелигенција

ИОЛОв7: Најнапреднији алгоритам за детекцију објеката?

mm

објављен

 on

6. јул 2022. биће обележен као прекретница у историји вештачке интелигенције јер је на данашњи дан изашао ИОЛОв7. Још од свог лансирања, ИОЛОв7 је најтоплија тема у заједници програмера Цомпутер Висион, и то из правих разлога. ИОЛОв7 се већ сматра прекретницом у индустрији детекције објеката. 

Убрзо после објављен је рад ИОЛОв7, показао се као најбржи и најпрецизнији модел детекције приговора у реалном времену. Али како ИОЛОв7 надмашује своје претходнике? Шта чини ИОЛОв7 тако ефикасним у обављању задатака компјутерског вида? 

У овом чланку ћемо покушати да анализирамо модел ИОЛОв7 и покушаћемо да пронађемо одговор зашто ИОЛОв7 сада постаје индустријски стандард? Али пре него што одговоримо на то, мораћемо да погледамо кратку историју детекције објеката. 

Шта је откривање објеката?

Детекција објеката је грана компјутерског вида који идентификује и лоцира објекте на слици или видео датотеци. Детекција објеката је саставни део бројних апликација, укључујући самовозеће аутомобиле, надгледани надзор, па чак и роботику. 

Модел детекције објеката може се класификовати у две различите категорије, детектори са једним ударцем, детектори са више зрна. 

Детекција објеката у реалном времену

Да бисмо заиста разумели како ИОЛОв7 функционише, неопходно је да разумемо главни циљ ИОЛОв7, „Детекција објеката у реалном времену”. Детекција објеката у реалном времену је кључна компонента модерног компјутерског вида. Модели детекције објеката у реалном времену покушавају да идентификују и лоцирају објекте од интереса у реалном времену. Модели за откривање објеката у реалном времену учинили су да је програмерима заиста ефикасно да прате објекте од интереса у покретном кадру, као што је видео, или улаз за надзор уживо. 

Модели за детекцију објеката у реалном времену су у суштини корак испред конвенционалних модела детекције слика. Док се први користи за праћење објеката у видео датотекама, други лоцира и идентификује објекте унутар стационарног оквира попут слике. 

Као резултат тога, модели детекције објеката у реалном времену су заиста ефикасни за видео аналитику, аутономна возила, бројање објеката, праћење више објеката и још много тога. 

Шта је ИОЛО?

ИОЛО или „Гледате само једном” је породица модела детекције објеката у реалном времену. ИОЛО концепт је први пут увео Џозеф Редмон 2016. године, а град је скоро одмах почео да прича јер је био много бржи и много тачнији од постојећих алгоритама за детекцију објеката. Није прошло много времена пре него што је ИОЛО алгоритам постао стандард у индустрији компјутерског вида. 

Основни концепт који ИОЛО алгоритам предлаже је коришћење енд-то-енд неуронске мреже користећи граничне кутије и вероватноће класа за предвиђање у реалном времену. ИОЛО се разликовао од претходног модела детекције објеката у смислу да је предложио другачији приступ за обављање детекције објеката пренамјеном класификатора. 

Промена у приступу је функционисала јер је ИОЛО убрзо постао индустријски стандард јер је јаз у перформансама између њега и других алгоритама за детекцију објеката у реалном времену био значајан. Али шта је био разлог зашто је ИОЛО био тако ефикасан? 

У поређењу са ИОЛО-ом, тада су алгоритми за откривање објеката користили мреже предлога региона да открију могуће регионе од интереса. Процес препознавања је затим обављен за сваки регион посебно. Као резултат тога, ови модели су често изводили вишеструке итерације на истој слици, а самим тим и недостатак тачности и веће време извршења. С друге стране, ИОЛО алгоритам користи један потпуно повезани слој да изврши предвиђање одједном. 

Како ИОЛО ради?

Постоје три корака који објашњавају како функционише ИОЛО алгоритам. 

Преобликовање детекције објеката као проблем једне регресије

ИОЛО алгоритам покушава да преобликује детекцију објеката као један проблем регресије, укључујући пикселе слике, на вероватноће класа и координате оквира. Дакле, алгоритам мора да погледа слику само једном да би предвидео и лоцирао циљне објекте на сликама. 

Разлози за слику глобално

Осим тога, када ИОЛО алгоритам прави предвиђања, он образлаже слику глобално. Разликује се од клизних техника заснованих на предлогу региона јер ИОЛО алгоритам види комплетну слику током обуке и тестирања на скупу података и може да кодира контекстуалне информације о класама и како се оне појављују. 

Пре ИОЛО-а, Фаст Р-ЦНН је био један од најпопуларнијих алгоритама за детекцију објеката који није могао да види већи контекст на слици јер је грешком погрешио позадинске закрпе на слици за објекат. У поређењу са алгоритмом Фаст Р-ЦНН, ИОЛО је 50% тачнији када су у питању грешке у позадини. 

Генерализује представљање објеката

Коначно, ИОЛО алгоритам такође има за циљ да генерализује репрезентације објеката на слици. Као резултат тога, када је ИОЛО алгоритам покренут на скупу података са природним сликама и тестиран за резултате, ИОЛО је надмашио постојеће Р-ЦНН моделе са великом разликом. То је зато што је ИОЛО веома генерализован, шансе да се поквари када се примени на неочекиваним улазима или новим доменима биле су мале. 

ИОЛОв7: Шта је ново?

Сада када имамо основно разумевање шта су модели детекције објеката у реалном времену и шта је ИОЛО алгоритам, време је да разговарамо о алгоритму ИОЛОв7. 

Оптимизација процеса обуке

Алгоритам ИОЛОв7 не само да покушава да оптимизује архитектуру модела, већ такође има за циљ оптимизацију процеса обуке. Има за циљ коришћење модула и метода оптимизације за побољшање тачности детекције објеката, повећање трошкова обуке, уз одржавање трошкова сметњи. Ови модули за оптимизацију се могу назвати а кеса бесплатних за обуку. 

Од грубог до финог додела оловних ознака

Алгоритам ИОЛОв7 планира да користи нову доделу вођених ознака од грубог до финог уместо конвенционалног Динамичка додела ознака. То је зато што са динамичким додељивањем ознака, обука модела са више излазних слојева изазива неке проблеме, од којих је најчешћи како доделити динамичке циљеве за различите гране и њихове резултате. 

Поновна параметризација модела

Репараметризација модела је важан концепт у детекцији објеката, а њена употреба је генерално праћена неким проблемима током обуке. Алгоритам ИОЛОв7 планира да користи концепт путања пропагације градијента за анализу политика репараметризације модела применљиво на различите слојеве у мрежи. 

Проширено и сложено скалирање

Алгоритам ИОЛОв7 такође уводи проширене и сложене методе скалирања да користи и ефикасно користи параметре и прорачуне за детекцију објеката у реалном времену. 

ИОЛОв7 : Повезани рад

Детекција објеката у реалном времену

ИОЛО је тренутно индустријски стандард, а већина детектора објеката у реалном времену примењује ИОЛО алгоритме и ФЦОС (Фулли Цонволутионал Оне-Стаге Објецт-Детецтион). Најсавременији детектор објеката у реалном времену обично има следеће карактеристике

  • Јача и бржа мрежна архитектура. 
  • Ефикасан метод интеграције карактеристика. 
  • Тачан метод детекције објеката. 
  • Робусна функција губитка. 
  • Ефикасан метод додељивања етикета. 
  • Ефикасан метод обуке. 

Алгоритам ИОЛОв7 не користи самоконтролисане методе учења и дестилације које често захтевају велике количине података. Супротно томе, ИОЛОв7 алгоритам користи методу џабе-бесплате која се може обучити. 

Поновна параметризација модела

Технике репараметаризације модела се сматрају техником ансамбла која спаја више рачунарских модула у фази интерференције. Техника се даље може поделити у две категорије, ансамбл на нивоу модела, ансамбл на нивоу модула. 

Сада, да би се добио коначни модел интерференције, техника репараметаризације на нивоу модела користи две праксе. Прва пракса користи различите податке о обуци за обуку бројних идентичних модела, а затим усредсређује тежину обучених модела. Алтернативно, друга пракса усредсређује тежине модела током различитих итерација. 

Репараметаризација нивоа модула у последње време добија огромну популарност јер дели модул на различите гране модула, или различите идентичне гране током фазе обуке, а затим наставља да интегрише ове различите гране у еквивалентни модул уз сметње. 

Међутим, технике репараметаризације се не могу применити на све врсте архитектуре. То је разлог зашто се Алгоритам ИОЛОв7 користи нове технике репараметаризације модела за дизајнирање повезаних стратегија погодан за различите архитектуре. 

Скалирање модела

Скалирање модела је процес повећања или смањења постојећег модела тако да се уклапа у различите рачунарске уређаје. Скалирање модела генерално користи различите факторе као што је број слојева (дубина), величина улазних слика (резолуција), број пирамида карактеристика(фаза), и број канала (ширина). Ови фактори играју кључну улогу у обезбеђивању уравнотеженог компромиса за мрежне параметре, брзину интерференције, прорачун и тачност модела. 

Једна од најчешће коришћених метода скалирања је НАС или претрага мрежне архитектуре који аутоматски тражи одговарајуће факторе скалирања из претраживача без икаквих компликованих правила. Главни недостатак коришћења НАС-а је то што је то скуп приступ за тражење одговарајућих фактора скалирања. 

Скоро сваки модел репараметаризације модела независно анализира појединачне и јединствене факторе скалирања, и штавише, чак и независно оптимизује ове факторе. То је зато што НАС архитектура ради са некорелисаним факторима скалирања. 

Вреди напоменути да модели засновани на конкатенацији попут ВоВНет or ДенсеНет промените улазну ширину неколико слојева када се скалира дубина модела. ИОЛОв7 ради на предложеној архитектури заснованој на конкатенацији и стога користи сложени метод скалирања.

Горе поменута цифра упоређује проширене ефикасне мреже агрегације слојева (Е-ЕЛАН) различитих модела. Предложени Е-ЕЛАН метод одржава градијентну путању преноса оригиналне архитектуре, али има за циљ повећање кардиналности додатних карактеристика коришћењем групне конволуције. Процес може побољшати карактеристике научене помоћу различитих мапа, и може додатно учинити коришћење прорачуна и параметара ефикаснијим. 

ИОЛОв7 Арцхитецтуре

ИОЛОв7 модел користи ИОЛОв4, ИОЛО-Р и Сцалед ИОЛОв4 моделе као своју основу. ИОЛОв7 је резултат експеримената спроведених на овим моделима како би се побољшали резултати и модел учинио прецизнијим. 

Проширена ефикасна мрежа агрегације слојева или Е-ЕЛАН

Е-ЕЛАН је основни градивни блок ИОЛОв7 модела, и изведен је из већ постојећих модела мрежне ефикасности, углавном ЕЛАН. 

Главна разматрања при пројектовању ефикасне архитектуре су број параметара, густина израчунавања и количина израчунавања. Други модели такође узимају у обзир факторе као што су утицај односа улазно/излазних канала, гране у архитектури мреже, брзина мрежних сметњи, број елемената у тензорима конволуционе мреже и друго. 

ЦСПВоНет модел не само да узима у обзир горе поменуте параметре, већ и анализира путању градијента да би научио више различитих карактеристика омогућавањем тежине различитих слојева. Приступ омогућава да сметње буду много брже и тачне. Тхе ЕЛАН архитектура има за циљ дизајнирање ефикасне мреже за контролу најкраће најдуже путање градијента тако да мрежа може бити ефикаснија у учењу и конвергирању. 

ЕЛАН је већ достигао стабилну фазу без обзира на број слагања рачунских блокова и дужину путање градијента. Стабилно стање може бити уништено ако се рачунски блокови слажу неограничено, а стопа искоришћења параметара ће се смањити. Тхе предложена Е-ЕЛАН архитектура може да реши проблем јер користи проширење, мешање и кардиналност спајања да континуирано побољшавају способност учења мреже уз задржавање оригиналне путање градијента. 

Штавише, када упоредимо архитектуру Е-ЕЛАН-а са ЕЛАН-ом, једина разлика је у рачунарском блоку, док је архитектура прелазног слоја непромењена. 

Е-ЕЛАН предлаже да се прошири кардиналност рачунских блокова и прошири канал коришћењем групна конволуција. Мапа обележја ће се затим израчунати и измешати у групе према параметру групе, а затим ће бити спојена заједно. Број канала у свакој групи ће остати исти као у оригиналној архитектури. На крају, групе мапа обележја биће додате да би се извршила кардиналност. 

Скалирање модела за моделе засноване на конкатенацији

Скалирање модела помаже прилагођавање атрибута модела који помаже у генерисању модела према захтевима и различитих размера како би се задовољиле различите брзине сметњи. 

Слика говори о скалирању модела за различите моделе засноване на конкатенацији. Као што можете на слици (а) и (б), ширина излаза рачунског блока се повећава са повећањем скалирања дубине модела. Као резултат, повећава се улазна ширина трансмисионих слојева. Ако су ове методе имплементиране на архитектури заснованој на конкатенацији, процес скалирања се изводи у дубини, и то је приказано на слици (ц). 

Стога се може закључити да није могуће независно анализирати факторе скалирања за моделе засноване на конкатенацији, већ се они морају разматрати или анализирати заједно. Стога, за модел заснован на конкатенацији, погодно је користити одговарајући метод скалирања сложеног модела. Додатно, када је фактор дубине скалиран, мора се скалирати и излазни канал блока. 

Торба бесплатних за обуку 

Врећа бесплатних производа је термин који програмери користе за описивање скуп метода или техника које могу променити стратегију или цену обуке у покушају да се повећа тачност модела. Па шта су то џакови бесплатних програма за обуку у ИОЛОв7? Хајде да погледамо. 

Планирана ре-параметризована конволуција

Алгоритам ИОЛОв7 користи путање ширења градијентног тока за одређивање како идеално комбиновати мрежу са ре-параметризованом конволуцијом. Овај приступ ИОЛов7 је покушај супротстављања РепЦонв алгоритам који иако је имао спокојан учинак на ВГГ моделу, лош је када се примени директно на ДенсеНет и РесНет моделе. 

Да би се идентификовале везе у конволуционом слоју, РепЦонв алгоритам комбинује 3×3 конволуцију и 1×1 конволуцију. Ако анализирамо алгоритам, његове перформансе и архитектуру, приметићемо да РепЦонв уништава конкатенација у ДенсеНет, а остатак у РесНет

Слика изнад приказује планирани ре-параметаризовани модел. Може се видети да је ИОЛов7 алгоритам открио да слој у мрежи са конкатенацијом или резидуалним везама не би требало да има везу идентитета у алгоритму РепЦонв. Као резултат тога, прихватљиво је пребацивање са РепЦонвН без повезивања идентитета. 

Грубо за помоћно и фино за губитак олова

Дубоки надзор је грана рачунарске науке која често налази своју примену у процесу обуке дубоких мрежа. Основни принцип дубоког надзора је да се додаје додатну помоћну главу у средњим слојевима мреже заједно са плитким теговима мреже са губитком помоћника као водичем. Алгоритам ИОЛОв7 се односи на главу која је одговорна за коначни излаз као водећу главу, а помоћна глава је глава која помаже у тренингу. 

Идући даље, ИОЛОв7 користи другачији метод за доделу ознака. Конвенционално, додељивање ознака се користи за генерисање ознака упућивањем директно на основну истину и на основу датог скупа правила. Међутим, последњих година, дистрибуција и квалитет инпута за предвиђање играју важну улогу у стварању поуздане ознаке. ИОЛОв7 генерише меку ознаку објекта коришћењем предвиђања граничне кутије и темељне истине. 

Штавише, нова метода додељивања ознака алгоритма ИОЛОв7 користи предвиђања главе електроде да би водила и електроду и помоћну главу. Метода додељивања ознака има две предложене стратегије. 

Леад Хеад Гуидед Лабел Ассигнер

Стратегија прави прорачуне на основу резултата предвиђања главне главе и основне истине, а затим користи оптимизацију за генерисање меких ознака. Ове меке ознаке се затим користе као модел за обуку и за главну и за помоћну главу. 

Стратегија функционише на претпоставци да, пошто главни руководилац има већу способност учења, ознаке које генерише треба да буду репрезентативније и да корелирају између извора и циља. 

Додељивач етикета са вођеном главом од грубог до финог

Ова стратегија такође прави прорачуне на основу резултата предвиђања главне главе и основне истине, а затим користи оптимизацију за генерисање меких ознака. Међутим, постоји кључна разлика. У овој стратегији постоје два скупа меких етикета, груби ниво, фина етикета. 

Груба ознака се генерише ублажавањем ограничења позитивног узорка

процес додељивања који више мрежа третира као позитивне циљеве. То се ради да би се избегао ризик од губитка информација због слабије снаге учења помоћног руководиоца. 

Слика изнад објашњава употребу врећице бесплатних програма која се може обучити у алгоритму ИОЛОв7. Приказује грубу за помоћну главу и фину за оловну главу. Када упоредимо модел са помоћном главом (б) са нормалним моделом (а), приметићемо да шема у (б) има помоћну главу, док је нема у (а). 

Слика (ц) приказује уобичајеног независног додељивача етикете док слике (д) и слика (е) респективно представљају Леад Гуидед Ассигнер и Грубо до Фино Леад Гуидед Ассигнер који користи ИОЛОв7.  

Друга врећа бесплатних додатака за обуку

Поред горе поменутих, алгоритам ИОЛОв7 користи додатне вреће бесплатних програма, иако их они првобитно нису предложили. Су

  • Групна нормализација у технологији Цонв-Бн-Ацтиватион: Ова стратегија се користи за повезивање конволуционог слоја директно са слојем за нормализацију серије. 
  • Имплицитно знање у ИОЛОР-у: ИОЛОв7 комбинује стратегију са конволуционом мапом обележја. 
  • ЕМА модел: ЕМА модел се користи као коначни референтни модел у ИОЛОв7 иако се његова примарна употреба користи у методи средњег наставника. 

ИОЛОв7 : Експерименти

Експериментална поставка

Алгоритам ИОЛОв7 користи Мицрософт ЦОЦО скуп података за обуку и валидацију њихов модел детекције објеката, а не користе сви ови експерименти унапред обучени модел. Програмери су користили скуп података за обуку из 2017. за обуку и користили скуп података за валидацију из 2017. за одабир хиперпараметара. Коначно, перформансе резултата детекције објеката ИОЛОв7 се пореде са најсавременијим алгоритмима за детекцију објеката. 

Програмери су дизајнирали основни модел за едге ГПУ (ИОЛОв7-тини), нормални ГПУ (ИОЛОв7) и цлоуд ГПУ (ИОЛОв7-В6). Штавише, ИОЛОв7 алгоритам такође користи основни модел за скалирање модела према различитим захтевима услуге и добија различите моделе. За алгоритам ИОЛОв7, скалирање стека се врши на врату, а предложена једињења се користе за повећање дубине и ширине модела. 

Основне линије

Алгоритам ИОЛОв7 користи претходне ИОЛО моделе, а ИОЛОР алгоритам за детекцију објеката као своју основну линију.

Горња слика упоређује основну линију модела ИОЛОв7 са другим моделима детекције објеката, а резултати су прилично очигледни. У поређењу са Алгоритам ИОЛОв4, ИОЛОв7 не само да користи 75% мање параметара, већ користи и 15% мање израчунавања и има 0.4% већу прецизност. 

Поређење са најсавременијим моделима детектора објеката

Горња слика приказује резултате када се ИОЛОв7 упореди са најсавременијим моделима детекције објеката за мобилне и опште ГПУ-ове. Може се приметити да метод који је предложио алгоритам ИОЛОв7 има најбољи резултат компромиса између брзине и тачности. 

Студија аблације: Предложена метода скалирања једињења

Слика приказана изнад упоређује резултате коришћења различитих стратегија за повећање модела. Стратегија скалирања у моделу ИОЛОв7 повећава дубину рачунарског блока за 1.5 пута, а шири ширину за 1.25 пута. 

У поређењу са моделом који само повећава дубину, ИОЛОв7 модел ради боље за 0.5% док користи мање параметара и рачунарске снаге. С друге стране, у поређењу са моделима који само повећавају дубину, тачност ИОЛОв7 је побољшана за 0.2%, али број параметара треба да се скалира за 2.9%, а израчунавање за 1.2%. 

Предложени планирани ре-параметаризовани модел

Да би се проверила општост свог предложеног ре-параметризованог модела, Алгоритам ИОЛОв7 га користи на моделима заснованим на резидуалности и конкатенацији за верификацију. За процес верификације користи се алгоритам ИОЛОв7 3-слагани ЕЛАН за модел заснован на конкатенацији, и ЦСПДаркнет за модел заснован на резидуалној основи. 

За модел заснован на конкатенацији, алгоритам замењује 3×3 конволуционе слојеве у 3-слаганом ЕЛАН-у са РепЦонв. На слици испод приказана је детаљна конфигурација Планнед РепЦонв и ЕЛАН са 3 наслага. 

Штавише, када се ради са моделом заснованим на резидуалној основи, ИОЛОв7 алгоритам користи обрнути тамни блок јер оригинални тамни блок нема блок конволуције 3×3. Слика испод приказује архитектуру Реверсед ЦСПДаркнет која мења позиције 3×3 и 1×1 конволуционог слоја. 

Предложени губитак помоћника за помоћног шефа

За помоћни губитак за помоћну главу, модел ИОЛОв7 упоређује независну доделу ознака за методе помоћне главе и водеће главе. 

Горња слика садржи резултате студије о предложеној помоћној глави. Може се видети да се укупне перформансе модела повећавају са повећањем губитка помоћника. Штавише, додела ознака вођена водећим потенцијалним клијентима коју предлаже модел ИОЛОв7 има бољи учинак од независних стратегија додељивања потенцијалних клијената. 

ИОЛОв7 Ресултс

На основу горњих експеримената, ево резултата перформанси ИОЛов7 у поређењу са другим алгоритмима за детекцију објеката. 

На горњој слици се пореди модел ИОЛОв7 са другим алгоритмима за детекцију објеката, и може се јасно приметити да ИОЛОв7 надмашује друге моделе детекције приговора у смислу Просечна прецизност (АП) в/с серијска интерференција

Штавише, слика испод упоређује перформансе ИОЛОв7 в/с других алгоритама за детекцију приговора у реалном времену. Још једном, ИОЛОв7 је наследио друге моделе у погледу укупних перформанси, тачности и ефикасности. 

Ево неколико додатних запажања из резултата и перформанси ИОЛОв7. 

  1. ИОЛОв7-Тини је најмањи модел у ИОЛО породици, са преко 6 милиона параметара. ИОЛОв7-Тини има просечну прецизност од 35.2% и надмашује моделе ИОЛОв4-Тини са упоредивим параметрима. 
  2. Модел ИОЛОв7 има преко 37 милиона параметара и надмашује моделе са вишим параметрима као што је ИОЛов4. 
  3. Модел ИОЛОв7 има највећи мАП и ФПС стопу у распону од 5 до 160 ФПС. 

Zakljucak

ИОЛО или Гледаш само једном је најсавременији модел детекције објеката у модерном компјутерском виду. ИОЛО алгоритам је познат по својој високој прецизности и ефикасности, и као резултат тога, налази широку примену у индустрији детекције објеката у реалном времену. Од када је први ИОЛО алгоритам уведен 2016. године, експерименти су омогућили програмерима да континуирано побољшавају модел. 

ИОЛОв7 модел је најновији додатак у ИОЛО породици, и то је најмоћнији ИОЛо алгоритам до сада. У овом чланку смо говорили о основама ИОЛОв7 и покушали да објаснимо шта чини ИОЛОв7 тако ефикасним. 

„Инжењер по занимању, писац по срцу“. Кунал је технички писац са дубоком љубављу и разумевањем АИ и МЛ, посвећен поједностављивању сложених концепата у овим областима кроз своју занимљиву и информативну документацију.