Inteligjenca artificiale

Një kodek video i krijuar për analizën e AI

Përditësuar on Dhjetor 9, 2022

Edhe pse tekno-thriller Rrethi (2017) është më shumë një koment mbi implikimet etike të rrjeteve sociale sesa praktikat e analitikës së jashtme të videove, kamera e vogël "SeeChange" në qendër të komplotit është ajo që me të vërtetë e shtyn filmin në kategorinë "fantastiko-shkencore".

Kamera/pajisja e vëzhgimit 'SeeChange' nga tekno-trilleri 'The Circle' (2017).

Një pajisje me valë dhe me roaming të lirë përafërsisht sa madhësia e një mermeri të madh, nuk është mungesa e paneleve diellore ose joefikasiteti i tërheqjes së energjisë nga burime të tjera të ambientit (si p.sh. valët e radios) që e bën SeeChange një perspektivë të pamundur, por fakti që do t'i duhet të kompresojë videon 24/7, me çfarëdo ngarkese të pakët që është në gjendje të mbajë.

Fuqia e sensorëve të lirë të këtij lloji është një fushë thelbësore e kërkimit në vizionin kompjuterik (CV) dhe analitikën e videos, veçanërisht në mjediset jourbane ku sensori do të duhet të marrë performancën maksimale nga burimet shumë të kufizuara të energjisë (bateritë, solare, etj. .).

Në rastet kur një pajisje e tillë e fundit IoT/CV e këtij lloji duhet të dërgojë përmbajtje imazhi në një server qendror (shpesh përmes rrjeteve konvencionale të mbulimit celular), zgjedhjet janë të vështira: ose pajisja duhet të ekzekutojë një lloj rrjeti nervor të lehtë në nivel lokal në mënyrë që vetëm për të dërguar optimizuar segmente të të dhënave përkatëse për përpunimin nga ana e serverit; ose duhet të dërgojë video 'memece' për t'i vlerësuar burimet e integruara të cloud.

Megjithëse aktivizimi i lëvizjes përmes Sensorëve Smart Vision (SVS) të bazuara në ngjarje mundet shkurtoni këtë shpenzim, se monitorimi i aktivizimit kushton edhe energji.

Kapur pas pushtetit

Për më tepër, edhe me aktivizim të rrallë (dmth. një dele endet herë pas here në pamje), pajisja nuk ka fuqi të mjaftueshme për të dërguar gigabajt video të pakompresuara; as nuk ka fuqi të mjaftueshme për të ekzekutuar vazhdimisht kodekët e njohur të kompresimit të videove, si p.sh. H.264/5, të cilët presin pajisje që janë ose të kyçur në prizë ose jo larg seancës tjetër të karikimit.

Linjat e analitikës video për tre detyra tipike të vizionit kompjuterik. Arkitektura e kodimit të videos duhet të trajnohet për detyrën në fjalë dhe zakonisht për rrjetin nervor që do të marrë të dhënat. Burimi: https://arxiv.org/pdf/2204.12534.pdf

Megjithëse kodiku H.264 i përhapur gjerësisht ka konsum më të ulët të energjisë se pasardhësi i tij H.265, ai ka efikasitet i dobët i kompresimit. Pasardhësi i tij, H.265, ka efikasitet më të mirë të kompresimit, por konsum më të lartë të energjisë. Ndërsa burimi i hapur i Google Kodiku VP9 i mund të dyja në çdo zonë, kërkon burime më të larta llogaritëse lokale, gjë që paraqet probleme shtesë në një sensor gjoja të lirë IoT.

Sa i përket analizës së transmetimit në nivel lokal: në kohën kur keni ekzekutuar edhe rrjetin nervor lokal më të lehtë për të përcaktuar se cilat korniza (ose zona të një kornize) ia vlen të dërgohen në server, shpesh keni shpenzuar fuqinë që do të kishit. ruhet vetëm duke dërguar të gjitha kornizat.

Nxjerrja e paraqitjeve të maskuara të bagëtive me një sensor që nuk ka gjasa të jetë i lidhur në rrjet. A e shpenzon kapacitetin e tij të kufizuar të fuqisë në segmentimin semantik lokal me një rrjet nervor të lehtë; duke dërguar informacion të kufizuar në një server për udhëzime të mëtejshme (duke futur vonesën); apo duke dërguar të dhëna 'memece' (duke humbur energji në gjerësinë e brezit)? Burimi: https://arxiv.org/pdf/1807.01972.pdf

Është e qartë se projektet e vizionit kompjuterik 'në natyrë' kanë nevojë për kodekë të dedikuar për kompresim video që janë optimizuar për kërkesat e rrjeteve nervore specifike për detyra specifike dhe të ndryshme si segmentimi semantik, zbulimi i pikave kyçe (analiza e lëvizjes njerëzore) dhe zbulimi i objekteve, ndër të tjera të mundshme. përdorimet përfundimtare.

Nëse mund të arrini shkëmbimin e përsosur midis efikasitetit të kompresimit të videos dhe transmetimit minimal të të dhënave, jeni një hap më afër SeeChange dhe aftësisë për të vendosur rrjete sensorë të përballueshëm në mjedise jo miqësore.

AccMPEG

Hulumtimi i ri nga Universiteti i Çikagos mund të ketë bërë një hap më afër një kodeki të tillë, në formën e AccMPEG – një kornizë e re e kodimit dhe transmetimit të videove që funksionon me vonesë të ulët, saktësi të lartë për Rrjetet Neurale të Thellë (DNN) nga ana e serverit dhe që ka kërkesa jashtëzakonisht të ulëta për llogaritjen lokale.

Arkitektura e AccMPEG. Burimi: https://arxiv.org/pdf/2204.12534.pdf

Sistemi është në gjendje të bëjë ekonomi mbi metodat e mëparshme duke vlerësuar shkallën në të cilën çdo 16x16px makroblloku ka të ngjarë të ndikojë në saktësinë e DNN-së nga ana e serverit. Metodat e mëparshme, në vend të kësaj, përgjithësisht duhej të vlerësonin këtë lloj saktësie bazuar në çdo piksel në një imazh ose për të kryer operacione lokale të shtrenjta elektrike për të vlerësuar se cilat rajone të imazhit mund të jenë më me interes.

Në AccMPEG, kjo saktësi vlerësohet në një modul të personalizuar të quajtur AccGrad, i cili mat mënyrat në të cilat cilësia e kodimit të makrobllokut ka të ngjarë të jetë e përshtatshme për rastin e përdorimit përfundimtar, siç është një DNN nga serveri që përpiqet të numërojë njerëzit. të kryejë vlerësimin e skeletit në lëvizjen e njeriut, ose detyra të tjera të zakonshme të vizionit kompjuterik.

Ndërsa një kornizë video mbërrin në sistem, AccMPEG fillimisht e përpunon atë përmes një modeli përzgjedhës me cilësi të lirë, të titulluar AccModel. Çdo zonë që nuk ka të ngjarë të kontribuojë në llogaritjet e dobishme të një DNN nga serveri është në thelb ballast dhe duhet të shënohet për kodim me cilësinë më të ulët të mundshme, në kontrast me rajonet e spikatura, të cilat duhet të dërgohen me cilësi më të mirë.

Ky proces paraqet tre sfida: a mund të kryhet procesi mjaft shpejt për të arritur vonesë të pranueshme pa përdorur burime llogaritëse lokale që shpenzojnë energji? A mund të vendoset një marrëdhënie optimale midis shpejtësisë së kornizës dhe cilësisë? Dhe a mund të trajnohet shpejt një model për një DNN individual nga ana e serverit?

Logjistika e Trajnimit

Idealisht, një kodek kompjuterik i vizionit do të ishte i trajnuar paraprakisht në sistemet e kyçura sipas kërkesave të sakta të një rrjeti nervor specifik. Moduli AccGrad, megjithatë, mund të nxirret drejtpërdrejt nga një DNN me vetëm dy përhapje përpara, me një kursim prej dhjetë herë më të lartë standardin.

AccMPEG trajnon AccGrad për vetëm 15 epoka me tre përhapje secila përmes DNN-së përfundimtare dhe potencialisht mund të ritrajnohet 'live' duke përdorur gjendjen e tij aktuale të modelit si model, të paktën për detyrat e CV-së të specifikuara në mënyrë të ngjashme.

AccModel përdor të trajnuar paraprakisht MobileNet-SSD nxjerrës i veçorive, i zakonshëm në pajisjet me avantazhe të përballueshme. Me një qarkullim prej 12 GFLOPS, modeli përdor vetëm një të tretën e qasjeve tipike ResNet18. Përveç normalizimit dhe aktivizimit të grupit, arkitektura përbëhet vetëm nga shtresa konvolucionale, dhe kostoja e saj e përgjithshme llogaritëse është proporcionale me madhësinë e kornizës.

AccGrad heq nevojën për përfundimin përfundimtar të DNN, duke përmirësuar logjistikën e vendosjes.

Frame Rate

Arkitektura funksionon në mënyrë optimale me 10 fps, gjë që do ta bënte atë të përshtatshme për qëllime të tilla si monitorimi bujqësor, mbikëqyrja e degradimit të ndërtesave, analiza e trafikut me pamje të lartë dhe konkluzionet përfaqësuese të skeletit në lëvizjen e njerëzve; megjithatë, skenarë shumë të shpejtë, të tillë si trafiku me pamje të ulët (të makinave ose njerëzve) dhe situata të tjera në të cilat shpejtësitë e larta të kuadrove janë të dobishme, janë të papërshtatshme për këtë qasje.

Një pjesë e kursimit të metodës qëndron në premisën se makroblloqet ngjitur ka të ngjarë të kenë vlerë të ngjashme, deri në pikën kur një makrobllok bie nën saktësinë e vlerësuar. Zonat e marra nga kjo qasje janë të përcaktuara më qartë dhe mund të llogariten me shpejtësi më të madhe.

Përmirësimi i performancës

Studiuesit testuan sistemin në një bord Jetson Nano prej 60 dollarësh me një GPU të vetme Maxwell 128 bërthamore dhe ekuivalente të tjera të tjera të lira. OpenVINO u përdor për të kompensuar disa nga kërkesat e energjisë të DNN-ve lokale shumë të rralla për CPU-të.

Vetë AccModel fillimisht ishte trajnuar jashtë linje në një server me 8 GPU GeForce RTX 2080S. Megjithëse ky është një grup i mrekullueshëm i fuqisë llogaritëse për një model fillestar, rikualifikimi i lehtë që sistemi bën të mundur dhe mënyra se si një model mund të përshtatet me parametra të caktuar tolerance nëpër DNN të ndryshëm që sulmojnë detyra të ngjashme, do të thotë që AccMPEG mund të janë pjesë e një sistemi që ka nevojë për pjesëmarrje minimale në natyrë.

Botuar për herë të parë më 1 maj 2022.

Temat e ngjashme:Vizioni i kompjuterit hulumtim

E rradhes

Inxhinierët e Johns Hopkins përdorin AI për një vështrim më të thellë në trurin e minjve

Mos e humbas

Imazhi i AI që kupton skenat

Martin Anderson

Shkrimtar për mësimin e makinerive, inteligjencën artificiale dhe të dhënat e mëdha.
Faqja personale: martinanderson.ai
Kontaktoni: [email mbrojtur]
Twitter: @manders_ai