Artificiell intelligens
à terstÀllning av överkomprimerade sociala medie-videor med maskinlÀrande

Ny forskning från Kina erbjuder en effektiv och ny metod för att återställa detaljer och upplösning till användaruppladdade videor som komprimeras automatiskt på plattformar som WeChat och YouTube för att spara bandbredd och lagringsutrymme.

Jämförelse av den nya metoden med tidigare metoder, när det gäller dess förmåga att korrekt återge detaljer som förlorats under sociala medieplattformens automatiska optimering. Källa: https://arxiv.org/pdf/2208.08597.pdf
Till skillnad från tidigare metoder som kan öka upplösningen och sampeln på videor baserat på generisk träningsdata, utvecklar den nya metoden istället en degraderingsfunktion (DFM) för varje ram i den komprimerade videon – i princip en översikt över de mest skadade eller försämrade områdena i ramen som har orsakats av komprimering.

Från den nya artikeln's ablationsstudier: andra från höger, grundvärdet för en 'ren' degraderingsfunktion (DFM); tredje från höger, en uppskattning av skadan utan att använda DFM. Vänster, en mycket mer exakt karta över skadan med DFM.
Återställningsprocessen, som utnyttjar konvolutionsneuronnät (CNN), bland annat, styrs och fokuseras av informationen i DFM, vilket gör att den nya metoden kan överträffa prestanda och noggrannhet hos tidigare metoder.
Grundvärdet för processen erhölls genom att forskarna laddade upp högkvalitativa videor till fyra populära delningsplattformar, laddade ner de komprimerade resultaten och utvecklade en datorseende-pipeline som kunde abstrakt lära sig komprimeringsartefakter och detaljförlust, så att den kunde tillämpas på ett antal plattformar för att återställa videorna till en nästan ursprunglig kvalitet, baserat på helt olika data.
Material som används i forskningen har sammanställts i en HQ/LQ-dataset med titeln Användar-videor som delas på sociala medier (UVSSM), och har gjorts tillgänglig för nedladdning (lösenord: rsqw) på Baidu, till förmån för efterföljande forskningsprojekt som syftar till att utveckla nya metoder för att återställa plattforms-komprimerad video.

En jämförelse mellan två ekvivalenta HQ/LQ-exempel från det nedladdningsbara UVSSM-datasetet (se länkar ovan för käll-URL:er). Eftersom även detta exempel kan vara föremål för flera omgångar av komprimering (bildapplikation, CMS, CDN etc.), se den ursprungliga källdatan för en mer exakt jämförelse.
Koden för systemet, som kallas Video-återställning genom adaptiv degraderingssensning (VOTES), har också släppts på GitHub, även om dess implementering medför ett antal pull-baserade beroenden.
Den artikeln heter Återställning av användar-videor som delas på sociala medier, och kommer från tre forskare vid Shenzhen University, och en från Institutionen för elektronik och informationsingenjörsvetenskap vid Hong Kong Polytechnic University.
Från artefakter till fakta
Förmågan att återställa kvaliteten på webb-skrämda videor utan den generiska, ibland överdrivna ‘hallucination’ av detaljer som program som Gigapixel (och de flesta populära öppen källkods-paket av liknande omfattning) kunde ha implikationer för datorseende-forskningsektorn.
Forskning inom video-baserade CV-teknologier förlitar sig ofta på footage som erhållits från plattformar som YouTube och Twitter, där komprimeringsmetoderna och codecarna som används är väl skyddade, inte kan utvinnas lätt baserat på artefaktmönster eller andra visuella indikatorer, och kan ändras periodiskt.
De flesta projekt som utnyttjar webb-funna videor forskar inte om komprimering, och måste göra avkall på den tillgängliga kvaliteten på den komprimerade videon som plattformarna erbjuder, eftersom de inte har tillgång till de ursprungliga högkvalitativa versionerna som användarna laddade upp.
Därför kan förmågan att troget återställa högre kvalitet och upplösning till sådana videor, utan att införa nedströms-påverkan från orelaterade datorseende-datasets, kunna hjälpa till att undvika de vanliga workaround och anpassningar som CV-projekt måste för närvarande göra för de degraderade videokällorna.
Även om plattformar som YouTube ibland trummar ut stora förändringar i hur de komprimerar användarnas videor (såsom VP9), avslöjar ingen av dem explicit hela processen eller de exakta codecarna och inställningarna som används för att smalna ner de högkvalitativa filerna som användarna laddar upp.
Att uppnå förbättrad utmatningskvalitet från användaruppladdningar har därför blivit en sorts druidisk konst under de senaste tio åren, med olika (huvudsakligen oconfirmade) ‘workaround’ som kommer och går.
Metod
Tidigare tillvägagångssätt för djupinlärningsbaserad video-återställning har involverat generisk funktionsextrahering, antingen som ett tillvägagångssätt för enkelram-återställning eller i en multifram-arkitektur som utnyttjar optisk flöde (dvs. som tar hänsyn till angränsande och senare ramar när man återställer en aktuell ram).
Samtliga av dessa tillvägagångssätt har varit tvungna att hantera ‘black box’-effekten – det faktum att de inte kan undersöka komprimeringseffekter i kärnteknologierna, eftersom det inte är säkert antingen vad kärnteknologierna är, eller hur de konfigurerades för en viss användaruppladdad video.
VOTES, istället, syftar till att extrahera framträdande funktioner direkt från den ursprungliga och komprimerade videon, och bestämma transformationsmönster som kommer att generalisera till standarderna för ett antal plattformar.
VOTES använder en särskilt utvecklad degraderingssensningsmodul (DSM, se bild ovan) för att extrahera funktioner i konvolutionsblock. Flera ramar skickas sedan till en funktionsextraherings- och justeringsmodul (FEAM), med dessa som sedan skickas till en degraderingsmoduleringsmodul (DMM). Slutligen genererar återställningsmodulen den återställda videon.
Data och experiment
I det nya arbetet har forskarna koncentrerat sina ansträngningar på att återställa video som laddats upp till och nedladdats från WeChat-plattformen, men var angelägna om att se till att den resulterande algoritmen kunde anpassas till andra plattformar.
Det visade sig att när de väl hade fått en effektiv återställningsmodell för WeChat-videor, tog det bara 90 sekunder för en enskild epoch för varje anpassad modell för varje plattform (på en maskin som kör 4 NVIDIA Tesla P40 GPU:er med totalt 96 GB VRAM).

Anpassning av den framgångsrika WeChat-modellen till andra video-delningplattformar visade sig vara ganska trivial. Här ser vi VOTES uppnå nästan omedelbar paritet i prestanda över olika plattformar, med hjälp av författarnas eget UVSSM-dataset och REDS-datasetet (se nedan).
För att fylla i UVSSM-datasetet samlade forskarna in 264 videor som varierade mellan 5-30 sekunder, var och en med en ramfrekvens på 30fps, hämtade antingen direkt från mobiltelefonkameror eller från internet. Videorna var antingen 1920 x 1080 eller 1280 x 270 i upplösning.
Innehållet (se tidigare bild) inkluderade stadsvyer, landskap, människor och djur, bland andra ämnen, och är användbara i det offentliga datasetet via Creative Commons Attribution-licens, vilket tillåter återanvändning.
Författarna laddade upp 214 videor till WeChat med hjälp av fem olika mobiltelefonmärken, och fick WeChats standardvideo-upplösning på 960×540 (om inte käll-videon redan är mindre än dessa dimensioner), bland de mest “stränga” konverteringarna över populära plattformar.

Övre vänster, den ursprungliga HQ-ramen med tre förstorade sektioner; övre höger, samma ram från en plattforms-degraderad komprimerad version av samma video; nedersta vänster, den beräknade degraderingen av den komprimerade ramen; och nedersta höger, det efterföljande 'arbetsområdet' för VOTES att fokusera sin uppmärksamhet på. Det är uppenbart att storleken på den lågkvalitativa bilden är hälften av den ursprungliga, men har storleksändrats här för tydlighetens skull.
För de senare jämförelserna mot konverteringsrutinerna för andra plattformar laddade forskarna upp 50 videor inte inkluderade i de ursprungliga 214 till Bilibili, YouTube och Twitter. Videornas ursprungliga upplösning var 1280×270, med de nedladdade versionerna på 640×360.
Detta gör att UVSSM-datasetet totalt sett består av 364 par med ursprungliga (HQ) och delade (LQ) videor, med 214 till WeChat, och 50 vardera till Bilibili, YouTube och Twitter.
För experimenten valdes 10 slumpmässiga videor som testuppsättning, fyra som valideringsuppsättning och de återstående 200 som den centrala träningsuppsättningen. Experimenten utfördes fem gånger med K-faldig validering, och resultaten genomsnittligades över dessa instanser.
I tester för video-återställning jämfördes VOTES med Spatio-Temporal Deformable Fusion (STDF). För upplösningsförbättring testades det mot Enhanced Deformable konvolutioner (EDVR), RSDN, Video Super-resolution med Temporal Group Attention (VSR_TGA), och BasicVSR. Googles enstegs-metod COMISR ingick också, även om den inte passar arkitekturtypen för de tidigare arbetena.
Metoderna testades mot både UVSS och REDS-datasetet, med VOTES som uppnådde de högsta poängen:
Författarna hävdar att de kvalitativa resultaten också indikerar överlägsenheten hos VOTES gentemot tidigare system:

Videofrån REDS återställda av konkurrerande metoder. Indikativ upplösning endast – se artikeln för definitiv upplösning.
Publicerad första gången den 19 augusti 2022.















