Kunstig intelligens

Genopretning af overkomprimerede sociale medievideoer med maskinlæring

mm
Main image source: DALL-E 2

Nyt forskning fra Kina tilbyder en effektiv og ny metode til at genskabe detaljer og opløsning til brugeruploadet video, der automatisk er komprimeret på platforme som WeChat og YouTube for at spare båndbredde og lagringsplads.

Sammenligning af den nye metode med tidligere tilgange, i forhold til dens evne til nøjagtigt at genskabe detaljer, der blev kasseret under sociale medieplatformens automatiske optimering. Kilde: https://arxiv.org/pdf/2208.08597.pdf

Sammenligning af den nye metode med tidligere tilgange, i forhold til dens evne til nøjagtigt at genskabe detaljer, der blev kasseret under sociale medieplatformens automatiske optimering. Kilde: https://arxiv.org/pdf/2208.08597.pdf

I modsætning til tidligere metoder, der kan opskalere og opsamle videoer baseret på generisk træningsdata, udleder den nye metode i stedet en degraderingsfunktion (DFM) for hvert billede i den komprimerede video – effektivt en oversigt over de mest beskadigede eller forringede områder i billedet, der er resultatet af komprimering.

Fra den nye artikels ablationsstudier: anden fra højre, sandheden for en 'ren' degraderingsfunktion (DFM); tredje fra højre, en estimering af skaden uden brug af DFM. Venstre, en langt mere præcis kort over skaden med DFM.

Fra den nye artikels ablationsstudier: anden fra højre, sandheden for en ‘ren’ degraderingsfunktion (DFM); tredje fra højre, en estimering af skaden uden brug af DFM. Venstre, en langt mere præcis kort over skaden med DFM.

Genoprettelsesprocessen, der udnytter convolutionelle neurale netværk (CNN), blandt andre teknologier, styres og fokuseres af informationen i DFM, hvilket tillader den nye metode at overgå præstationen og nøjagtigheden af tidligere tilgange.

Sandheden for processen blev erhvervet af forskerne ved at uploade højkvalitetsvideo til fire populære delingsplatforme, downloade de komprimerede resultater og udviklede en computer vision-pipeline, der kan abstrakt lære kompressionsarter og detaljtab, så den kan anvendes på tværs af flere platforme til at genskabe videoerne til en næsten oprindelig kvalitet, baseret på helt modsat data.

Eksempler fra forskernes nye UVSSM-dataset.

Eksempler fra forskernes nye UVSSM-dataset.

Materialet, der er brugt i forskningen, er samlet i et HQ/LQ-dataset med titlen Bruger videoer delt på sociale medier (UVSSM) og er gjort tilgængelig for download (adgangskode: rsqw) på Baidu, til fordel for efterfølgende forskningsprojekter, der søger at udvikle nye metoder til at genskabe platform-komprimeret video.

En sammenligning mellem to ekvivalente HQ/LQ-prøver fra det downloadbare UVSSM-dataset (se links ovenfor for kilde-URL'er). Da dette eksempel kan være underlagt multiple kompressionsrunder (billedeapplikation, CMS, CDN osv.), henvises til den originale kilde-data for en mere præcis sammenligning.

En sammenligning mellem to ekvivalente HQ/LQ-prøver fra det downloadbare UVSSM-dataset (se links ovenfor for kilde-URL’er). Da dette eksempel kan være underlagt multiple kompressionsrunder (billedeapplikation, CMS, CDN osv.), henvises til den originale kilde-data for en mere præcis sammenligning.

Koden for systemet, der er kendt som Video genskabelse gennem adaptiv degraderingssensing (VOTES), er også blevet frigivet på GitHub, selvom dens implementering indebærer en række pull-baserede afhængigheder.

Den artikel er titlen Genskabelse af bruger videoer delt på sociale medier og kommer fra tre forskere ved Shenzhen Universitet og en fra afdelingen for Elektronik og Informationsteknologi ved Hong Kong Polytechnic Universitet.

Fra artefakter til fakta

Evnen til at genskabe kvaliteten af web-skrapede videoer uden den generiske, nogle gange ekstreme ‘hallucination’ af detaljer, som programmer som Gigapixel (og de fleste af de populære open source-pakker af lignende omfang) kan levere, kunne have implikationer for computer vision-forskningssektoren.

Forskning i video-baserede CV-teknologier afhænger ofte af optagelser, der er erhvervet fra platforme som YouTube og Twitter, hvor kompressionsmetoderne og codec’er, der bruges, er nært beskyttet, ikke kan let opdages på basis af artefaktmønstre eller andre visuelle indikatorer og kan ændre periodisk.

De fleste projekter, der udnytter web-fundne videoer, forsker ikke i kompression, og må gøre indrømmelser for den tilgængelige kvalitet af komprimeret video, som platformene tilbyder, da de ikke har adgang til de originale højkvalitetsversioner, som brugerne uploaded.

Derfor kunne evnen til trofast at genskabe højere kvalitet og opløsning til sådanne videoer, uden at indføre downstream-påvirkning fra urelaterede computer vision-datasets, kunne hjælpe med at undgå de hyppige workarounds og tilpasninger, som CV-projekter må i øjeblikket gøre for de degraderede video-kilder.

Selv om platforme som YouTube lejlighedsvis vil prale af store ændringer i, hvordan de komprimerer brugernes videoer (såsom VP9), afslører ingen af dem eksPLICIT hele processen eller de nøjagtige codec’er og indstillinger, der bruges til at slimme ned de højkvalitetsfiler, som brugerne uploader.

At opnå forbedret udgangskvalitet fra brugerupload har derfor blevet en slags druidisk kunst i de sidste ti år eller så, med forskellige (hovedsageligt ubekræftede) ‘workarounds’, der går ind og ud af mode.

Metode

Tidligere tilgange til dyb læring-baseret video genskabelse har involveret generisk funktionsextraktion, enten som en tilgang til enkelt-billede genskabelse eller i en multi-ramme-arkitektur, der udnytter optisk flow (dvs. at den tager hensyn til nærliggende og senere billeder, når den genskaber et nuværende billede).

Alle disse tilgange har måttet kæmpe med ‘black box’-effekten – det faktum, at de ikke kan undersøge kompressionseffekter i kerne-teknologierne, fordi det ikke er sikkert, hvad kerne-teknologierne er, eller hvordan de var konfigureret for en given bruger-uploadet video.

VOTES søger i stedet at udlede saliente funktioner direkte fra den originale og komprimerede video og bestemme mønstre af transformation, der vil generalisere til standarderne for en række platforme.

Forenklet konceptuel arkitektur for VOTES.

Forenklet konceptuel arkitektur for VOTES.

VOTES bruger en særligt udviklet degraderingssensormodul (DSM, se billedet ovenfor) til at udlede funktioner i convolutionelle blokke. Flere billeder sendes derefter til en funktionsextraktions- og alignmentsmodul (FEAM), som derefter sendes til en degraderingsmoduleringsmodul (DMM). Til sidst udskriver genskabelsesmodulen den genskabte video.

Data og eksperimenter

I det nye arbejde har forskerne koncentreret deres indsats på at genskabe video, der er uploadet til og gen-download fra WeChat-platformen, men var bekymret for at sikre, at den resulterende algoritme kunne tilpasses til andre platforme.

Det viste sig, at når de havde erhvervet en effektiv genskabelsesmodel for WeChat-videoer, var det kun 90 sekunder for en enkelt epoch for hver brugerdefineret model for hver platform (på en maskine, der kører 4 NVIDIA Tesla P40 GPU’er med i alt 96 GB VRAM).

Tilpasning af den succesfulde WeChat-model til andre video-delingsplatforme viste sig at være ret let. Her ser vi VOTES opnå næsten øjeblikkelig lighed i præstation på tværs af de forskellige platforme, ved hjælp af forfatternes eget UVSSM-dataset og REDS-dataset (se nedenfor).

Tilpasning af den succesfulde WeChat-model til andre video-delingsplatforme viste sig at være ret let. Her ser vi VOTES opnå næsten øjeblikkelig lighed i præstation på tværs af de forskellige platforme, ved hjælp af forfatternes eget UVSSM-dataset og REDS-dataset (se nedenfor).

For at befolke UVSSM-datasettet samlede forskerne 264 videoer, der varierer mellem 5-30 sekunder, hver med en 30fps-billedefrekvens, hentet enten direkte fra mobiltelefonkameraer eller fra internettet. Videoerne var alle enten 1920 x 1080 eller 1280 x 270 opløsning.

Indhold (se tidligere billedtekst) inkluderer bybilleder, landskaber, mennesker og dyr, blandt en række andre emner, og er brugbare i det offentlige dataset via Creative Commons Attribution-licens, der tillader genbrug.

Forskerne uploadede 214 videoer til WeChat ved hjælp af fem forskellige mærker af mobiltelefoner og fik WeChats standardvideoopløsning på 960×540 (medmindre kildevideoen allerede er mindre end disse dimensioner), blandt de mest ‘straffe’ konverteringer på tværs af populære platforme.

Øverst til venstre, det originale HQ-billede med tre forstørrede sektioner; øverst til højre, det samme billede fra en platform-degraderet komprimeret version af den samme video; nederst til venstre, den beregnede degradering af den komprimerede billede; og nederst til højre, det efterfølgende 'arbejdsområde' for VOTES til at fokusere sin opmærksomhed på. Det er tydeligt, at størrelsen af det lavkvalitetsbillede er halv størrelsen af det højkvalitetsbillede, men er blevet omskaleret her for sammenligningens skyld.

Øverst til venstre, det originale HQ-billede med tre forstørrede sektioner; øverst til højre, det samme billede fra en platform-degraderet komprimeret version af den samme video; nederst til venstre, den beregnede degradering af den komprimerede billede; og nederst til højre, det efterfølgende ‘arbejdsområde’ for VOTES til at fokusere sin opmærksomhed på. Det er tydeligt, at størrelsen af det lavkvalitetsbillede er halv størrelsen af det højkvalitetsbillede, men er blevet omskaleret her for sammenligningens skyld.

For de efterfølgende sammenligninger mod konverteringsrutinerne for andre platforme uploadede forskerne 50 videoer ikke inkluderet i de oprindelige 214 til Bilibili, YouTube og Twitter. Videoernes oprindelige opløsning var 1280×270, med de downloaded versioner stående på 640×360.

Dette bringer UVSSM-datasettet til en samlet størrelse på 364 par af originale (HQ) og delte (LQ) videoer, med 214 til WeChat og 50 til hver af Bilibili, YouTube og Twitter.

For eksperimenterne blev 10 tilfældige videoer valgt som testmængden, fire som valideringsmængden og resten af 200 som den centrale træningsmængde. Eksperimenterne blev udført fem gange med K-fold-crossvalidering, og resultaterne blev gennemsnittet på tværs af disse instanser.

I tests for video-genskabelse blev VOTES sammenlignet med Spatio-Temporal Deformable Fusion (STDF). For opløsningsforbedring blev det testet mod Enhanced Deformable konvolutioner (EDVR), RSDN, Video Super-resolution med Temporal Group Attention (VSR_TGA) og BasicVSR. Google’s single-stage metode COMISR blev også inkluderet, selvom det ikke passer til arkitekturtypen af de tidligere værker.

Metoderne blev testet mod både UVSS og REDS-datasettet, med VOTES opnående de højeste score:

Forfatterne påstår, at de kvalitative resultater også indikerer overlegenheden af VOTES mod de tidligere systemer:

Video-frames fra REDS genskabt af konkurrerende tilgange. Indikativ opløsning kun - se artiklen for definitiv opløsning.

Video-frames fra REDS genskabt af konkurrerende tilgange. Indikativ opløsning kun – se artiklen for definitiv opløsning.

 

Først udgivet 19. august 2022.

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.