Kunstmatige intelligentie
Het herstellen van over-gecomprimeerde sociale media-video’s met machine learning

Nieuw onderzoek uit China biedt een effectieve en innovatieve methode voor het herstellen van details en resolutie van door gebruikers geüploade video’s die automatisch worden gecomprimeerd op platforms zoals WeChat en YouTube om bandbreedte en opslagruimte te besparen.

Vergelijking van de nieuwe methode met eerdere benaderingen, in termen van de mogelijkheid om details nauwkeurig opnieuw op te lossen die zijn weggegooid tijdens de automatische optimalisatie van sociale media-platforms. Bron: https://arxiv.org/pdf/2208.08597.pdf
In tegenstelling tot eerdere methoden die video’s kunnen opschalen en opnemen op basis van generieke trainingsgegevens, haalt de nieuwe benadering een degradatiekenmerkkaart (DFM) op voor elke frame van de gecomprimeerde video – effectief een overzicht van de meest beschadigde of verslechterde gebieden in het frame die het gevolg zijn van compressie.

Uit de nieuwe paper’s ablatie-studies: tweede van rechts, de grondwaarheid voor een ‘puur’ degradatiekenmerkkaart (DFM); derde van rechts, een schatting van de schade zonder het gebruik van DFM. Links, een veel nauwkeurigere kaart van de schade met DFM.
Het herstelproces, dat convolutionele neurale netwerken (CNN’s) en andere technologieën gebruikt, wordt geleid en gefocust door de informatie in de DFM, waardoor de nieuwe methode de prestaties en nauwkeurigheid van eerdere benaderingen kan overtreffen.
De grondwaarheid voor het proces werd verkregen door de onderzoekers door hoge-kwaliteit video’s te uploaden naar vier populaire deelplatforms, de gecomprimeerde resultaten te downloaden en een computer-vision-pipeline te ontwikkelen die in staat is om compressie-artefacten en detailverlies abstract te leren, zodat het kan worden toegepast op een aantal platforms om de video’s te herstellen tot een near-oorspronkelijke kwaliteit, op basis van compleet apposite gegevens.
Het materiaal dat in het onderzoek is gebruikt, is samengesteld in een HQ/LQ-dataset getiteld Gebruikersvideo’s gedeeld op sociale media (UVSSM) en is beschikbaar gesteld voor download (wachtwoord: rsqw) bij Baidu, ten behoeve van latere onderzoeksprojecten die nieuwe methoden willen ontwikkelen om platform-gecomprimeerde video’s te herstellen.

Een vergelijking tussen twee equivalente HQ/LQ-voorbeelden uit de downloadable UVSSM-dataset (zie links boven voor bron-URL’s). Aangezien zelfs dit voorbeeld mogelijk onderhevig kan zijn aan meerdere ronden van compressie (beeldtoepassing, CMS, CDN, enz.), verwijzen we naar de originele brondata voor een nauwkeurigere vergelijking.
De code voor het systeem, dat bekend staat als Videoherstel door adaptieve degradatie-sensing (VOTES), is ook uitgebracht op GitHub, hoewel de implementatie een aantal pull-gebaseerde afhankelijkheden vereist.
De paper heeft de titel Herstel van gebruikersvideo’s gedeeld op sociale media en komt van drie onderzoekers aan de Shenzhen University en één van de afdeling Elektronica en Informatietechnologie aan de Hong Kong Polytechnic University.
Van artefacten tot feiten
De mogelijkheid om de kwaliteit van web-geëxtraheerde video’s te herstellen zonder de generieke, soms excessieve ‘hallucinatie’ van details die worden geleverd door programma’s zoals Gigapixel (en de meeste populaire open source-pakketten van vergelijkbare omvang) kan implicaties hebben voor de computer-vision-onderzoekssector.
Onderzoek naar video-gebaseerde CV-technologieën vertrouwt vaak op beelden die zijn verkregen van platforms zoals YouTube en Twitter, waar de compressiemethoden en codecs die worden gebruikt, nauwgezet worden bewaard, niet gemakkelijk kunnen worden afgeleid op basis van artifact-patronen of andere visuele indicatoren en kunnen periodiek veranderen.
De meeste projecten die web-gevonden video’s gebruiken, onderzoeken geen compressie, en moeten rekening houden met de beschikbare kwaliteit van gecomprimeerde video die de platforms bieden, aangezien ze geen toegang hebben tot de originele hoge-kwaliteitversies die de gebruikers hebben geüpload.
Derhalve kan de mogelijkheid om getrouw meer kwaliteit en resolutie te herstellen voor dergelijke video’s, zonder invloed van nevenstroom van ongerelateerde computer-vision-datasets, helpen om de frequente workarounds en accommodaties te omzeilen die CV-projecten momenteel moeten maken voor de verslechterde video-bronnen.
Hoewel platforms zoals YouTube af en toe grote veranderingen aankondigen in de manier waarop ze gebruikersvideo’s comprimeren (zoals VP9), onthullen ze nooit expliciet het hele proces of de exacte codecs en instellingen die worden gebruikt om de hoge-kwaliteitbestanden van gebruikers te verkleinen.
Het bereiken van verbeterde uitvoerkwaliteit van gebruikersuploads is daarom een soort Druidic kunst in de afgelopen tien jaar, met verschillende (meestal onbevestigde) ‘workarounds’ die in en uit de mode gaan.
Methode
Eerdere benaderingen van deep learning-gebaseerde videoherstel hebben generieke kenmerkextractie betrokken, hetzij als een benadering voor enkel-frameherstel of in een multi-frame-architectuur die optical flow (d.w.z. die rekening houdt met aangrenzende en latere frames bij het herstellen van een huidige frame) gebruikt.
Al deze benaderingen hebben te maken gehad met het ‘black box’-effect – het feit dat ze de compressie-effecten in de kern technologieën niet kunnen onderzoeken, omdat het niet zeker is of wat de kern technologieën zijn, of hoe ze zijn geconfigureerd voor een bepaalde gebruikersgeüploade video.
VOTES daarentegen zoekt naar het extraheren van prominente kenmerken rechtstreeks uit de originele en gecomprimeerde video, en bepaalt transformatiepatronen die zullen generaliseren naar de normen van een aantal platforms.
VOTES gebruikt een speciaal ontwikkeld degradatie-sensormodule (DSM, zie bovenstaand beeld) om kenmerken in convolutionele blokken te extraheren. Meerdere frames worden vervolgens doorgegeven aan een kenmerkextractie- en aligneermodule (FEAM), waarna deze worden doorgestuurd naar een degradatie-modulatiemodule (DMM). Ten slotte produceert de reconstructiemodule de herstelde video.
Gegevens en experimenten
In het nieuwe onderzoek hebben de onderzoekers hun inspanningen gericht op het herstellen van video’s die zijn geüpload naar en opnieuw zijn gedownload van het WeChat-platform, maar waren bezorgd om ervoor te zorgen dat de resulterende algoritme kon worden aangepast aan andere platforms.
Het bleek dat zodra ze een effectief herstelmodel hadden verkregen voor WeChat-video’s, het aanpassen ervan aan Bilibili, Twitter en YouTube slechts 90 seconden duurde voor een enkele epoch voor elk aangepast model voor elk platform (op een machine met 4 NVIDIA Tesla P40 GPU’s met een totaal van 96 GB VRAM).

Het aanpassen van het succesvolle WeChat-model aan andere video-deelplatforms bleek vrij triviaal. Hier zien we VOTES die vrijwel onmiddellijk gelijkwaardigheid van prestaties bereikt over de verschillende platforms, met behulp van de auteurs’ eigen UVSSM-dataset en de REDS-dataset (zie hieronder).
Om de UVSSM-dataset te bevolken, verzamelden de onderzoekers 264 video’s met een lengte van 5-30 seconden, elk met een framefrequentie van 30 fps, afkomstig van mobiele telefoons of van het internet. De video’s hadden allemaal een resolutie van 1920 x 1080 of 1280 x 270.
De inhoud (zie eerder beeld) omvatte stadsgezichten, landschappen, mensen en dieren, onder andere onderwerpen, en zijn beschikbaar in de openbare dataset via Creative Commons Attribution-licentie, waardoor hergebruik mogelijk is.
De auteurs uploaden 214 video’s naar WeChat met vijf verschillende merken van mobiele telefoons, en verkregen de standaardvideoresolutie van WeChat van 960×540 (tenzij de bronvideo al kleiner is dan deze dimensies), onder de meest ‘straffende’ conversies over populaire platforms.

Boven-links, het originele HQ-frame met drie vergrote secties; boven-rechts, hetzelfde frame van een platform-gecomprimeerde versie van dezelfde video; onder-links, de berekende degradatie van het gecomprimeerde frame; en onder-rechts, het gevolgde ‘werkgebied’ voor VOTES om zijn aandacht op te richten. Het is duidelijk dat de grootte van het lage-kwaliteitsbeeld de helft is van het HQ-beeld, maar is hier voor de duidelijkheid van de vergelijking herschaald.
Om de vergelijkingen met de conversieroutines van andere platforms te maken, uploaden de onderzoekers 50 video’s niet opgenomen in de oorspronkelijke 214 naar Bilibili, YouTube en Twitter. De video’s hadden oorspronkelijk een resolutie van 1280×270, met de gedownloade versies op 640×360.
Dit brengt de UVSSM-dataset tot een totaal van 364 paar originele (HQ) en gedeelde (LQ) video’s, met 214 naar WeChat en 50 elk naar Bilibili, YouTube en Twitter.
Voor de experimenten werden 10 willekeurige video’s geselecteerd als testset, vier als validatie-set en de resterende 200 als core trainingsset. Experimenten werden vijf keer uitgevoerd met K-fold cross-validatie, met de resultaten gemiddeld over deze instanties.
In tests voor videoherstel werd VOTES vergeleken met Spatio-Temporal Deformable Fusion (STDF). Voor resolutieverbetering werd het getest tegen Enhanced Deformable convoluties (EDVR), RSDN, Video Super-resolutie met Temporele Groepsattentie (VSR_TGA), en BasicVSR. Google’s single-stage methode COMISR werd ook opgenomen, hoewel het niet past in het architectuurtype van de andere eerdere werken.
De methoden werden getest tegen zowel UVSS als de REDS-dataset, met VOTES die de hoogste scores behaalde:
De auteurs beweren dat de kwalitatieve resultaten ook aangeven de superioriteit van VOTES tegenover de eerdere systemen:

Video-frames van REDS hersteld door concurrerende benaderingen. Aanduiding van resolutie alleen – zie het papier voor definitieve resolutie.
Publicatie op 19 augustus 2022.















