Künstliche Intelligenz

Wiederherstellung überkomprimierter sozialer Medien-Videos mit Machine Learning

Published August 19, 2022

Updated May 23, 2026

Martin Anderson

Neue Forschung aus China bietet eine effektive und innovative Methode, um Details und Auflösung von benutzerhochgeladenen Videos wiederherzustellen, die auf Plattformen wie WeChat und YouTube automatisch komprimiert werden, um Bandbreite und Speicherplatz zu sparen.

Vergleich der neuen Methode mit vorherigen Ansätzen in Bezug auf ihre Fähigkeit, Details genau wiederherzustellen, die während der automatischen Optimierung der sozialen Medien-Plattformen verloren gegangen sind. Quelle: https://arxiv.org/pdf/2208.08597.pdf

Im Gegensatz zu vorherigen Methoden, die Videos basierend auf generischen Trainingsdaten hochskalieren und hochsamplen können, ermittelt die neue Methode eine Degradations-Feature-Karte (DFM) für jeden Frame des komprimierten Videos – effektiv eine Übersicht über die am stärksten beschädigten oder verschlechterten Regionen im Frame, die durch die Komprimierung entstanden sind.

Aus den Ablationsstudien der neuen Arbeit: zweite von rechts, die Ground-Truth für eine “reine” Degradations-Feature-Karte (DFM); dritte von rechts, eine Schätzung des Schadens ohne die Verwendung von DFM. Links, eine viel genauere Karte des Schadens mit DFM.

Der Wiederherstellungsprozess, der convolutionale neuronale Netze (CNNs) nutzt, wird von den Informationen in der DFM geleitet und fokussiert, was es der neuen Methode ermöglicht, die Leistung und Genauigkeit vorheriger Ansätze zu übertreffen.

Die Ground-Truth für den Prozess wurde von den Forschern ermittelt, indem sie hochwertige Videos auf vier beliebte Sharing-Plattformen hochluden, die komprimierten Ergebnisse herunterluden und eine Computer-Vision-Pipeline entwickelten, die in der Lage ist, Komprimierungsartefakte und Detailverlust abstrakt zu lernen, so dass sie auf eine Vielzahl von Plattformen angewendet werden kann, um die Videos auf eine nahezu ursprüngliche Qualität wiederherzustellen, basierend auf vollständig appositen Daten.

Beispiele aus dem neuen UVSSM-Datensatz der Forscher.

Das Material, das in der Forschung verwendet wurde, wurde in einem HQ/LQ-Datensatz mit dem Titel Benutzer-Videos, die auf sozialen Medien geteilt werden (UVSSM) zusammengestellt und kann heruntergeladen werden (Passwort: rsqw) bei Baidu, zum Nutzen nachfolgender Forschungsprojekte, die neue Methoden zur Wiederherstellung von plattformkomprimierten Videos entwickeln möchten.

Ein Vergleich zwischen zwei äquivalenten HQ/LQ-Beispielen aus dem herunterladbaren UVSSM-Datensatz (siehe Links oben für Quell-URLs). Da auch dieses Beispiel möglicherweise mehrere Runden der Komprimierung (Bildanwendung, CMS, CDN usw.) unterliegen kann, bitte auf die ursprünglichen Quelldaten für einen genaueren Vergleich zurückgreifen.

Der Code für das System, das als Video-Wiederherstellung durch adaptive Degradations-Erkennung (VOTES) bekannt ist, wurde auch auf GitHub veröffentlicht, obwohl seine Implementierung eine Reihe von pull-basierten Abhängigkeiten erfordert.

Die Arbeit trägt den Titel Wiederherstellung von Benutzer-Videos, die auf sozialen Medien geteilt werden und stammt von drei Forschern der Shenzhen-Universität und einem Forscher der Abteilung für Elektronik und Informationstechnik der Hong Kong Polytechnic University.

Von Artefakten zu Fakten

Die Fähigkeit, die Qualität von web-gesammelten Videos wiederherzustellen, ohne die generische, manchmal exzessive “Halluzination” von Details, die Programme wie Gigapixel (und die meisten beliebten Open-Source-Pakete ähnlicher Reichweite) bieten, könnte Auswirkungen auf den Bereich der computerbasierten Forschung haben.

Forschung zu video-basierten CV-Technologien verlässt sich häufig auf Footage, die von Plattformen wie YouTube und Twitter stammt, wo die Komprimierungsmethoden und Codecs verwendet werden, die streng gehütet werden, nicht leicht anhand von Artefaktmustern oder anderen visuellen Indikatoren ermittelt werden können und periodisch geändert werden können.

Die meisten Projekte, die web-gefundene Videos nutzen, erforschen nicht die Komprimierung und müssen Vorkehrungen treffen, um die verfügbare Qualität der komprimierten Videos zu berücksichtigen, die die Plattformen anbieten, da sie keinen Zugang zu den ursprünglichen hochwertigen Versionen haben, die die Benutzer hochgeladen haben.

Daher könnte die Fähigkeit, die Qualität und Auflösung solcher Videos wiederherzustellen, ohne die nachfolgende Einflussnahme von nicht verwandten Computer-Vision-Datensätzen, helfen, die häufigen Workarounds und Anpassungen zu vermeiden, die CV-Projekte derzeit für die verschlechterten Videoquellen vornehmen müssen.

Obwohl Plattformen wie YouTube gelegentlich größere Änderungen in der Art und Weise bekannt geben, wie sie Benutzervideos komprimieren (wie VP9), geben sie nie den gesamten Prozess oder die genauen Codecs und Einstellungen preis, die sie verwenden, um die hochwertigen Dateien, die Benutzer hochladen, zu slimmen.

Die Erzielung einer verbesserten Ausgabequalität von Benutzerhochladungen ist daher zu einer Art druidischer Kunst in den letzten zehn Jahren geworden, mit verschiedenen (meist unbestätigten) ‘Workarounds’, die in und aus der Mode kommen.

Methode

Vorherige Ansätze zur Wiederherstellung von Videos mit Deep Learning haben generische Feature-Extraktion beinhaltet, entweder als Ansatz zur Einzelbild-Wiederherstellung oder in einer Multi-Frame-Architektur, die optischen Fluss nutzt (d. h. sie berücksichtigt angrenzende und spätere Frames bei der Wiederherstellung eines aktuellen Frames).

All diese Ansätze mussten mit dem “Black-Box”-Effekt kämpfen – der Tatsache, dass sie die Komprimierungseffekte in den KernTechnologien nicht untersuchen können, weil es nicht sicher ist, ob die KernTechnologien sind oder wie sie für ein bestimmtes Benutzer-Video konfiguriert wurden.

VOTES hingegen versucht, relevante Features direkt aus dem ursprünglichen und komprimierten Video zu extrahieren und Muster der Transformation zu bestimmen, die sich auf die Standards einer Vielzahl von Plattformen verallgemeinern lassen.

Vereinfachte konzeptionelle Architektur für VOTES.

VOTES verwendet ein speziell entwickeltes Degradations-Erkennungsmodul (DSM, siehe Bild oben), um Features in convolutionalen Blöcken zu extrahieren. Mehrere Frames werden dann an ein Feature-Extraktions- und Ausrichtungsmodul (FEAM) übergeben, das diese dann an ein Degradations-Modulationsmodul (DMM) weiterleitet. Schließlich gibt das Wiederherstellungsmodul das wiederhergestellte Video aus.

Daten und Experimente

In der neuen Arbeit haben die Forscher ihre Bemühungen auf die Wiederherstellung von Videos konzentriert, die auf die WeChat-Plattform hochgeladen und wieder heruntergeladen wurden, aber sie waren bestrebt, sicherzustellen, dass der resultierende Algorithmus auf andere Plattformen adaptiert werden kann.

Es stellte sich heraus, dass sobald sie ein effektives Wiederherstellungsmodell für WeChat-Videos erhalten hatten, die Anpassung an Bilibili, Twitter und YouTube nur 90 Sekunden für eine einzelne Epoch für jedes benutzerdefinierte Modell für jede Plattform (auf einer Maschine mit 4 NVIDIA Tesla P40-GPUs mit insgesamt 96 GB VRAM) dauerte.

Die Anpassung des erfolgreichen WeChat-Modells an andere Video-Sharing-Plattformen erwies sich als relativ trivial. Hier sehen wir, wie VOTES fast sofort Parität der Leistung über die verschiedenen Plattformen hinweg erzielt, unter Verwendung des eigenen UVSSM-Datensatzes der Autoren und des REDS-Datensatzes (siehe unten).

Um den UVSSM-Datensatz zu bevölkern, sammelten die Forscher 264 Videos, die zwischen 5-30 Sekunden lang waren, jedes mit einer Bildfrequenz von 30 fps, die direkt von Mobiltelefonkameras oder aus dem Internet stammten. Die Videos hatten alle entweder eine Auflösung von 1920 x 1080 oder 1280 x 270.

Der Inhalt (siehe vorheriges Bild) umfasste Stadtansichten, Landschaften, Menschen und Tiere sowie eine Vielzahl anderer Themen und kann im öffentlichen Datensatz unter Creative-Commons-Attribution-Lizenz verwendet werden, was die Wiederverwendung ermöglicht.

Die Autoren luden 214 Videos auf WeChat hoch, indem sie fünf verschiedene Marken von Mobiltelefonen verwendeten, und erhielten die Standard-Videoauflösung von WeChat von 960×540 (es sei denn, die Quellvideoauflösung war bereits kleiner als diese Dimensionen), unter den “strafendsten” Umwandlungen über beliebte Plattformen hinweg.

Oben links, der ursprüngliche HQ-Frame mit drei vergrößerten Abschnitten; oben rechts, der gleiche Frame aus einer plattform-degradierten komprimierten Version des gleichen Videos; unten links, die berechnete Degradation des komprimierten Frames; und unten rechts, die daraus resultierende “Arbeitszone” für VOTES, um seine Aufmerksamkeit darauf zu konzentrieren. Offensichtlich ist die Größe des Low-Quality-Bildes halb so groß wie die des HQ-Bildes, wurde aber für eine bessere Vergleichbarkeit vergrößert.

Für die späteren Vergleiche mit den Umwandlungsroutinen anderer Plattformen luden die Forscher 50 Videos hoch, die nicht im ursprünglichen Satz von 214 enthalten waren, auf Bilibili, YouTube und Twitter. Die ursprüngliche Auflösung der Videos betrug 1280×270, während die heruntergeladenen Versionen eine Auflösung von 640×360 hatten.

Dies bringt den UVSSM-Datensatz auf insgesamt 364 Paare von ursprünglichen (HQ) und geteilten (LQ) Videos, mit 214 auf WeChat und 50 auf Bilibili, YouTube und Twitter.

Für die Experimente wurden zehn zufällige Videos als Testset ausgewählt, vier als Validierungssatz und die restlichen 200 als Kern-Trainingsset. Die Experimente wurden fünfmal mit K-Fold-Cross-Validation durchgeführt, und die Ergebnisse wurden über diese Instanzen hinweg gemittelt.

Bei Tests zur Video-Wiederherstellung wurde VOTES mit Spatio-Temporal Deformable Fusion (STDF) verglichen. Für die Auflösungsverbesserung wurde es gegen Enhanced Deformable Konvolutionen (EDVR), RSDN, Video-Superauflösung mit Temporaler Gruppen-Aufmerksamkeit (VSR_TGA), und BasicVSR getestet. Google’s einstufige Methode COMISR wurde ebenfalls einbezogen, obwohl sie nicht dem Architekturtyp der anderen vorherigen Arbeiten entspricht.

Die Methoden wurden gegen sowohl UVSS als auch den REDS-Datensatz getestet, wobei VOTES die höchsten Punktzahlen erzielte:

Die Autoren behaupten, dass die qualitativen Ergebnisse auch die Überlegenheit von VOTES gegenüber den vorherigen Systemen anzeigen:

Video-Frames aus REDS, die von konkurrierenden Ansätzen wiederhergestellt wurden. Indikative Auflösung nur – siehe die Arbeit für die definitive Auflösung.

Erstveröffentlicht am 19. August 2022.