Vernetzen Sie sich mit uns

Effizienteres Entfernen von Objekten aus Videos mit maschinellem Lernen

Künstliche Intelligenz

Effizienteres Entfernen von Objekten aus Videos mit maschinellem Lernen

mm

Neue Forschungsergebnisse aus China berichten über hochmoderne Ergebnisse – sowie eine beeindruckende Effizienzsteigerung – für ein neues Video-Inpainting-System, mit dem Objekte geschickt aus Filmmaterial entfernt werden können.

Das Gurtzeug eines Drachenfliegers wird nach dem neuen Verfahren lackiert. Eine bessere Auflösung und weitere Beispiele finden Sie im Quellvideo (am Ende dieses Artikels eingebettet). Quelle: https://www.youtube.com/watch?v=N--qC3T2wc4

Das Gurtzeug eines Hängegleiters wird nach dem neuen Verfahren unkenntlich gemacht. Im Originalvideo finden Sie eine bessere Auflösung und weitere Beispiele. Quelle: https://www.youtube.com/watch?v=N–qC3T2wc4

Die Technik, genannt End-to-End-Framework für Flow-Guided Video Inpainting (E2FGVI) ist auch in der Lage, Wasserzeichen und verschiedene andere Arten von Verdeckungen aus Videoinhalten zu entfernen.

E2FGVI berechnet Vorhersagen für Inhalte, die hinter Verdeckungen liegen, und ermöglicht so die Entfernung selbst auffälliger und hartnäckiger Wasserzeichen. Quelle: https://github.com/MCG-NKU/E2FGVI

E2FGVI berechnet Vorhersagen für Inhalte, die hinter Verdeckungen liegen, und ermöglicht so die Entfernung selbst auffälliger und ansonsten hartnäckiger Wasserzeichen. Quelle: https://github.com/MCG-NKU/E2FGVI

(Weitere Beispiele in besserer Auflösung finden Sie unter das Video)

Obwohl das im veröffentlichten Artikel vorgestellte Modell auf 432 x 240 Pixel großen Videos trainiert wurde (üblicherweise niedrige Eingabegrößen, eingeschränkt durch verfügbaren GPU-Speicherplatz im Vergleich zu optimalen Stapelgrößen und anderen Faktoren), haben die Autoren es inzwischen veröffentlicht E2FGVI-Hauptquartier, das Videos mit beliebiger Auflösung verarbeiten kann.

Der Code für die aktuelle Version lautet verfügbar auf GitHub, während die letzte Sonntag veröffentlichte HQ-Version unter heruntergeladen werden kann Google Drive und Baidu-Disk.

Das Kind bleibt im Bild.

Das Kind bleibt im Bild.

E2FGVI kann 432×240-Videos mit 0.12 Sekunden pro Bild auf einer Titan XP-GPU (12 GB VRAM) verarbeiten, und die Autoren berichten, dass das System fünfzehnmal schneller arbeitet als frühere, auf dem neuesten Stand der Technik basierende Methoden optischer Fluss.

Ein Tennisspieler macht einen unerwarteten Abgang.

Ein Tennisspieler macht einen unerwarteten Abgang.

Getestet an Standarddatensätzen für diesen Teilbereich der Bildsyntheseforschung konnte die neue Methode die Konkurrenz sowohl in qualitativen als auch in quantitativen Bewertungsrunden übertreffen.

Tests gegen frühere Ansätze. Quelle: https://arxiv.org/pdf/2204.02663.pdf

Tests gegen frühere Ansätze. Quelle: https://arxiv.org/pdf/2204.02663.pdf

Die Lebensdauer eines Krepppapier ist betitelt Auf dem Weg zu einem End-to-End-Framework für flussgesteuertes Video-Inpaintingund ist eine Zusammenarbeit zwischen vier Forschern der Nankai-Universität und einem Forscher von Hisilicon Technologies.

Was fehlt in diesem Bild

Neben seinen offensichtlichen Anwendungen für visuelle Effekte wird hochwertiges Video-Inpainting ein zentrales bestimmendes Merkmal neuer KI-basierter Bildsynthese- und Bildbearbeitungstechnologien werden.

Dies gilt insbesondere für körperverändernde Modeanwendungen und andere Frameworks versuchen, „abzunehmen“ oder Szenen in Bildern und Videos auf andere Weise verändern. In solchen Fällen ist es notwendig, den zusätzlichen Hintergrund, der durch die Synthese freigelegt wird, überzeugend „auszufüllen“.

Aus einer kürzlich erschienenen Arbeit geht hervor, dass ein Algorithmus zur Körperumformung die Aufgabe hat, den neu sichtbaren Hintergrund einzumalen, wenn die Größe eines Motivs geändert wird. Hier wird dieses Defizit durch den roten Umriss dargestellt, den die (im wirklichen Leben, siehe Bild links) vollerfigurige Person einnahm. Basierend auf Quellenmaterial von https://arxiv.org/pdf/2203.10496.pdf

In einem aktuellen Artikel wird ein Algorithmus zur „Umformung“ des Körpers beschrieben, der den neu sichtbaren Hintergrund übermalt, wenn die Größe eines Motivs verändert wird. Hier wird dieser Mangel durch den roten Umriss dargestellt, den die (im echten Leben, siehe Bild links) fülligere Person vorher hatte. Basierend auf Quellenmaterial von https://arxiv.org/pdf/2203.10496.pdf

Kohärenter optischer Fluss

Der optische Fluss (OF) ist zu einer Kerntechnologie bei der Entwicklung der Videoobjektentfernung geworden. Wie ein AtlasOF liefert eine einmalige Abbildung einer zeitlichen Abfolge. OF wird häufig zur Geschwindigkeitsmessung bei Computer Vision-Initiativen eingesetzt und ermöglicht auch ein zeitlich konsistentes Inpainting, bei dem die Gesamtsumme der Aufgabe in einem einzigen Durchgang berücksichtigt werden kann, anstatt wie bei Disney eine Einzelbildaufmerksamkeit zu erfordern, die unweigerlich zu zeitlicher Diskontinuität führt.

Bisherige Video-Inpainting-Methoden basieren auf einem dreistufigen Prozess: Flussabschluss, wobei das Video im Wesentlichen in eine diskrete und erforschbare Einheit umgewandelt wird; Pixelausbreitung, bei dem die Löcher in „beschädigten“ Videos durch sich in beide Richtungen ausbreitende Pixel gefüllt werden; und Inhaltliche Halluzination (Pixel-„Erfindung“, die den meisten von uns von Deepfakes und Text-zu-Bild-Frameworks wie der DALL-E-Serie bekannt ist), bei der der vermeintlich „fehlende“ Inhalt erfunden und in das Filmmaterial eingefügt wird.

Die zentrale Innovation von E2FGVI soll diese drei Phasen in einem End-to-End-System kombinieren, sodass keine manuellen Eingriffe in den Inhalt oder den Prozess erforderlich sind.

Das Papier stellt fest, dass die Notwendigkeit manueller Eingriffe erfordert, dass ältere Prozesse die Vorteile einer GPU nicht nutzen, was sie recht zeitaufwändig macht. Aus dem Artikel*:

„Nehmen DFVI Als Beispiel wird ein Video mit der Größe 432 × 240 erstellt DAVIS, das etwa 70 Frames enthält, benötigt etwa 4 Minuten, was in den meisten realen Anwendungen inakzeptabel ist. Abgesehen von den oben genannten Nachteilen werden außerdem die Inhaltsbeziehungen zwischen zeitlich benachbarten Objekten ignoriert, wenn nur ein vortrainiertes Bild-Inpainting-Netzwerk in der Phase der Inhaltshalluzination verwendet wird, was zu inkonsistent generierten Inhalten in Videos führt.‘

Durch die Vereinigung der drei Phasen des Video-Inpaintings hat E2FGVI ist in der Lage, die zweite Stufe, die Pixelausbreitung, durch die Merkmalsausbreitung zu ersetzen. In den stärker segmentierten Prozessen früherer Arbeiten sind die Funktionen nicht so umfassend verfügbar, da jede Phase relativ hermetisch ist und der Arbeitsablauf nur halbautomatisiert ist.

Darüber hinaus haben die Forscher eine entwickelt zeitlicher Fokustransformator für die Phase der Inhaltshalluzination, die nicht nur die direkten Nachbarn von Pixeln im aktuellen Frame berücksichtigt (d. h. was in diesem Teil des Frames im vorherigen oder nächsten Bild passiert), sondern auch die entfernten Nachbarn, die viele Frames entfernt sind, und Dennoch wird die kohäsive Wirkung aller am Video als Ganzes durchgeführten Vorgänge beeinflusst.

Architektur von E2FGVI.

Architektur von E2FGVI.

Der neue, merkmalsbasierte zentrale Abschnitt des Workflows kann mehr Prozesse auf Merkmalsebene und lernbare Sampling-Offsets nutzen, während der neuartige Focal Transformer des Projekts laut den Autoren die Größe der Focal Windows „von 2D auf 3D“ erweitert.

Tests und Daten

Um E zu testen2FGVI bewerteten die Forscher das System anhand zweier beliebter Videoobjektsegmentierungsdatensätze: YouTube-VOS und DAVIS. YouTube-VOS bietet 3741 Schulungsvideoclips, 474 Validierungsclips und 508 Testclips, während DAVIS 60 Schulungsvideoclips und 90 Testclips bietet.

E2FGVI wurde mit YouTube-VOS trainiert und anhand beider Datensätze evaluiert. Während des Trainings wurden Objektmasken (die grünen Bereiche in den obigen Bildern und die begleitendes YouTube-Videowurden generiert, um die Vervollständigung von Videos zu simulieren.

Als Metriken verwendeten die Forscher das maximale Signal-Rausch-Verhältnis (PSNR), die strukturelle Ähnlichkeit (SSIM), die videobasierte Fréchet-Inception-Distanz (VFID) und den Flow Warping Error – letzterer, um die zeitliche Stabilität im betroffenen Video zu messen.

Die vorherigen Architekturen, anhand derer das System getestet wurde, waren: VINet, DFVI, LGTSM, HUT, FGVC, STTN und FuseFormer.

Aus dem Abschnitt „Quantitative Ergebnisse“ des Artikels. Aufwärts- und Abwärtspfeile zeigen an, dass höhere bzw. niedrigere Zahlen besser sind. E2FGVI erzielt durchweg die besten Ergebnisse. Die Methoden werden nach FuseFormer ausgewertet, allerdings handelt es sich bei DFVI, VINet und FGVC nicht um End-to-End-Systeme, sodass eine Schätzung ihrer FLOPs nicht möglich ist.

Aus dem Abschnitt „Quantitative Ergebnisse“ des Artikels. Aufwärts- und Abwärtspfeile zeigen an, dass höhere bzw. niedrigere Zahlen besser sind. E2FGVI erzielt durchweg die besten Ergebnisse. Die Methoden werden nach FuseFormer ausgewertet, allerdings handelt es sich bei DFVI, VINet und FGVC nicht um End-to-End-Systeme, sodass eine Schätzung ihrer FLOPs nicht möglich ist.

Die Forscher erzielten nicht nur die besten Ergebnisse im Vergleich zu allen konkurrierenden Systemen, sondern führten auch eine qualitative Benutzerstudie durch, bei der mit fünf repräsentativen Methoden transformierte Videos einzeln zwanzig Freiwilligen gezeigt wurden, die gebeten wurden, sie hinsichtlich der visuellen Qualität zu bewerten.

Die vertikale Achse stellt den Prozentsatz der Teilnehmer dar, die die E2FGVI-Ausgabe im Hinblick auf die visuelle Qualität bevorzugten.

Die vertikale Achse stellt den Prozentsatz der Teilnehmer dar, die das E bevorzugten2FGVI-Ausgabe in Bezug auf die visuelle Qualität.

Die Autoren stellen fest, dass eines der Ergebnisse, FGVC, trotz der einstimmigen Präferenz für ihre Methode nicht die quantitativen Ergebnisse widerspiegelt, und sie schlagen vor, dass dies darauf hindeutet, dass E2FGVI könnte, vorgeblich, „visuell ansprechendere Ergebnisse“ erzeugen.

In Bezug auf die Effizienz stellen die Autoren fest, dass ihr System Gleitkommaoperationen pro Sekunde (FLOPs) und die Inferenzzeit auf einer einzelnen Titan-GPU im DAVIS-Datensatz erheblich reduziert, und stellen fest, dass die Ergebnisse E2FGVI läuft x15 schneller als flussbasierte Methoden.

Sie kommentieren:

'[E2FGVI] weist im Vergleich zu allen anderen Methoden die niedrigsten FLOPs auf. Dies deutet darauf hin, dass die vorgeschlagene Methode für das Video-Inpainting hocheffizient ist.

*Meine Konvertierung der Inline-Zitate der Autoren in Hyperlinks.

 

Erstveröffentlichung am 19. Mai 2022.

Geändert am Dienstag, den 28. Oktober 2025, um einen fehlerhaften Video-Einbettungscode zu entfernen und Verweise auf eingebettete Videos im Artikeltext zu korrigieren.

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai