Connect with us

Künstliche Intelligenz

Effizienteres Entfernen von Objekten aus Videos mit Machine Learning

mm

Neue Forschung aus China berichtet über state-of-the-art-Ergebnisse – sowie eine beeindruckende Verbesserung der Effizienz – für ein neues Video-Inpainting-System, das Objekte aus Footage entfernen kann.

Ein Hang-Glider-Gurt wird durch das neue Verfahren entfernt. Siehe die Quellvideo (eingebettet am Ende dieses Artikels) für eine bessere Auflösung und weitere Beispiele. Quelle: https://www.youtube.com/watch?v=N--qC3T2wc4

Ein Hang-Glider-Gurt wird durch das neue Verfahren entfernt. Siehe die Quellvideo für eine bessere Auflösung und weitere Beispiele. Quelle: https://www.youtube.com/watch?v=N–qC3T2wc4

Die Technik, die als End-to-End-Framework für Flow-Guided Video Inpainting (E2FGVI) bezeichnet wird, ist auch in der Lage, Wasserzeichen und andere Arten von Occlusionen aus Videoinhalten zu entfernen.

E2FGVI berechnet Vorhersagen für Inhalte, die hinter Occlusionen liegen, und ermöglicht so die Entfernung sogar auffälliger und unüberwindbarer Wasserzeichen. Quelle: https://github.com/MCG-NKU/E2FGVI

E2FGVI berechnet Vorhersagen für Inhalte, die hinter Occlusionen liegen, und ermöglicht so die Entfernung sogar auffälliger und unüberwindbarer Wasserzeichen. Quelle: https://github.com/MCG-NKU/E2FGVI

(Um weitere Beispiele in besserer Auflösung zu sehen, besuchen Sie das Video)

Obwohl das im veröffentlichten Paper vorgestellte Modell auf 432px x 240px-Videos (üblicherweise niedrige Eingabegrößen, begrenzt durch verfügbaren GPU-Speicher vs. optimale Batch-Größen und andere Faktoren) trainiert wurde, haben die Autoren seitdem E2FGVI-HQ veröffentlicht, das Videos in beliebiger Auflösung verarbeiten kann.

Der Code für die aktuelle Version ist verfügbar auf GitHub, während die HQ-Version, die letzten Sonntag veröffentlicht wurde, von Google Drive und Baidu Disk heruntergeladen werden kann.

Das Kind bleibt im Bild.

Das Kind bleibt im Bild.

E2FGVI kann 432×240-Videos mit 0,12 Sekunden pro Frame auf einem Titan XP GPU (12GB VRAM) verarbeiten, und die Autoren berichten, dass das System fünfzehn Mal schneller ist als vorherige state-of-the-art-Methoden, die auf optischer Fluss basieren.

Ein Tennispieler macht einen unerwarteten Abgang.

Ein Tennispieler macht einen unerwarteten Abgang.

Getestet auf Standard-Datensätzen für diesen Teilbereich der Bildsynthese-Forschung, konnte die neue Methode ihre Konkurrenten in qualitativer und quantitativer Bewertung überbieten.

Tests gegen vorherige Ansätze. Quelle: https://arxiv.org/pdf/2204.02663.pdf

Tests gegen vorherige Ansätze. Quelle: https://arxiv.org/pdf/2204.02663.pdf

Das Paper ist betitelt Towards An End-to-End Framework for Flow-Guided Video Inpainting und ist eine Zusammenarbeit zwischen vier Forschern der Nankai-Universität und einem Forscher von Hisilicon Technologies.

Was fehlt in diesem Bild

Abgesehen von seinen offensichtlichen Anwendungen für visuelle Effekte wird hochwertiges Video-Inpainting zu einem Kernmerkmal neuer AI-basierter Bildsynthese- und Bildveränderungstechnologien.

Dies ist insbesondere der Fall für Körperveränderungs-Mode-Anwendungen und andere Frameworks, die versuchen, ‘abzunehmen’ oder Szenen in Bildern und Videos auf andere Weise zu verändern. In solchen Fällen ist es notwendig, den extra Hintergrund, der durch die Synthese freigelegt wird, überzeugend ‘auszufüllen’.

Aus einem aktuellen Paper, ein Körper-'Umformungs'-Algorithmus wird beauftragt, den neu freigelegten Hintergrund auszumalen, wenn ein Subjekt vergrößert wird. Hier wird dieser Mangel durch den roten Umriss dargestellt, den die (im wahren Leben, siehe Bild links) vollfigurige Person einst einnahm. Basierend auf Quellenmaterial von https://arxiv.org/pdf/2203.10496.pdf

Aus einem aktuellen Paper, ein Körper-‘Umformungs’-Algorithmus wird beauftragt, den neu freigelegten Hintergrund auszumalen, wenn ein Subjekt vergrößert wird. Hier wird dieser Mangel durch den roten Umriss dargestellt, den die (im wahren Leben, siehe Bild links) vollfigurige Person einst einnahm. Basierend auf Quellenmaterial von https://arxiv.org/pdf/2203.10496.pdf

Kohärenter optischer Fluss

Optischer Fluss (OF) ist zu einer Kerntechnologie in der Entwicklung von Video-Objekt-Entfernung geworden. Wie ein Atlas, bietet OF eine einzigartige Karte einer zeitlichen Sequenz. Oft verwendet, um Geschwindigkeit in Computer-Vision-Initiativen zu messen, kann OF auch kohärentes In-Painting ermöglichen, bei dem die Gesamtsumme der Aufgabe in einem einzigen Durchgang betrachtet werden kann, anstatt Disney-Style ‘pro Frame’ Aufmerksamkeit, was unweigerlich zu zeitlicher Inkonsistenz führt.

Video-Inpainting-Methoden bis heute haben sich auf einen dreistufigen Prozess konzentriert: Fluss-Vervollständigung, bei der das Video im Wesentlichen in eine diskrete und erforschbare Entität umgewandelt wird; Pixelpermeation, bei der die Löcher in ‘korrupten’ Videos durch bidirektionale Pixelpermeation gefüllt werden; und Inhalts-Halluzination (Pixel-‘Erfindung’, die uns meisten von Deepfakes und Text-to-Image-Frameworks wie der DALL-E-Serie vertraut ist), bei der der geschätzte ‘fehlende’ Inhalt erfunden und in das Video eingefügt wird.

Die zentrale Innovation von E2FGVI ist es, diese drei Stufen in ein End-to-End-System zu kombinieren, wodurch die Notwendigkeit entfällt, manuelle Operationen auf dem Inhalt oder dem Prozess durchzuführen.

Das Paper bemerkt, dass die Notwendigkeit manueller Eingriffe erfordert, dass ältere Prozesse nicht von einem GPU profitieren, was sie sehr zeitaufwändig macht. Aus dem Paper*:

‘Wenn man DFVI als Beispiel nimmt, benötigt die Vervollständigung eines Videos mit der Größe 432 × 240 aus DAVIS, das etwa 70 Frames enthält, etwa 4 Minuten, was in den meisten realen Anwendungen inakzeptabel ist. Darüber hinaus zeigt sich, dass, abgesehen von den oben genannten Nachteilen, die alleinige Verwendung eines vorgefertigten Bild-Inpainting-Netzwerks im Inhalts-Halluzinations-Stadium die Beziehungen zwischen temporären Nachbarn ignoriert, was zu inkonsistenten generierten Inhalten in Videos führt.’

Indem E2FGVI die drei Stufen des Video-Inpainting vereint, kann es die zweite Stufe, Pixelpermeation, durch Feature-Permeation ersetzen. In den segmentierten Prozessen vorheriger Arbeiten sind Features nicht so umfassend verfügbar, da jede Stufe relativ hermetisch ist und der Workflow nur semi-automatisiert ist.

Darüber hinaus haben die Forscher einen temporalen Fokal-Transformer für die Inhalts-Halluzinations-Stufe entwickelt, der nicht nur die direkten Nachbarn von Pixeln im aktuellen Frame (d. h. was in diesem Teil des Frames im vorherigen oder nächsten Bild passiert), sondern auch die entfernten Nachbarn, die viele Frames entfernt sind und dennoch die kohärente Wirkung von Operationen auf das gesamte Video beeinflussen werden.

Architektur von E2FGVI.

Architektur von E2FGVI.

Der neue featurebasierte zentrale Teil des Workflows kann von mehr featurebasierten Prozessen und lernbaren Sampling-Offsets profitieren, während der neuartige Fokal-Transformer der Autoren die Größe der Fokal-Fenster ‘von 2D auf 3D’ erweitert.

Tests und Daten

Um E2FGVI zu testen, bewerteten die Forscher das System gegen zwei beliebte Video-Objekt-Segmentierungs-Datensätze: YouTube-VOS und DAVIS. YouTube-VOS enthält 3741 Trainingsvideo-Clips, 474 Validierungs-Clips und 508 Test-Clips, während DAVIS 60 Trainingsvideo-Clips und 90 Test-Clips enthält.

E2FGVI wurde auf YouTube-VOS trainiert und auf beiden Datensätzen ausgewertet. Während des Trainings wurden Objekt-Masken (die grünen Bereiche in den Bildern oben und dem begleitenden YouTube-Video) generiert, um Video-Vervollständigung zu simulieren.

Für Metriken verwendeten die Forscher Peak-Signal-Rausch-Verhältnis (PSNR), Strukturelle Ähnlichkeit (SSIM), Video-basierte Fréchet-Inception-Distanz (VFID) und Fluss-Verformungsfehler – letzterer, um zeitliche Stabilität im betroffenen Video zu messen.

Die vorherigen Architekturen, gegen die das System getestet wurde, waren VINet, DFVI, LGTSM, CAP, FGVC, STTN und FuseFormer.

Aus dem quantitativen Ergebnis-Teil des Papers. Auf- und abwärts weisende Pfeile zeigen an, dass höhere oder niedrigere Zahlen besser sind. E2FGVI erreicht die besten Ergebnisse in allen Bereichen. Die Methoden werden gemäß FuseFormer bewertet, obwohl DFVI, VINet und FGVC keine End-to-End-Systeme sind, was es unmöglich macht, ihre FLOPs zu schätzen.

Aus dem quantitativen Ergebnis-Teil des Papers. Auf- und abwärts weisende Pfeile zeigen an, dass höhere oder niedrigere Zahlen besser sind. E2FGVI erreicht die besten Ergebnisse in allen Bereichen. Die Methoden werden gemäß FuseFormer bewertet, obwohl DFVI, VINet und FGVC keine End-to-End-Systeme sind, was es unmöglich macht, ihre FLOPs zu schätzen.

Neben der Erreichung der besten Ergebnisse gegen alle konkurrierenden Systeme führten die Forscher eine qualitative Benutzerstudie durch, in der Videos, die mit fünf repräsentativen Methoden transformiert wurden, einzeln zwanzig Freiwilligen gezeigt wurden, die sie in Bezug auf visuelle Qualität bewerten sollten.

Die vertikale Achse stellt den Prozentsatz der Teilnehmer dar, die die E2FGVI-Ausgabe in Bezug auf visuelle Qualität bevorzugten.

Die vertikale Achse stellt den Prozentsatz der Teilnehmer dar, die die E2FGVI-Ausgabe in Bezug auf visuelle Qualität bevorzugten.

Die Autoren bemerken, dass trotz der einstimmigen Bevorzugung ihrer Methode eines der Ergebnisse, FGVC, die quantitativen Ergebnisse nicht widerspiegelt, und sie vermuten, dass dies darauf hindeutet, dass E2FGVI möglicherweise ‘visuell ansprechendere Ergebnisse’ generiert.

In Bezug auf Effizienz bemerken die Autoren, dass ihr System die Floating-Point-Operationen pro Sekunde (FLOPs) und die Inferenzzeit auf einem einzelnen Titan-GPU auf dem DAVIS-Datensatz erheblich reduziert, und sie bemerken, dass die Ergebnisse zeigen, dass E2FGVI x15 schneller läuft als flussbasierte Methoden.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.