Künstliche Intelligenz

Trennung von “verschmolzenen” Menschen in der Computer-Vision

Published October 10, 2022

Updated April 28, 2026

Martin Anderson

Ein neues Papier des Hyundai Motor Group Innovation Center in Singapur bietet eine Methode zur Trennung von “verschmolzenen” Menschen in der Computer-Vision – also Fälle, in denen das Objekterkennungsframework einen Menschen gefunden hat, der in irgendeiner Weise “zu nah” an einem anderen Menschen ist (wie z.B. “Umarmungen” oder “Hinterherlaufen”-Posen), und nicht in der Lage ist, die beiden dargestellten Personen auseinanderzuhalten und sie für eine einzelne Person oder Entität hält.

Zwei werden zu einem, aber das ist in der semantischen Segmentierung nicht gut. Hier sehen wir das neue System, das staatliche Ergebnisse bei der Individuation von miteinander verflochtenen Menschen in komplexen und herausfordernden Bildern erzielt. Quelle: https://arxiv.org/pdf/2210.03686.pdf

Dies ist ein bemerkenswertes Problem, das in den letzten Jahren viel Aufmerksamkeit in der Forschungsgemeinschaft erhalten hat. Die Lösung ohne den offensichtlichen, aber meist unerschwinglichen Aufwand von Hyperskala, menschlich geführter benutzerdefinierter Kennzeichnung könnte letztendlich Verbesserungen in der Individuation von Menschen in Text-Bild-Systemen wie Stable Diffusion ermöglichen, die häufig Menschen zusammenfügen, wenn eine gesteuerte Pose mehrere Personen in unmittelbarer Nähe voneinander erfordert.

Umarmen Sie den Schrecken – Text-Bild-Modelle wie DALL-E 2 und Stable Diffusion (beide oben abgebildet) haben Schwierigkeiten, Menschen in sehr enger Nähe zueinander darzustellen.

Obwohl generative Modelle wie DALL-E 2 und Stable Diffusion (zum aktuellen Stand der Dinge, im Falle des geschlossenen DALL-E 2) nicht (soweit bekannt) semantische Segmentierung oder Objekterkennung verwenden, könnten diese grotesken menschlichen Portmanteaus nicht durch die Anwendung solcher Methoden geheilt werden – weil der aktuelle Stand der Objekterkennungsbibliotheken und -ressourcen nicht viel besser darin ist, Menschen auseinanderzuhalten, als die CLIP-basierten Workflows von Latent-Diffusionsmodellen.

Um dieses Problem anzugehen, passt das neue Papier – betitelt Menschen müssen nicht mehr Menschen kennzeichnen: Occlusion Copy & Paste für Occluded Human Instance Segmentation – einen aktuellen “Schnitt-und-Klebe”-Ansatz für semi-synthetische Daten an, um einen neuen SOTA-Vorsprung in der Aufgabe zu erzielen, sogar gegen die herausforderndsten Quellenmaterialien:

Die neue Occlusion Copy & Paste-Methode führt derzeit das Feld an, sogar gegen vorherige Frameworks und Ansätze, die die Herausforderung auf elaborierte und spezifischere Weise angehen, wie z.B. die spezifische Modellierung für Okklusion.

Schneiden Sie es aus!

Die modifizierte Methode – betitelt Occlusion Copy & Paste – ist von dem 2021er Simple Copy-Paste-Papier abgeleitet, das von Google Research geleitet wurde und vorschlug, dass das Überlagern extrahierter Objekte und Menschen in verschiedenen Quellbildern die Fähigkeit eines Bilderkennungssystems verbessern könnte, jedes in einem Bild gefundenen Exemplar zu diskretisieren:

Aus dem 2021er Google Research-geführten Papier ‘Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation’ sehen wir Elemente aus einem Foto, die zu anderen Fotos ‘wandern’, mit dem Ziel, ein besseres Bilderkennungsmodell zu trainieren. Quelle: https://arxiv.org/pdf/2012.07177.pdf

Die neue Version fügt Einschränkungen und Parameter in diese automatisierte und algorithmische “Wiederanbringung” ein, indem sie den Prozess in einen “Korb” voller Bilder mit potenziellen Kandidaten für die “Übertragung” in andere Bilder analogisiert, basierend auf mehreren Schlüsselfaktoren.

Das konzeptionelle Workflow für OC&P.

Elemente kontrollieren

Diese begrenzenden Faktoren umfassen Wahrscheinlichkeit eines Cut-and-Paste-Vorgangs, die sicherstellt, dass der Prozess nicht einfach immer passiert, was eine “sättigende” Wirkung haben würde, die die Datenverstärkung untergraben würde; die Anzahl der Bilder, die ein Korb zu einem bestimmten Zeitpunkt haben wird, wobei eine größere Anzahl von “Segmenten” die Vielfalt der Exemplare verbessern, aber die Vorbearbeitungszeit erhöhen kann; und Reichweite, die bestimmt, wie viele Bilder in ein “Host”-Bild eingefügt werden.

In Bezug auf letzteres merkt das Papier an: ‘Wir benötigen genug Okklusion, um zu passieren, aber nicht zu viele, da sie das Bild überfüllen könnten, was der Lernfähigkeit schaden könnte.’

Die anderen beiden Innovationen für OC&P sind gezielte Anbringung und erweiterte Instanzanbringung.

Gezielte Anbringung stellt sicher, dass ein geeignetes Bild in der Nähe einer bestehenden Instanz im Zielbild landet. Im vorherigen Ansatz, aus der vorherigen Arbeit, war das neue Element nur innerhalb der Bildgrenzen eingeschränkt, ohne Berücksichtigung des Kontexts.

Obwohl diese ‘Einlage’, mit gezielter Anbringung, für das menschliche Auge offensichtlich ist, haben sowohl OC&P als auch sein Vorgänger festgestellt, dass eine erhöhte visuelle Authentizität nicht unbedingt wichtig ist und sogar ein Nachteil sein könnte (siehe ‘Realität beißt’ unten).

Erweiterte Instanzanbringung stellt sicher, dass die angebrachten Instanzen kein “ausgeprägtes Aussehen” zeigen, das vom System auf eine Weise klassifiziert werden könnte, die zu einer Ausnahme oder “Sonderbehandlung” führen könnte, die die Verallgemeinerung und Anwendbarkeit behindern könnte. Erweiterte Anbringung moduliert visuelle Faktoren wie Helligkeit und Schärfe, Skalierung und Rotation sowie Sättigung – unter anderem.

Aus den ergänzenden Materialien des neuen Papiers: Das Hinzufügen von OC&P zu bestehenden Erkennungsframeworks ist relativ trivial und resultiert in einer überlegenen Individuation von Menschen in sehr engen Verhältnissen. Quelle: https://arxiv.org/src/2210.03686v1/anc/OcclusionCopyPaste_Supplementary.pdf

Zusätzlich reguliert OC&P eine Mindestgröße für jede angebrachte Instanz. Zum Beispiel könnte es möglich sein, ein Bild einer Person aus einer riesigen Menschenmenge zu extrahieren, das in ein anderes Bild eingefügt werden könnte – aber in einem solchen Fall würde die geringe Anzahl von Pixeln wahrscheinlich nicht zur Erkennung beitragen. Daher wendet das System eine Mindestskalierung basierend auf dem Verhältnis der gleichmäßigen Seitenlänge für das Zielbild an.

Weiterhin führt OC&P eine skalenbewusste Anbringung ein, bei der es, zusätzlich zur Suche nach ähnlichen Subjekten wie dem Anbringungssubjekt, die Größe der Begrenzungsboxen im Zielbild berücksichtigt. Dies führt jedoch nicht zu Zusammensetzungen, die Menschen als plausibel oder realistisch betrachten würden (siehe Bild unten), sondern montiert semantisch geeignete Elemente in der Nähe voneinander, auf eine Weise, die während der Ausbildung hilfreich ist.

Realität beißt

Sowohl die vorherige Arbeit, auf der OC&P basiert, als auch die aktuelle Implementierung legen einen geringen Wert auf Authentizität oder die “Fotorealität” eines Endbildes. Obwohl es wichtig ist, dass die endgültige Montage nicht vollständig in Dadaismus abrutscht (sonst könnten die realen Einsatzszenarien der trainierten Systeme nie darauf hoffen, Elemente in solchen Szenarien zu begegnen, wie sie trainiert wurden), haben beide Initiativen festgestellt, dass eine bemerkenswerte Zunahme der “visuellen Glaubwürdigkeit” nicht nur die Vorbearbeitungszeit erhöht, sondern dass solche “Realismusverbesserungen” sogar kontraproduktiv sein könnten.

Aus dem ergänzenden Material des neuen Papiers: Beispiele für erweiterte Bilder mit ‘zufälligem Mischen’. Obwohl diese Szenen für einen Menschen halluzinogen wirken, haben sie dennoch ähnliche Subjekte, die zusammengefügt werden; obwohl die Okklusionen für das menschliche Auge phantastisch sind, kann die Natur einer potenziellen Okklusion nicht im Voraus bekannt sein und ist unmöglich zu trainieren – daher sind diese seltsamen ‘Ausschnitte’ von Formen ausreichend, um das trainierte System zu zwingen, partielle Zielsubjekte zu suchen und zu erkennen, ohne dass es erforderlich ist, aufwändige Photoshop-ähnliche Methoden zu entwickeln, um die Szenen plausibler zu machen.

Daten und Tests

Für die Testphase wurde das System auf der Person-Klasse des MS COCO-Datensatzes trainiert, das 262.465 Beispiele von Menschen über 64.115 Bilder umfasst. Um jedoch bessere Masken als MS COCO zu erhalten, erhielten die Bilder auch LVIS-Maskenannotationen.

2019 veröffentlicht, ist LVIS, von Facebook Research, ein umfangreicher Datensatz für Large Vocabulary Instance Segmentation. Quelle: https://arxiv.org/pdf/1908.03195.pdf

Um zu bewerten, wie gut das erweiterte System gegen eine große Anzahl von okkludierten Menschenbildern bestehen kann, setzten die Forscher OC&P gegen die OCHuman-Benchmark (Occluded Human) ein.

Beispiele aus dem OCHuman-Datensatz, der 2018 im Rahmen des Pose2Seg-Detection-Projekts eingeführt wurde. Diese Initiative zielte darauf ab, durch die Verwendung von Haltung und Pose als semantischer Begrenzer der Pixel, die ihre Körper darstellen, eine verbesserte semantische Segmentierung von Menschen zu erzielen. Quelle: https://github.com/liruilong940607/OCHumanApi

Da die OCHuman-Benchmark nicht erschöpfend annotiert ist, erstellten die Forscher des neuen Papiers einen Teilbereich, der nur die Beispiele umfasst, die vollständig annotiert sind, betitelt OCHuman^FL. Dies reduzierte die Anzahl der Person-Instanzen auf 2.240 über 1.113 Bilder für die Validierung und 1.923 Instanzen über 951 tatsächlich verwendete Bilder für die Tests. Sowohl die ursprüngliche als auch die neu kuratierte Menge wurden getestet, wobei die mittlere Durchschnittspräzision (mAP) als Kernmetrik verwendet wurde.

Für die Konsistenz bestand die Architektur aus Mask R-CNN mit einem ResNet-50-Backbone und einem Feature-Pyramid-Netzwerk, das letztere eine akzeptable Kompromiss zwischen Genauigkeit und Trainingsgeschwindigkeit bot.

Da die Forscher den schädlichen Effekt des Upstream-ImageNet-Einflusses in ähnlichen Situationen festgestellt haben, wurde das gesamte System von Grund auf auf 4 NVIDIA V100-GPUs trainiert, für 75 Epochen, unter Verwendung der Initialisierungsparameter von Facebooks 2021er Detectron 2.

Ergebnisse

Zusätzlich zu den oben genannten Ergebnissen wiesen die Basisergebnisse gegen MMDetection (und seine drei zugehörigen Modelle) für die Tests einen klaren Vorsprung für OC&P in seiner Fähigkeit auf, menschliche Wesen aus verwickelten Posen herauszuarbeiten.

Neben der Überbietung von PoSeg und Pose2Seg ist vielleicht eine der bemerkenswertesten Leistungen des Papiers, dass das System relativ generisch auf bestehende Frameworks angewendet werden kann, einschließlich derjenigen, die in den Tests gegen es eingesetzt wurden (siehe die Mit-/Ohne-Vergleiche im ersten Ergebnisfeld, nahe dem Anfang des Artikels).

Das Papier schließt:

‘Ein wichtiger Vorteil unseres Ansatzes ist, dass er leicht auf jedes Modell oder andere modellbasierte Verbesserungen angewendet werden kann. Angesichts der Geschwindigkeit, mit der das Deep-Learning-Feld sich bewegt, ist es für jeden von Vorteil, Ansätze zu haben, die hochgradig interoperabel mit jedem anderen Aspekt der Ausbildung sind. Wir lassen als zukünftige Arbeit, dies mit modellbasierten Verbesserungen zu integrieren, um effektiv die okkludierte Person-Instanz-Segmentierung zu lösen.’

Potenzial für die Verbesserung der Text-Bild-Synthese

Der Lead-Autor Evan Ling bemerkte in einer E-Mail an uns*, dass der Hauptvorteil von OC&P darin besteht, dass es die ursprünglichen Maskenlabels beibehalten und neue Werte daraus “kostenlos” in einem neuen Kontext erhalten kann – d.h. in den Bildern, in die sie eingefügt wurden.

Obwohl die semantische Segmentierung von Menschen eng mit der Schwierigkeit zusammenhängt, die Modelle wie Stable Diffusion haben, Menschen zu individuieren (anstatt sie “zusammenzuschmelzen”, wie sie es oft tun), ist jeder Einfluss, den die semantische Kennzeichnungskultur auf die albtraumhaften menschlichen Renditionsfehler von SD und DALL-E 2 haben könnte, sehr, sehr weit entfernt.

Die Milliarden von LAION 5B-Untermengenbilder, die die generative Kraft von Stable Diffusion bevölkern, enthalten keine objektniveau-Labels wie Begrenzungsboxen und Instanzmasken, auch wenn die CLIP-Architektur, die die Renditionsbilder aus Bildern und Datenbankinhalten zusammensetzt, möglicherweise von solchen Instanziierungen profitiert haben könnte; stattdessen sind die LAION-Bilder “kostenlos” gekennzeichnet, da ihre Labels aus Metadaten und Umgebungsbeschriftungen stammen, die mit den Bildern assoziiert waren, als sie aus dem Web in den Datensatz gesammelt wurden.

‘Aber abgesehen davon’, sagte Ling uns. ‘könnte eine Art von Augmentation ähnlich unserer OC&P während der Text-Bild-Generierungsmodell-Ausbildung verwendet werden. Aber ich denke, die Realistik der erweiterten Trainingsbilder könnte möglicherweise zu einem Problem werden.

‘In unserer Arbeit zeigen wir, dass “vollkommene” Realistik im Allgemeinen nicht für die überwachte Instanzsegmentierung erforderlich ist, aber ich bin nicht sicher, ob dieselbe Schlussfolgerung für die Text-Bild-Generierungsmodell-Ausbildung (insbesondere wenn ihre Ausgaben hochrealistisch sein sollen) gezogen werden kann. In diesem Fall muss möglicherweise mehr Arbeit in Bezug auf die “Vervollkommnung” der Realistik der erweiterten Bilder geleistet werden.’

CLIP wird bereits als mögliches multimodales Werkzeug für semantische Segmentierung verwendet, was darauf hindeutet, dass verbesserte Personenerkennungs- und Individuationsysteme wie OC&P letztendlich zu in-System-Filtern oder Klassifizierungen entwickelt werden könnten, die willkürlich “verschmolzene” und verzerrte menschliche Darstellungen ablehnen – eine Aufgabe, die derzeit mit Stable Diffusion schwer zu erreichen ist, da es nur begrenzte Fähigkeit hat, zu verstehen, wo es fehlte (wenn es diese Fähigkeit hätte, hätte es wahrscheinlich nicht den Fehler gemacht).

Nur eines von zahlreichen Projekten, die derzeit OpenAIs CLIP-Framework – das Herzstück von DALL-E 2 und Stable Diffusion – für semantische Segmentierung verwenden. Quelle: https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_CRIS_CLIP-Driven_Referring_Image_Segmentation_CVPR_2022_paper.pdf

‘Eine weitere Frage wäre’, schlägt Ling vor. ‘wird das einfache Füttern dieser generativen Modelle mit Bildern von okkludierten Menschen während der Ausbildung funktionieren, ohne komplementäre Modellarchitektur-Designs, um das Problem des “Menschenverschmelzens” zu mildern? Das ist wahrscheinlich eine Frage, die schwer zu beantworten ist. Es wird definitiv interessant sein, zu sehen, wie wir einige Art von Instanz-Steuerung (über Instanz-Labels wie Instanzmasken) während der Text-Bild-Generierungsmodell-Ausbildung einbauen können.’

* 10. Oktober 2022

Erstveröffentlicht am 10. Oktober 2022.