Intelligence artificielle

Séparer les humains ‘fusionnés’ dans la vision par ordinateur

Published October 10, 2022

Updated April 28, 2026

Martin Anderson

Un nouveau document du centre d’innovation du groupe Hyundai Motor à Singapour propose une méthode pour séparer les humains ‘fusionnés’ dans la vision par ordinateur – ces cas où le cadre de reconnaissance d’objets a trouvé un humain qui est de quelque manière ‘trop proche’ d’un autre humain (comme des actions d’étreinte, ou des poses debout derrière), et est incapable de démêler les deux personnes représentées, les confondant pour une seule personne ou entité.

Deux deviennent un, mais ce n’est pas une bonne chose dans la segmentation sémantique. Ici, nous voyons le nouveau système atteindre des résultats de pointe sur l’individuation des personnes entremêlées dans des images complexes et difficiles. Source : https://arxiv.org/pdf/2210.03686.pdf

Il s’agit d’un problème notable qui a reçu une grande attention dans la communauté de recherche ces dernières années. Résoudre ce problème sans les dépenses évidentes mais généralement inabordables de l’hyperscale, de l’étiquetage personnalisé dirigé par l’homme, pourrait éventuellement permettre des améliorations dans l’individuation des humains dans les systèmes texte-image tels que Stable Diffusion, qui fondent fréquemment les personnes ensemble lorsque une pose demandée nécessite plusieurs personnes à proximité les unes des autres.

Adoptez l’horreur – les modèles texte-image tels que DALL-E 2 et Stable Diffusion (tous présentés ci-dessus) luttent pour représenter les personnes en très grande proximité les unes des autres.

Bien que les modèles génératifs tels que DALL-E 2 et Stable Diffusion n’utilisent pas (à la connaissance de qui que ce soit, dans le cas de DALL-E 2 à source fermée) de segmentation sémantique ou de reconnaissance d’objets, ces grotesques portmanteaux humains ne pourraient pas actuellement être guéris en appliquant de telles méthodes en amont – car l’état de l’art des bibliothèques et des ressources de reconnaissance d’objets n’est pas beaucoup mieux pour démêler les personnes que les flux de travail basés sur CLIP des modèles de diffusion latente.

Pour résoudre ce problème, le nouveau document – intitulé Les humains n’ont pas besoin d’étiqueter plus d’humains : Occlusion Copy & Paste pour la segmentation d’instances humaines occluses – adapte et améliore une approche récente de « cut and paste » pour les données semi-synthétiques pour atteindre une nouvelle avance dans la tâche, même contre le matériel source le plus difficile :

La nouvelle méthodologie Occlusion Copy & Paste mène actuellement le domaine même contre les cadres et les approches précédents qui abordent le défi de manière élaborée et plus dédiée, comme la modélisation spécifique de l’occlusion.

Coupez cela !

La méthode amendée – intitulée Occlusion Copy & Paste – est dérivée du document Simple Copy-Paste de 2021, dirigé par Google Research, qui a suggéré que la superposition d’objets et de personnes extraits parmi des images de formation diverses pourrait améliorer la capacité d’un système de reconnaissance d’images à discrétiser chaque instance trouvée dans une image :

Du document de recherche de Google de 2021 ‘Simple Copy-Paste est une forte méthode d’augmentation de données pour la segmentation d’instances’, nous voyons des éléments d’une photo ‘migrer’ vers d’autres photos, avec l’objectif de former un modèle de reconnaissance d’images meilleur et plus intuitif. Source : https://arxiv.org/pdf/2012.07177.pdf

La nouvelle version ajoute des limitations et des paramètres à cette « repaste » automatisée et algorithmique, en analogisant le processus dans un « panier » d’images plein de candidats potentiels pour « transférer » à d’autres images, en fonction de plusieurs facteurs clés.

Le flux de travail conceptuel pour OC&P.

Contrôler les éléments

Ces facteurs limitatifs incluent la probabilité qu’une copie et une colle se produisent, qui garantit que le processus ne se produit pas tout le temps, ce qui aurait un effet de « saturation » qui minerait l’augmentation des données ; le nombre d’images qu’un panier aura à un moment donné, où un plus grand nombre de « segments » peut améliorer la variété des instances, mais augmenter le temps de prétraitement ; et la plage, qui détermine le nombre d’images qui seront collées dans une image « hôte ».

En ce qui concerne ce dernier, le document note ‘Nous avons besoin de suffisamment d’occlusion pour se produire, mais pas trop, car ils peuvent encombrer l’image, ce qui peut être préjudiciable à l’apprentissage.’

Les deux autres innovations pour OC&P sont la copie ciblée et la copie d’instances augmentée.

La copie ciblée garantit qu’une image appropriée atterrit près d’une instance existante dans l’image cible. Dans l’approche précédente, à partir du travail précédent, le nouvel élément n’était contraint que dans les limites de l’image, sans considération de contexte.

Bien que ce ‘collage’, avec la copie ciblée, soit évident pour l’œil humain, OC&P et son prédécesseur ont constaté que l’augmentation de la crédibilité visuelle n’est pas nécessairement importante, et pourrait même être une responsabilité (voir ‘La réalité mord’ ci-dessous).

La copie d’instances augmentée, d’un autre côté, garantit que les instances collées ne présentent pas un « look distinctif » qui pourrait être classé par le système d’une manière ou d’une autre, ce qui pourrait conduire à une exclusion ou à un « traitement spécial » qui pourrait entraver la généralisation et l’applicabilité. La copie augmentée module des facteurs visuels tels que la luminosité et la netteté, la mise à l’échelle et la rotation, et la saturation – parmi d’autres facteurs.

Du matériel supplémentaire du nouveau document : ajouter OC&P aux cadres de reconnaissance existants est assez trivial, et donne lieu à une individuation supérieure des personnes dans des confins très proches. Source : https://arxiv.org/src/2210.03686v1/anc/OcclusionCopyPaste_Supplementary.pdf

De plus, OC&P régule une taille minimale pour toute instance collée. Par exemple, il peut être possible d’extraire une image d’une personne d’une scène de foule massive, qui pourrait être collée dans une autre image – mais dans un tel cas, le petit nombre de pixels impliqués ne contribuerait probablement pas à la reconnaissance. Par conséquent, le système applique une échelle minimale basée sur le rapport de longueur de côté égalisée pour l’image cible.

En outre, OC&P institue une copie sensible à l’échelle, où, en plus de rechercher des sujets similaires au sujet de la colle, il tient compte de la taille des boîtes de délimitation dans l’image cible. Cependant, cela ne conduit pas à des images composites que les gens considéreraient comme plausibles ou réalistes (voir l’image ci-dessous), mais assemble plutôt des éléments sémantiquement appropriés près les uns des autres de manière utile pendant la formation.

La réalité mord

Les deux travaux précédents sur lesquels OC&P est basé, et la mise en œuvre actuelle, accordent une faible prime à l’authenticité, ou à la « photoréalisme » de toute image « montée » finale. Bien qu’il soit important que le montage final ne descende pas entièrement dans le dadaïsme (sinon les déploiements réels des systèmes formés ne pourraient jamais espérer rencontrer des éléments dans de telles scènes comme ils ont été formés), les deux initiatives ont constaté qu’une augmentation notable de la « crédibilité visuelle » non seulement ajoute du temps de prétraitement, mais que de telles « améliorations de réalisme » sont susceptibles d’être contre-productives.

Du matériel supplémentaire du nouveau document : exemples d’images augmentées avec ‘melange aléatoire’. Bien que ces scènes puissent sembler hallucinogènes pour une personne, elles ont néanmoins des sujets similaires jetés ensemble ; bien que les occlusions soient fantastiques pour l’œil humain, la nature d’une occlusion potentielle ne peut pas être connue à l’avance, et est impossible à former – par conséquent, de telles coupures bizarres de forme sont suffisantes pour forcer le système formé à rechercher et à reconnaître des sujets cibles partiels, sans avoir besoin de développer des méthodologies élaborées de type Photoshop pour rendre les scènes plus plausibles.

Données et tests

Pour la phase de test, le système a été formé sur la classe personne du jeu de données MS COCO, présentant 262 465 exemples d’humains sur 64 115 images. Cependant, pour obtenir de meilleures masques que MS COCO n’en a, les images ont également reçu des annotations de masque LVIS.

Publié en 2019, LVIS, de la recherche de Facebook, est un jeu de données volumineux pour la segmentation d’instances de grand vocabulaire. Source : https://arxiv.org/pdf/1908.03195.pdf

Afin d’évaluer à quel point le système augmenté pourrait se mesurer à un grand nombre d’images humaines occluses, les chercheurs ont mis OC&P contre la référence OCHuman (Occluded Human).

Exemples du jeu de données OCHuman, introduit à l’appui du projet de détection Pose2Seg en 2018. Cette initiative visait à dériver une meilleure segmentation sémantique des personnes en utilisant leur posture et leur pose comme délimiteur sémantique des pixels représentant leurs corps. Source : https://github.com/liruilong940607/OCHumanApi

Puisque la référence OCHuman n’est pas annotée de manière exhaustive, les chercheurs du nouveau document ont créé un sous-ensemble de seulement ces exemples qui étaient entièrement étiquetés, intitulé OCHuman^FL. Cela a réduit le nombre d’instances personne à 2 240 sur 1 113 images pour la validation, et 1 923 instances sur 951 images réellement utilisées pour les tests. Les deux ensembles originaux et nouvellement créés ont été testés, en utilisant la précision moyenne (mAP) comme métrique principale.

Pour la cohérence, l’architecture a été formée de Mask R-CNN avec un réseau de neurones ResNet-50 et un réseau de pyramide de fonctionnalités, ce dernier fournissant un compromis acceptable entre la précision et la vitesse de formation.

Avec les chercheurs ayant noté l’effet délétère de l’influence en amont ImageNet dans des situations similaires, l’ensemble du système a été formé à partir de zéro sur 4 GPU NVIDIA V100, pendant 75 époques, en suivant les paramètres d’initialisation de la version 2021 de Facebook Detectron 2.

Résultats

En plus des résultats mentionnés ci-dessus, les résultats de base contre MMDetection (et ses trois modèles associés) pour les tests ont indiqué une avance claire pour OC&P dans sa capacité à repérer les êtres humains à partir de poses entremêlées.

En plus de surpasser PoSeg et Pose2Seg, l’une des réalisations les plus remarquables du document est que le système peut être appliqué de manière générique à des cadres existants, y compris ceux qui ont été opposés à lui lors des essais (voir les comparaisons avec/sans dans la première boîte de résultats, près du début de l’article).

Le document conclut :

‘Un avantage clé de notre approche est qu’elle est facilement applicable avec n’importe quel modèle ou amélioration axée sur le modèle. Étant donné la vitesse à laquelle le domaine de l’apprentissage profond évolue, il est dans l’intérêt de tous d’avoir des approches qui sont hautement interopérables avec tous les autres aspects de la formation. Nous laissons comme travail futur l’intégration de cela avec des améliorations axées sur le modèle pour résoudre efficacement la segmentation d’instances de personnes occluses.’

Potentiel pour améliorer la synthèse d’images texte

L’auteur principal Evan Ling a observé, dans un e-mail à nous*, que le principal avantage de OC&P est qu’il peut conserver les étiquettes de masque d’origine et obtenir de nouvelles valeurs à partir de celles-ci ‘gratuitement’ dans un contexte nouveau – c’est-à-dire les images dans lesquelles ils ont été collés.

Bien que la segmentation sémantique des humains semble étroitement liée à la difficulté que les modèles tels que Stable Diffusion ont à individuer les personnes (au lieu de les « fondre ensemble », comme ils le font souvent), toute influence que la culture d’étiquetage sémantique pourrait avoir sur les rendus humains cauchemardesques que SD et DALL-E 2 produisent souvent est très, très en amont.

Les milliards d’images du sous-ensemble LAION 5B qui peuplent la puissance générative de Stable Diffusion ne contiennent pas d’étiquettes d’objet telles que des boîtes de délimitation et des masques d’instances, même si l’architecture CLIP qui compose les rendus à partir d’images et de contenu de base de données peut avoir bénéficié à un moment donné de telles instances ; plutôt, les images LAION sont étiquetées ‘gratuitement’, puisque leurs étiquettes ont été dérivées de métadonnées et de légendes environnantes, etc., qui étaient associées aux images lorsqu’elles ont été scrapées sur le Web dans le jeu de données.

‘Mais à part cela,’ Ling nous a dit. ‘une sorte d’augmentation similaire à notre OC&P peut être utilisée pendant la formation du modèle génératif d’image texte. Mais je pense que la réalisme de l’image de formation augmentée peut éventuellement devenir un problème.

‘Dans notre travail, nous montrons que le ‘réalisme parfait’ n’est généralement pas nécessaire pour la segmentation d’instances supervisée, mais je ne suis pas sûr si la même conclusion peut être tirée pour la formation du modèle génératif d’image texte (en particulier lorsque leurs sorties sont censées être hautement réalistes). Dans ce cas, plus de travail peut être nécessaire pour ‘parfaire’ la réalisme des images augmentées.’

CLIP est déjà utilisé comme un outil multimodal possible pour la segmentation sémantique, suggérant que des systèmes d’individuation et de reconnaissance de personnes améliorés tels que OC&P pourraient éventuellement être développés en filtres ou classificateurs internes qui rejetteraient arbitrairement les représentations humaines ‘fusionnées’ et déformées – une tâche qui est difficile à réaliser actuellement avec Stable Diffusion, car il a une capacité limitée à comprendre où il a erré (s’il avait une telle capacité, il ne l’aurait probablement pas commise dans un premier temps).

Juste l’un des nombreux projets actuellement utilisant le cadre CLIP d’OpenAI – le cœur de DALL-E 2 et de Stable Diffusion – pour la segmentation sémantique. Source : https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_CRIS_CLIP-Driven_Referring_Image_Segmentation_CVPR_2022_paper.pdf

‘Une autre question serait,’ suggère Ling. ‘est-ce que simplement alimenter ces modèles génératifs avec des images d’humains occlusés pendant la formation fonctionnera, sans conception complémentaire d’architecture de modèle pour atténuer le problème de la « fusion humaine » ? C’est probablement une question qui est difficile à répondre à priori. Ce sera certainement intéressant de voir comment nous pouvons intégrer une sorte de guidage au niveau de l’instance (via des étiquettes au niveau de l’instance comme des masques d’instances) pendant la formation du modèle génératif d’image texte.’

* 10 octobre 2022

Publié pour la première fois le 10 octobre 2022.

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.