Suivez nous sur

Matage d'image AI qui comprend les scènes

Intelligence Artificielle

Matage d'image AI qui comprend les scènes

mm

Dans le documentaire extras accompagnant la sortie DVD 2003 de Alien3 (1992), la légende des effets visuels Richard Edlund se souvient avec horreur du « combat sumo » d'extraction de matte photochimique qui a dominé le travail des effets visuels entre 1930s fin et la fin des années 1980. Edlund a décrit la nature aléatoire du processus comme une « lutte sumo », en comparaison avec les techniques numériques d'écran bleu/vert qui ont pris le dessus au début des années 1990 (et il a revenu à la métaphore depuis).

L'extraction d'un élément de premier plan (comme une personne ou un modèle de vaisseau spatial) d'un arrière-plan, de sorte que l'image découpée puisse être composée dans une plaque d'arrière-plan, était à l'origine réalisée en filmant l'objet de premier plan sur un fond bleu ou vert uniforme.

Processus d'extraction photochimique laborieux pour un VFX tourné par ILM pour 'Return of the Jedi' (1983). Source : https://www.youtube.com/watch?v=qwMLOjqPmbQ

Procédés d'extraction photochimique laborieux pour un VFX tourné par ILM pour « Le Retour du Jedi » (1983). Source : https://www.youtube.com/watch?v=qwMLOjqPmbQ

Dans le métrage résultant, la couleur d'arrière-plan serait ensuite isolée chimiquement et utilisée comme modèle pour réimprimer l'objet (ou la personne) de premier plan dans un imprimante optique comme un objet « flottant » dans une cellule de film par ailleurs transparente.

Le processus Ă©tait connu sous le nom de superposition de sĂ©paration des couleurs (CSO) - bien que ce terme devienne finalement plus associĂ© au brut « Chromakey Â» effets vidĂ©o dans la production tĂ©lĂ©visĂ©e Ă  petit budget des annĂ©es 1970 et 1980, qui ont Ă©tĂ© obtenus avec des moyens analogiques plutĂ´t que chimiques ou numĂ©riques.

Une démonstration de Color Separation Overlay en 1970 pour l'émission britannique pour enfants 'Blue Peter'. Source : https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

Une démonstration de superposition de séparation des couleurs en 1970 pour l'émission pour enfants britannique « Blue Peter ». Source : https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

Dans tous les cas, qu'il s'agisse d'éléments filmiques ou vidéo, les séquences extraites pourront ensuite être insérées dans n'importe quelle autre séquence.

Bien que Disney soit nettement plus cher et propriétaire procédé sodium-vapeur (qui a cliqué sur le jaune, en particulier, et a également été d'utiliser pour le film d'horreur d'Alfred Hitchcock de 1963 Les oiseaux) donnaient une meilleure définition et des mattes plus nettes, l'extraction photochimique restait laborieuse et peu fiable.

Le processus exclusif d'extraction de vapeur de sodium de Disney nécessitait des arrière-plans proches de l'extrémité jaune du spectre. Ici, Angela Lansbury est suspendue à des fils pendant la production d'une séquence aux effets spéciaux pour "Bedknobs and Broomsticks" (1971). Source

Le procĂ©dĂ© d'extraction Ă  la vapeur de sodium, propriĂ©tĂ© exclusive de Disney, nĂ©cessitait des arrière-plans proches de l'extrĂ©mitĂ© jaune du spectre. Ici, Angela Lansbury est suspendue Ă  des câbles pendant le tournage d'une sĂ©quence enrichie d'effets visuels pour « Bedknobs and Broomsticks Â» (1971). Source

Au-delà du tapis numérique

Dans les années 1990, la révolution numérique a supprimé les produits chimiques, mais pas le besoin d'écrans verts. Il était désormais possible de supprimer l'arrière-plan vert (ou de n'importe quelle couleur) simplement en recherchant des pixels dans une plage de tolérance de cette couleur, dans un logiciel d'édition de pixels tel que Photoshop, et une nouvelle génération de suites de composition vidéo qui pouvaient automatiquement éliminer les fonds colorés. Presque toute la nuit, soixante ans de l'industrie de l'impression optique ont été relégués à l'histoire.

Les dix dernières années de recherche sur la vision par ordinateur accélérée par GPU font entrer l’extraction de cache dans une troisième ère, chargeant les chercheurs de développer des systèmes capables d’extraire des caches de haute qualité sans avoir besoin d’écrans verts. Rien que chez Arxiv, les articles liés aux innovations en matière d'extraction de premier plan basée sur l'apprentissage automatique sont hebdomadaires.

Nous mettre dans l'image

Ce centre d'intĂ©rĂŞt acadĂ©mique et industriel pour l'extraction de l'IA a dĂ©jĂ  eu un impact sur l'espace des consommateurs : des implĂ©mentations brutes mais rĂ©alisables nous sont familières Ă  tous sous la forme de Zoom et Skype des filtres qui peuvent remplacer nos arrière-plans de salon par des Ă®les tropicales, etc., lors d'appels en vidĂ©oconfĂ©rence.

Cependant, les meilleurs caches nécessitent toujours un écran vert, car Zoom noté mercredi dernier.

A gauche, un homme devant un Ă©cran vert, avec des cheveux bien extraits via la fonction Virtual Background de Zoom. Ă€ gauche, une femme devant une scène domestique normale, avec des cheveux extraits de manière algorithmique, moins prĂ©cise et avec des besoins informatiques plus Ă©levĂ©s. Source : https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

Ă€ gauche, un homme devant un Ă©cran vert, avec des cheveux bien extraits grâce Ă  la fonction d'arrière-plan virtuel de Zoom. Ă€ droite, une femme devant une scène domestique normale, avec des cheveux extraits algorithmiquement, avec moins de prĂ©cision et des exigences de calcul plus Ă©levĂ©es. Source : https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

A autre poste de la plate-forme Zoom Support avertit que l'extraction sans écran vert nécessite également une plus grande puissance de calcul dans l'appareil de capture.

La nécessité de le couper

Les améliorations en termes de qualité, de portabilité et d'économie de ressources pour les systèmes d'extraction de matte « dans la nature » (c'est-à-dire l'isolement des personnes sans avoir besoin d'écrans verts) sont pertinentes pour bien plus de secteurs et d'activités que les simples filtres de vidéoconférence.

Pour le développement d'ensembles de données, une meilleure reconnaissance faciale, de la tête entière et du corps entier offre la possibilité de garantir que les éléments d'arrière-plan étrangers ne soient pas intégrés dans les modèles de vision par ordinateur de sujets humains ; une isolation plus précise améliorerait considérablement segmentation sémantique techniques conçues pour distinguer et assimiler des domaines (c'est-à-dire 'chat', 'personne', 'bateau'), et améliorer VAE et transformateursystèmes de synthèse d'images basés sur des algorithmes tels que le nouveau DALL-E2; et de meilleurs algorithmes d'extraction réduiraient le besoin de manuels coûteux rotoscopie dans des pipelines VFX coûteux.

En effet, l'ascendant de multimodal Les mĂ©thodologies (gĂ©nĂ©ralement texte/image), oĂą un domaine tel que « chat Â» est codĂ© Ă  la fois comme une image et avec des rĂ©fĂ©rences textuelles associĂ©es, font dĂ©jĂ  leur entrĂ©e dans le traitement d'images. Un exemple rĂ©cent est Texte2Live architecture, qui utilise la formation multimodale (texte/image) pour crĂ©er des vidĂ©os de, parmi une myriade d'autres possibilitĂ©s, cygnes de cristal et girafes de verre.

Tapis IA sensible à la scène

De nombreuses recherches sur le maillage automatique basé sur l'IA se sont concentrées sur la reconnaissance des limites et l'évaluation des groupements basés sur les pixels à l'intérieur d'une image ou d'une image vidéo. Cependant, de nouvelles recherches en provenance de Chine proposent un pipeline d'extraction qui améliore la délimitation et la qualité de la matte en tirant parti descriptions textuelles d'une scène (une approche multimodale qui a gagné du terrain dans le secteur de la recherche en vision par ordinateur au cours des 3-4 dernières années), prétendant avoir amélioré les méthodes antérieures de plusieurs façons.

Un exemple d'extraction SPG-IM (dernière image, en bas à droite), comparée aux méthodes antérieures concurrentes. Source : https://arxiv.org/pdf/2204.09276.pdf

Un exemple d'extraction SPG-IM (dernière image, en bas à droite), comparée aux méthodes antérieures concurrentes. Source : https://arxiv.org/pdf/2204.09276.pdf

Le défi posé au sous-secteur de la recherche sur l'extraction est de produire des flux de travail qui nécessitent un minimum d'annotations manuelles et d'intervention humaine - idéalement, aucune. Outre les implications financières, les chercheurs du nouvel article observent que les annotations et les segmentations manuelles entreprises par des crowdworkers externalisés dans diverses cultures peuvent entraîner l'étiquetage ou même la segmentation des images de différentes manières, conduisant à des algorithmes incohérents et insatisfaisants.

Un exemple de cela est l’interprétation subjective de ce qui définit un « objet de premier plan » :

D'après le nouvel article : les mĂ©thodes antĂ©rieures LFM et MODNet (« GT Â» signifie Ground Truth, un rĂ©sultat « idĂ©al Â» souvent obtenu manuellement ou par des mĂ©thodes non algorithmiques), ont des approches diffĂ©rentes et diversement efficaces de la dĂ©finition du contenu de premier plan, alors que les nouvelles La mĂ©thode SPG-IM dĂ©limite plus efficacement le "contenu proche" Ă  travers le contexte de la scène.

Extrait du nouvel article : mĂ©thodes antĂ©rieures LFM et MODNet (« GT » signifie Ground Truth, un rĂ©sultat « idĂ©al » souvent obtenu manuellement ou par des mĂ©thodes non algorithmiques), ont des approches diffĂ©rentes et plus ou moins efficaces de la dĂ©finition du contenu de premier plan, tandis que la nouvelle mĂ©thode SPG-IM dĂ©limite plus efficacement le « contenu proche » Ă  travers le contexte de la scène.

Pour résoudre ce problème, les chercheurs ont développé un pipeline en deux étapes intitulé Image guidée par perception situationnelle (SPG-IM). L'architecture d'encodeur/décodeur à deux étages comprend la distillation de la perception situationnelle (SPD) et le matage guidé par la perception situationnelle (SPGM).

L'architecture SPG-IM.

L'architecture SPG-IM.

Tout d'abord, SPD pré-entraîne les transformations de caractéristiques visuelles en texte, générant des légendes pertinentes pour leurs images associées. Après cela, la prédiction du masque de premier plan est activée en connectant le pipeline à un roman prédiction de saillance technique.

Ensuite, SPGM produit un cache alpha estimé basé sur l'entrée d'image RVB brute et le masque généré obtenu dans le premier module.

L'objectif est le guidage de la perception situationnelle, dans lequel le système a une compréhension contextuelle de la composition de l'image, lui permettant de cadrer - par exemple - le défi d'extraire des cheveux complexes d'un arrière-plan par rapport aux caractéristiques connues d'une tâche aussi spécifique.

Dans l'exemple ci-dessous, SPG-IM comprend que les cordons sont intrinsèques Ă  un « parachute Â», oĂą MODNet ne parvient pas Ă  conserver et Ă  dĂ©finir ces dĂ©tails. De mĂŞme ci-dessus, la structure complète de l'appareil de terrain de jeu est arbitrairement perdue dans MODNet.

Dans l'exemple ci-dessous, SPG-IM comprend que les cordes sont intrinsèques Ă  un « parachute Â», et MODNet ne parvient pas Ă  conserver ni Ă  dĂ©finir ces dĂ©tails. De mĂŞme, la structure complète de l'Ă©quipement de jeu est arbitrairement perdue dans MODNet.

Le nouveau système d’ papier est intitulé Image guidée par perception situationnelle, et provient de chercheurs de l'OPPO Research Institute, de PicUp.ai et de Xmotors.

Caches automatisés intelligents

SPG-IM propose Ă©galement un rĂ©seau de raffinement de transformation focale adaptative (AFT) qui peut traiter les dĂ©tails locaux et le contexte global sĂ©parĂ©ment, facilitant ainsi les « matières intelligentes Â».

Comprendre le contexte de la scène, dans ce cas "fille avec cheval", peut potentiellement rendre l'extraction de premier plan plus facile que les méthodes précédentes.

Comprendre le contexte de la scène, dans ce cas « fille avec cheval », peut potentiellement rendre l'extraction du premier plan plus facile que les méthodes précédentes.

Le papier déclare:

"Nous pensons que les reprĂ©sentations visuelles de la tâche visuel-textuel, par exemple Sous-titrage d'images : se concentrer sur des signaux sĂ©mantiquement plus complets entre a) les objets et b) les objets et leur environnement ambiant afin de gĂ©nĂ©rer des descriptions couvrant Ă  la fois les informations globales et les dĂ©tails locaux. De plus, contrairement Ă  l'annotation coĂ»teuse des pixels du matting d'images, les Ă©tiquettes textuelles peuvent ĂŞtre collectĂ©es massivement Ă  un coĂ»t très faible.

La branche SPD de l'architecture est préformée conjointement avec l'Université du Michigan VirTex Décodeur textuel basé sur un transformateur, qui apprend les représentations visuelles à partir de légendes sémantiquement denses.

VirTex forme conjointement un ConvNet et des transformateurs via des couplets de légende d'image, et transfère les informations obtenues à des tâches de vision en aval telles que la détection d'objets. Source : https://arxiv.org/pdf/2006.06666.pdf

VirTex forme conjointement un ConvNet et des transformateurs via des couplets de légende d'image, et transfère les informations obtenues à des tâches de vision en aval telles que la détection d'objets. Source : https://arxiv.org/pdf/2006.06666.pdf

Entre autres tests et études d'ablation, les chercheurs ont testé le SPG-IM par rapport à l'état de l'art trimapeméthodes basées sur Deep Image Matting (FAIBLE), Index Net, Tapis d'image sensible au contexte (CAM), Attention contextuelle guidée (GCA), FBA, et le mappage d'images sémantiques (OUI).

D'autres cadres antérieurs testés comprenaient des approches sans trimap LFM, HAttTapis et MODNetPour une comparaison équitable, les méthodes de test ont été adaptées en fonction des différentes méthodologies ; lorsque le code n'était pas disponible, les techniques du document ont été reproduites à partir de l'architecture décrite.

Le nouveau papier précise :

Notre SPG-IM surpasse largement toutes les méthodes concurrentes sans trimap ([LFM], [HAttMatting] et [MODNet]). Parallèlement, notre modèle affiche également une supériorité remarquable sur les méthodes de pointe (SOTA) basées sur le trimap et guidées par masque, pour les quatre métriques des jeux de données publics (Composition-1K, Distinction-646 et Human-2K), ainsi que sur notre benchmark Multi-Object-1K.

Et continue :

« On constate clairement que notre mĂ©thode prĂ©serve les dĂ©tails fins (par exemple, les sites de pointes de cheveux, les textures transparentes et les limites) sans l'aide de la trimap. De plus, comparĂ©e Ă  d'autres modèles concurrents sans trimap, notre SPG-IM conserve une meilleure complĂ©tude sĂ©mantique globale. Â»

 

Première publication le 24 avril 2022.

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai