Intelligence artificielle
Matage d'image AI qui comprend les scènes
Dans le documentaire extras accompagnant la sortie DVD 2003 de Alien3 (1992), la légende des effets visuels Richard Edlund a rappelé avec horreur la «lutte sumo» de l'extraction de matte photochimique qui dominait le travail d'effets visuels entre le 1930s fin et la fin des années 1980. Edlund a décrit la nature aléatoire du processus comme une «lutte de sumo», par rapport aux techniques numériques à écran bleu / vert qui ont pris le relais au début des années 1990 (et il a revenu à la métaphore depuis).
L'extraction d'un élément de premier plan (comme une personne ou un modèle de vaisseau spatial) d'un arrière-plan, de sorte que l'image découpée puisse être composée dans une plaque d'arrière-plan, était à l'origine réalisée en filmant l'objet de premier plan sur un fond bleu ou vert uniforme.
Dans le métrage résultant, la couleur d'arrière-plan serait ensuite isolée chimiquement et utilisée comme modèle pour réimprimer l'objet (ou la personne) de premier plan dans un imprimante optique en tant qu'objet « flottant » dans une cellule de film autrement transparente.
Le processus était connu sous le nom de superposition de séparation des couleurs (CSO) - bien que ce terme devienne finalement plus associé au brut 'Chromakey' effets vidéo dans la production télévisée à petit budget des années 1970 et 1980, qui ont été obtenus avec des moyens analogiques plutôt que chimiques ou numériques.
Dans tous les cas, qu'il s'agisse d'éléments filmiques ou vidéo, les séquences extraites pourront ensuite être insérées dans n'importe quelle autre séquence.
Bien que Disney soit nettement plus cher et propriétaire procédé sodium-vapeur (qui a cliqué sur le jaune, en particulier, et a également été d'utiliser pour l'horreur de 1963 d'Alfred Hitchcock Les oiseaux) donnaient une meilleure définition et des mattes plus nettes, l'extraction photochimique restait laborieuse et peu fiable.
Au-delà du tapis numérique
Dans les années 1990, la révolution numérique a supprimé les produits chimiques, mais pas le besoin d'écrans verts. Il était désormais possible de supprimer l'arrière-plan vert (ou de n'importe quelle couleur) simplement en recherchant des pixels dans une plage de tolérance de cette couleur, dans un logiciel d'édition de pixels tel que Photoshop, et une nouvelle génération de suites de composition vidéo qui pouvaient automatiquement éliminer les fonds colorés. Presque toute la nuit, soixante ans de l'industrie de l'impression optique ont été relégués à l'histoire.
Les dix dernières années de recherche sur la vision par ordinateur accélérée par GPU font entrer l’extraction de cache dans une troisième ère, chargeant les chercheurs de développer des systèmes capables d’extraire des caches de haute qualité sans avoir besoin d’écrans verts. Rien que chez Arxiv, les articles liés aux innovations en matière d'extraction de premier plan basée sur l'apprentissage automatique sont hebdomadaires.
Nous mettre dans l'image
Ce centre d'intérêt académique et industriel pour l'extraction de l'IA a déjà eu un impact sur l'espace des consommateurs : des implémentations brutes mais réalisables nous sont familières à tous sous la forme de Zoom ainsi que Skype des filtres qui peuvent remplacer nos arrière-plans de salon par des îles tropicales, etc., lors d'appels en vidéoconférence.
Cependant, les meilleurs caches nécessitent toujours un écran vert, car Zoom noté mercredi dernier.
A autre poste de la plate-forme Zoom Support avertit que l'extraction sans écran vert nécessite également une plus grande puissance de calcul dans l'appareil de capture.
La nécessité de le couper
Les améliorations de la qualité, de la portabilité et de l'économie des ressources pour les systèmes d'extraction de matte "dans la nature" (c'est-à-dire l'isolement des personnes sans avoir besoin d'écrans verts) concernent bien plus de secteurs et d'activités que les simples filtres de visioconférence.
Pour le développement d'ensembles de données, la reconnaissance améliorée du visage, de la tête et du corps entier offre la possibilité de s'assurer que les éléments d'arrière-plan étrangers ne sont pas entraînés dans des modèles de vision par ordinateur de sujets humains ; un isolement plus précis améliorerait grandement segmentation sémantique techniques conçues pour distinguer et assimiler des domaines (c'est-à-dire 'chat', 'personne', 'bateau'), et améliorer VAE ainsi que transformateurbasés sur des systèmes de synthèse d'images tels que le nouveau OpenAI DALL-E2; et de meilleurs algorithmes d'extraction réduiraient le besoin de manuels coûteux rotoscopie dans des pipelines VFX coûteux.
En effet, l'ascendant de multimodal Les méthodologies (généralement texte/image), dans lesquelles un domaine tel que "chat" est codé à la fois sous forme d'image et avec des références textuelles associées, font déjà des percées dans le traitement d'images. Un exemple récent est le Texte2Live architecture, qui utilise la formation multimodale (texte/image) pour créer des vidéos de, parmi une myriade d'autres possibilités, cygnes de cristal et girafes de verre.
Tapis IA sensible à la scène
De nombreuses recherches sur le maillage automatique basé sur l'IA se sont concentrées sur la reconnaissance des limites et l'évaluation des groupements basés sur les pixels à l'intérieur d'une image ou d'une image vidéo. Cependant, de nouvelles recherches en provenance de Chine proposent un pipeline d'extraction qui améliore la délimitation et la qualité de la matte en tirant parti descriptions textuelles d'une scène (une approche multimodale qui a gagné du terrain dans le secteur de la recherche en vision par ordinateur au cours des 3-4 dernières années), prétendant avoir amélioré les méthodes antérieures de plusieurs façons.
Le défi posé au sous-secteur de la recherche sur l'extraction est de produire des flux de travail qui nécessitent un minimum d'annotations manuelles et d'intervention humaine - idéalement, aucune. Outre les implications financières, les chercheurs du nouvel article observent que les annotations et les segmentations manuelles entreprises par des crowdworkers externalisés dans diverses cultures peuvent entraîner l'étiquetage ou même la segmentation des images de différentes manières, conduisant à des algorithmes incohérents et insatisfaisants.
Un exemple de ceci est l'interprétation subjective de ce qui définit un « objet de premier plan » :
Pour résoudre ce problème, les chercheurs ont développé un pipeline en deux étapes intitulé Image guidée par perception situationnelle (SPG-IM). L'architecture d'encodeur/décodeur à deux étages comprend la distillation de la perception situationnelle (SPD) et le matage guidé par la perception situationnelle (SPGM).
Tout d'abord, SPD pré-entraîne les transformations de caractéristiques visuelles en texte, générant des légendes pertinentes pour leurs images associées. Après cela, la prédiction du masque de premier plan est activée en connectant le pipeline à un roman prédiction de saillance technique.
Ensuite, SPGM produit un cache alpha estimé basé sur l'entrée d'image RVB brute et le masque généré obtenu dans le premier module.
L'objectif est le guidage de la perception situationnelle, dans lequel le système a une compréhension contextuelle de la composition de l'image, lui permettant de cadrer - par exemple - le défi d'extraire des cheveux complexes d'un arrière-plan par rapport aux caractéristiques connues d'une tâche aussi spécifique.
Le nouveau système d’ papier est intitulé Image guidée par perception situationnelle, et provient de chercheurs de l'OPPO Research Institute, de PicUp.ai et de Xmotors.
Caches automatisés intelligents
SPG-IM propose également un réseau de raffinement de transformation focale adaptative (AFT) qui peut traiter séparément les détails locaux et le contexte global, facilitant ainsi les « caches intelligents ».
Le papier déclare:
"Nous pensons que les représentations visuelles de la tâche visuel-textuel, par exemple sous-titrage d'image, concentrez-vous sur des signaux sémantiquement plus complets entre a) objet à objet et b) objet à l'environnement ambiant pour générer des descriptions qui peuvent couvrir à la fois les informations globales et les détails locaux. De plus, par rapport à l'annotation coûteuse en pixels du maillage d'images, les étiquettes textuelles peuvent être massivement collectées à un coût très faible.
La branche SPD de l'architecture est préformée conjointement avec l'Université du Michigan VirTex Décodeur textuel basé sur un transformateur, qui apprend les représentations visuelles à partir de légendes sémantiquement denses.
Entre autres tests et études d'ablation, les chercheurs ont testé le SPG-IM par rapport à l'état de l'art trimapeméthodes basées sur Deep Image Matting (FAIBLE), Index Net, Tapis d'image sensible au contexte (CAM), Attention contextuelle guidée (GCA), FBA, et le mappage d'images sémantiques (OUI).
D'autres cadres antérieurs testés comprenaient des approches sans trimap LFM, HAttTapiset MODNet. Pour une comparaison équitable, les méthodes de test ont été adaptées en fonction des différentes méthodologies ; là où le code n'était pas disponible, les techniques de l'article ont été reproduites à partir de l'architecture décrite.
Le nouveau papier précise :
"Notre SPG-IM surpasse toutes les méthodes concurrentes sans trimap ([LFM], [HattMatting] et [MODNet]) par une large marge. Pendant ce temps, notre modèle montre également une supériorité remarquable par rapport aux méthodes de pointe basées sur le découpage et guidées par masque (SOTA) en termes de quatre mesures dans les ensembles de données publics (c'est-à-dire Composition-1K, Distinction-646 et Human -2K), et notre benchmark Multi-Object-1K.'
Et continue :
« On peut évidemment observer que notre méthode préserve les détails fins (par exemple, les sites de pointe des cheveux, les textures transparentes et les limites) sans l'aide de trimap. De plus, par rapport à d'autres modèles concurrents sans trimap, notre SPG-IM peut conserver une meilleure complétude sémantique globale.
Première publication le 24 avril 2022.