Inteligência artificial

Inteligência Artificial de Matting de Imagens que Entende Cenas

Published April 24, 2022

Updated April 28, 2026

Martin Anderson

No documentário extra que acompanha o lançamento do DVD de Alien³ (1992) em 2003, a lenda dos efeitos visuais Richard Edlund recordou com horror a “luta de sumô” da extração de matte fotoquímica que dominou o trabalho de efeitos visuais entre o final dos anos 1930 e o final dos anos 1980. Edlund descreveu a natureza de tentativa e erro do processo como “luta de sumô”, em comparação com as técnicas digitais de tela azul/verde que assumiram o controle no início dos anos 1990 (e ele retornou à metáfora desde então).

Extrair um elemento de primeiro plano (como uma pessoa ou um modelo de nave espacial) de um fundo, para que a imagem cortada possa ser compostada em uma placa de fundo, foi originalmente alcançado filmando o objeto de primeiro plano contra um fundo uniforme azul ou verde.

Processos de extração fotoquímica laboriosos para um efeito de VFX por ILM para ‘Return of the Jedi’ (1983). Fonte: https://www.youtube.com/watch?v=qwMLOjqPmbQ

Na filmagem resultante, a cor do fundo seria subsequentemente isolada quimicamente e usada como um modelo para reimprimir o objeto de primeiro plano (ou pessoa) em uma impressora óptica como um objeto “flutuante” em uma célula de filme transparente.

O processo era conhecido como sobreposição de separação de cor (CSO) – embora esse termo eventualmente se tornasse mais associado aos efeitos de vídeo “Chromakey” cruais ‘ na saída de televisão de baixo orçamento dos anos 1970 e 1980, que foram alcançados com meios analógicos em vez de químicos ou digitais.

Uma demonstração de Color Separation Overlay em 1970 para o programa infantil britânico ‘Blue Peter’. Fonte: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

Em qualquer caso, seja para elementos de filme ou vídeo, subsequentemente a filmagem extraída poderia ser inserida em qualquer outra filmagem.

Embora o processo de sódio-vapor notoriamente mais caro e proprietário da Disney sódio-vapor (que teclou em amarelo, especificamente, e também foi usado para o horror de Alfred Hitchcock de 1963 The Birds) deu melhor definição e matizes mais nítidos, a extração fotoquímica permaneceu penosa e pouco confiável.

O processo de extração de sódio-vapor proprietário da Disney exigia fundos perto do extremo amarelo do espectro. Aqui, Angela Lansbury é suspensa em fios durante a produção de uma sequência de VFX para ‘Bedknobs and Broomsticks’ (1971). Fonte

Além do Matting Digital

Nos anos 1990, a revolução digital dispensou os produtos químicos, mas não a necessidade de telas verdes. Era agora possível remover o verde (ou qualquer cor) apenas procurando pixels dentro de uma faixa de tolerância daquela cor, em software de edição de pixels como o Photoshop, e uma nova geração de suítes de composição de vídeo que poderiam automaticamente chavear os fundos coloridos. Quase da noite para o dia, sessenta anos da indústria de impressão óptica foram consignados à história.

Os últimos dez anos de pesquisas de visão computacional aceleradas por GPU estão introduzindo a extração de matte em uma terceira era, encarregando os pesquisadores do desenvolvimento de sistemas que possam extrair mattes de alta qualidade sem a necessidade de telas verdes. No Arxiv sozinho, artigos relacionados a inovações na extração de primeiro plano baseada em aprendizado de máquina são uma característica semanal.

Colocando-nos na Imagem

Esse foco de interesse acadêmico e industrial na extração de IA já impactou o espaço do consumidor: implementações cruas, mas funcionais, são familiares a todos na forma de Zoom e Skype filtros que podem substituir os fundos de nossas salas de estar com ilhas tropicais, etc., em chamadas de vídeo.

No entanto, os melhores mattes ainda exigem uma tela verde, como Zoom observou na última quarta-feira.

À esquerda, um homem em frente a uma tela verde, com cabelo bem extraído via recurso de Fundo Virtual do Zoom. À direita, uma mulher em frente a uma cena doméstica normal, com cabelo extraído algoritmicamente, menos precisamente, e com maiores requisitos de computação. Fonte: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

Um poste adicional da plataforma de suporte do Zoom alerta que a extração sem tela verde também exige maior poder de computação no dispositivo de captura.

A Necessidade de Cortar

Melhorias na qualidade, portabilidade e economia de recursos para sistemas de extração de matte “no mundo” (ou seja, isolando pessoas sem a necessidade de telas verdes) são relevantes para muitos setores e empreendimentos além de filtros de videoconferência.

Para o desenvolvimento de conjuntos de dados, a melhoria da reconhecimento facial, de cabeça e de corpo completo oferece a possibilidade de garantir que elementos de fundo extrínsecos não sejam treinados em modelos de visão computacional de sujeitos humanos; a extração mais precisa melhoraria significativamente técnicas de segmentação semântica projetadas para distinguir e assimilar domínios (ou seja, ‘gato’, ‘pessoa’, ‘barco’), e melhorar VAE e transformer-baseado sistemas de síntese de imagem como o novo DALL-E 2 da OpenAI; e melhores algoritmos de extração reduziriam a necessidade de rotoscopia manual cara em pipelines de VFX caros.

Na verdade, a ascensão de multimodal (geralmente texto/imagem) metodologias, onde um domínio como ‘gato’ é codificado tanto como imagem quanto com referências de texto associadas, já está fazendo incursões no processamento de imagem. Um exemplo recente é a Text2Live arquitetura, que usa treinamento multimodal (texto/imagem) para criar vídeos de, entre muitas outras possibilidades, cristais de cisne e girafas de vidro.

Matting de IA Consciente de Cena

Uma grande quantidade de pesquisas em matting automático baseado em IA se concentrou no reconhecimento de limites e avaliação de agrupamentos de pixels dentro de uma imagem ou quadro de vídeo. No entanto, uma nova pesquisa da China oferece um pipeline de extração que melhora a delimitação e a qualidade do matte, aproveitando descrições de texto de uma cena (uma abordagem multimodal que ganhou tração no setor de pesquisa de visão computacional nos últimos 3-4 anos), alegando ter melhorado os métodos anteriores de várias maneiras.

Um exemplo de extração SPG-IM (última imagem, inferior direita), em comparação com métodos anteriores. Fonte: https://arxiv.org/pdf/2204.09276.pdf

O desafio apresentado para o sub-setor de pesquisa de extração é produzir fluxos de trabalho que exijam um mínimo de anotação manual e intervenção humana – idealmente, nenhum. Além das implicações de custo, os pesquisadores do novo artigo observam que anotações e segmentações manuais realizadas por trabalhadores de multidão terceirizados em várias culturas podem causar imagens a serem rotuladas ou até segmentadas de maneiras diferentes, levando a algoritmos inconsistentes e insatisfatórios.

Um exemplo disso é a interpretação subjetiva do que define um “objeto de primeiro plano”:

A partir do novo artigo: métodos anteriores LFM e MODNet (‘GT’ significa Verdade Terrível, um resultado ‘ideal’ frequentemente alcançado manualmente ou por métodos não algorítmicos), têm diferentes e variadamente eficazes takes na definição de conteúdo de primeiro plano, enquanto o novo método SPG-IM delimita mais eficazmente ‘conteúdo próximo’ por meio do contexto da cena.

Para abordar isso, os pesquisadores desenvolveram um pipeline de duas etapas intitulado Situational Perception Guided Image Matting (SPG-IM). A arquitetura de codificador/decodificador de duas etapas compreende a Destilação de Percepção Situacional (SPD) e a Matting Guiada por Percepção Situacional (SPGM).

A arquitetura SPG-IM.

Primeiro, a SPD pré-treina transformações visuais-textuais, gerando legendas apropriadas às imagens associadas. Depois disso, a previsão da máscara de primeiro plano é habilitada conectando o pipeline a uma nova técnica de previsão de saliência.

Em seguida, a SPGM produz uma estimativa de matte alfa com base na entrada de imagem RGB bruta e na máscara gerada no primeiro módulo.

O objetivo é a orientação da percepção situacional, na qual o sistema tem uma compreensão contextual do que a imagem consiste, permitindo que ele enquadre – por exemplo – o desafio de extrair cabelo complexo de um fundo contra características conhecidas de uma tarefa específica.

No exemplo abaixo, o SPG-IM entende que os cabos são intrínsecos a um ‘paraquedas’, onde o MODNet falha em reter e definir esses detalhes. Da mesma forma, acima, a estrutura completa do aparelho de playground é perdida arbitrariamente no MODNet.

O novo artigo é intitulado Situational Perception Guided Image Matting, e vem de pesquisadores do OPPO Research Institute, PicUp.ai e Xmotors.

Matting Automático Inteligente

O SPG-IM também oferece uma Rede de Refinamento de Transformação Focal Adaptativa (AFT) que pode processar detalhes locais e contexto global separadamente, facilitando ‘matte inteligentes’.

Entender o contexto da cena, neste caso ‘menina com cavalo’, pode potencialmente tornar a extração de primeiro plano mais fácil do que os métodos anteriores.

O artigo afirma:

‘Acreditamos que as representações visuais da tarefa visual-textual, por exemplo, legendas de imagem, se concentram em sinais semanticamente mais abrangentes entre a) objeto para objeto e b) objeto para o ambiente ao redor para gerar descrições que podem cobrir tanto as informações globais quanto os detalhes locais. Além disso, em comparação com a anotação de pixel cara de matting de imagem, as etiquetas textuais podem ser coletadas em massa a um custo muito baixo.’

O ramo SPD da arquitetura é pré-treinado com o decodificador de texto baseado em transformer da Universidade de Michigan VirTex, que aprende representações visuais a partir de legendas semanticamente densas.

VirTex treina conjuntamente uma ConvNet e Transformers por meio de pares de imagem-legenda, e transfere as percepções obtidas para tarefas de visão downstream, como detecção de objeto. Fonte: https://arxiv.org/pdf/2006.06666.pdf

Entre outros testes e estudos de ablação, os pesquisadores testaram o SPG-IM contra métodos de referência baseados em trimap, como Deep Image Matting (DIM), IndexNet, Context-Aware Image Matting (CAM), Guided Contextual Attention (GCA) , FBA, e Semantic Image Mapping (SIM).

Outras estruturas anteriores testadas incluíram abordagens livres de trimap LFM, HAttMatting, e MODNet. Para uma comparação justa, os métodos de teste foram adaptados com base nas diferentes metodologias; onde o código não estava disponível, as técnicas do artigo foram reproduzidas a partir da arquitetura descrita.

O novo artigo afirma:

‘Nosso SPG-IM supera todos os métodos concorrentes sem trimap ([LFM], [HAttMatting] e [MODNet]) por uma grande margem. Além disso, nosso modelo também mostra superioridade notável sobre os métodos baseados em trimap e orientados por máscara de estado da arte (SOTA) em termos de todas as quatro métricas em todos os conjuntos de dados públicos (ou seja, Composition-1K, Distinction-646 e Human-2K), e nosso benchmark Multi-Object-1K.’

E continua:

‘Pode ser claramente observado que nosso método preserva detalhes finos (por exemplo, sítios de ponta de cabelo, texturas transparentes e limites) sem a orientação do trimap. Além disso, em comparação com outros modelos concorrentes sem trimap, nosso SPG-IM pode reter melhor a completude semântica global.’