Ângulo de Anderson
Recorte de Imagem de IA que Entende Cenas

No documentário extra que acompanha o lançamento do DVD de Alien3 (1992) em 2003, o lendário especialista em efeitos visuais Richard Edlund recordou com horror a “luta de sumô” da extração de matte fotoquímica que dominou o trabalho de efeitos visuais entre o final dos anos 1930 e o final dos anos 1980. Edlund descreveu a natureza de tentativa e erro do processo como “luta de sumô”, em comparação com as técnicas digitais de tela azul/verde que tomaram conta no início dos anos 1990 (e ele retornou à metáfora desde então).
Extrair um elemento de primeiro plano (como uma pessoa ou um modelo de nave espacial) de um fundo, para que a imagem cortada possa ser compostada em uma placa de fundo, era originalmente alcançado filmando o objeto de primeiro plano contra um fundo uniforme azul ou verde.

Processos de extração fotoquímica laboriosos para um efeito visual da ILM para ‘Return of the Jedi’ (1983). Fonte: https://www.youtube.com/watch?v=qwMLOjqPmbQ
No footage resultante, a cor do fundo seria subsequentemente isolada quimicamente e usada como um modelo para reimprimir o objeto de primeiro plano (ou pessoa) em uma impressora óptica como um objeto “flutuante” em uma célula de filme transparente.
O processo era conhecido como sobreposição de separação de cor (CSO) – embora esse termo eventualmente se tornasse mais associado aos efeitos de vídeo “Chromakey” crus em produções de televisão de baixo orçamento dos anos 1970 e 1980, que foram alcançados com meios analógicos em vez de químicos ou digitais.

Demonstração de Color Separation Overlay em 1970 para o programa de televisão infantil britânico ‘Blue Peter’. Fonte: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx
Em qualquer caso, seja para elementos de filme ou vídeo, posteriormente o footage extraído poderia ser inserido em qualquer outro footage.
Embora o processo de sódio-vapor da Disney, notadamente mais caro e proprietário (que chaveava em amarelo, especificamente, e também foi usado para o filme de terror de 1963 de Alfred Hitchcock, The Birds), tenha dado melhor definição e matizes mais nítidos, a extração fotoquímica permaneceu penosa e pouco confiável.

O processo de extração de sódio-vapor da Disney exigia fundos perto do extremo amarelo do espectro. Aqui, Angela Lansbury é suspensa por fios durante a produção de uma sequência com efeitos visuais para ‘Bedknobs and Broomsticks’ (1971). Fonte
Além do Recorte Digital
Na década de 1990, a revolução digital dispensou os produtos químicos, mas não a necessidade de telas verdes. Era agora possível remover o fundo verde (ou qualquer cor) apenas procurando por pixels dentro de uma faixa de tolerância daquela cor, em software de edição de pixels como o Photoshop, e em uma nova geração de suites de composição de vídeo que podiam automaticamente chavear os fundos coloridos. Quase da noite para o dia, sessenta anos da indústria de impressão óptica foram relegados à história.
Os últimos dez anos de pesquisas de visão computacional aceleradas por GPU estão levando a extração de matte para uma terceira era, encarregando os pesquisadores de desenvolver sistemas que possam extrair matizes de alta qualidade sem a necessidade de telas verdes. No Arxiv, artigos relacionados a inovações em extração de primeiro plano baseada em aprendizado de máquina são uma característica semanal.
Colocando-nos na Imagem
Esse foco de interesse acadêmico e industrial na extração de IA já impactou o espaço do consumidor: implementações cruas, mas funcionais, são familiares a todos na forma de filtros Zoom e Skype que podem substituir os fundos de nossas salas de estar com ilhas tropicais, etc., em chamadas de vídeo.
No entanto, as melhores matizes ainda exigem uma tela verde, como Zoom observou na última quarta-feira.

À esquerda, um homem em frente a uma tela verde, com cabelo bem extraído via recurso de Fundo Virtual do Zoom. À direita, uma mulher em frente a uma cena doméstica normal, com cabelo extraído algoritmicamente, menos precisamente, e com maior exigência de processamento. Fonte: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image
Um post adicional da plataforma de suporte do Zoom alerta que a extração sem tela verde também exige maior poder de processamento no dispositivo de captura.
A Necessidade de Cortar
Melhorias na qualidade, portabilidade e economia de recursos para sistemas de extração de matte “no mundo” (ou seja, isolando pessoas sem a necessidade de telas verdes) são relevantes para muitos setores e empreendimentos além apenas de filtros de videoconferência.
Para o desenvolvimento de conjuntos de dados, a melhoria na reconhecimento facial, de cabeça e de corpo completo oferece a possibilidade de garantir que elementos de fundo extrínsecos não sejam treinados em modelos de visão computacional de sujeitos humanos; a extração mais precisa melhoraria significativamente técnicas de segmentação semântica projetadas para distinguir e assimilar domínios (ou seja, ‘gato’, ‘pessoa’, ‘barco’), e melhorar VAE e transformadores-baseados sistemas de síntese de imagens, como o novo DALL-E 2 da OpenAI; e algoritmos de extração mais precisos reduziriam a necessidade de rotoscopia manual caros em pipelines de efeitos visuais.
Na verdade, a ascensão de metodologias multimodais (geralmente texto/imagem), onde um domínio como “gato” é codificado tanto como imagem quanto com referências de texto associadas, já está fazendo incursões no processamento de imagens. Um exemplo recente é a arquitetura Text2Live, que usa treinamento multimodal (texto/imagem) para criar vídeos de, entre muitas outras possibilidades, cristais e girafas de vidro.
Recorte de IA Consciente da Cena
Uma grande parte da pesquisa sobre recorte automático baseado em IA se concentrou no reconhecimento de limites e avaliação de agrupamentos de pixels dentro de uma imagem ou quadro de vídeo. No entanto, uma nova pesquisa da China oferece um pipeline de extração que melhora a delimitação e a qualidade da matte, aproveitando descrições baseadas em texto de uma cena (uma abordagem multimodal que ganhou tração no setor de pesquisa de visão computacional nos últimos 3-4 anos), alegando ter melhorado os métodos anteriores de várias maneiras.

Um exemplo de extração SPG-IM, comparado com métodos anteriores. Fonte: https://arxiv.org/pdf/2204.09276.pdf
O desafio colocado para o sub-setor de pesquisa de extração é produzir fluxos de trabalho que requeiram um mínimo de anotação manual e intervenção humana – idealmente, nenhum. Além das implicações de custo, os pesquisadores do novo artigo observam que anotações e segmentações manuais realizadas por trabalhadores de multidão terceirizados em várias culturas podem causar imagens a serem rotuladas ou até segmentadas de maneiras diferentes, levando a algoritmos inconsistentes e insatisfatórios.
Um exemplo disso é a interpretação subjetiva do que define um “objeto de primeiro plano”:

Do novo artigo: métodos anteriores LFM e MODNet (‘GT’ significa Ground Truth, um resultado ‘ideal’ frequentemente alcançado manualmente ou por métodos não algorítmicos), têm diferentes e variadamente eficazes abordagens para a definição de conteúdo de primeiro plano, enquanto o novo método SPG-IM delimita mais eficazmente ‘conteúdo próximo’ por meio do contexto da cena.
Para abordar isso, os pesquisadores desenvolveram um pipeline de duas etapas intitulado Recorte de Imagem Guiado por Percepção Situacional (SPG-IM). A arquitetura de codificador/decodificador de duas etapas compreende a Destilação de Percepção Situacional (SPD) e o Recorte de Imagem Guiado por Percepção Situacional (SPGM).
Primeiro, a SPD pré-treina transformações visuais-textuais, gerando legendas apropriadas para suas imagens associadas. Em seguida, a previsão da máscara de primeiro plano é habilitada conectando o pipeline a uma nova técnica de previsão de saliência.
Em seguida, o SPGM produz uma matte alfa estimada com base na entrada de imagem RGB bruta e na máscara gerada no primeiro módulo.
O objetivo é a orientação da percepção situacional, na qual o sistema tem uma compreensão contextual do que a imagem consiste, permitindo que ele delimite – por exemplo – o desafio de extrair cabelo complexo de um fundo contra características conhecidas de uma tarefa específica.

Abaixo, o SPG-IM entende que os cabos são intrínsecos a um ‘paraquedas’, onde o MODNet falha em reter e definir esses detalhes. Da mesma forma, acima, a estrutura completa do aparelho de playground é perdida arbitrariamente no MODNet.
O novo artigo é intitulado Recorte de Imagem Guiado por Percepção Situacional e vem de pesquisadores do Instituto de Pesquisa OPPO, PicUp.ai e Xmotors.
Matizes Automáticos Inteligentes
O SPG-IM também oferece uma Rede de Refinamento de Transformação Focal Adaptativa (AFT) que pode processar detalhes locais e contexto global separadamente, facilitando ‘matizes inteligentes’.

Entender o contexto da cena, neste caso ‘menina com cavalo’, pode potencialmente tornar a extração de primeiro plano mais fácil do que métodos anteriores.
O artigo afirma:
‘Acreditamos que as representações visuais do task de textual-visual, por exemplo, legendagem de imagem, se concentram em sinais semanticamente mais abrangentes entre a) objeto para objeto e b) objeto para o ambiente, para gerar descrições que possam cobrir tanto as informações globais quanto os detalhes locais. Além disso, em comparação com a anotação de pixel cara da matte de imagem, as etiquetas textuais podem ser coletadas em massa a um custo muito baixo.’
A ramificação SPD da arquitetura é pré-treinada em conjunto com o decodificador baseado em transformadores da Universidade de Michigan, VirTex, que aprende representações visuais a partir de legendas semanticamente densas.

O VirTex treina conjuntamente uma rede convolucional e transformadores por meio de pares de imagem-legenda, e transfere as informações obtidas para tarefas de visão downstream, como detecção de objetos. Fonte: https://arxiv.org/pdf/2006.06666.pdf
Entre outros testes e estudos de ablação, os pesquisadores testaram o SPG-IM contra métodos baseados em trimap de última geração, como Deep Image Matting (DIM), IndexNet, Context-Aware Image Matting (CAM), Guided Contextual Attention (GCA), FBA e Semantic Image Mapping (SIM).
Outras estruturas anteriores testadas incluíram abordagens sem trimap LFM, HAttMatting e MODNet. Para uma comparação justa, os métodos de teste foram adaptados com base nas diferentes metodologias; onde o código não estava disponível, as técnicas do artigo foram reproduzidas a partir da arquitetura descrita.
O novo artigo afirma:
‘Nosso SPG-IM supera todos os métodos concorrentes sem trimap ([LFM], [HAttMatting] e [MODNet]) por uma grande margem. Além disso, nosso modelo também mostra superioridade notável sobre os métodos baseados em trimap e orientados por máscara de última geração em termos de todas as quatro métricas em conjuntos de dados públicos (ou seja, Composition-1K, Distinction-646 e Human-2K), e nosso benchmark Multi-Object-1K.’
E continua:
‘Pode ser claramente observado que nosso método preserva detalhes finos (por exemplo, sítios de pontas de cabelo, texturas transparentes e limites) sem a orientação do trimap. Além disso, em comparação com outros modelos sem trimap concorrentes, nosso SPG-IM pode reter melhor a completude semântica global.’
Publicado pela primeira vez em 24 de abril de 2022.















