Inteligência artificial

AI Image Matting que compreende as cenas

Publicado 24 de abril de 2022

Atualização do 9 de dezembro de 2022

Martin Anderson

No documentário extra que acompanha o lançamento do DVD de 2003 Alien³ (1992), a lenda dos efeitos visuais Richard Edlund relembrou com horror a 'luta de sumô' de extração fotoquímica de matte que dominou o trabalho de efeitos visuais entre 1930s final e no final da década de 1980. Edlund descreveu a natureza imprevisível do processo como "luta de sumô", em comparação com as técnicas digitais de tela azul/verde que dominaram no início da década de 1990 (e ele tem devolvida à metáfora desde então).

A extração de um elemento de primeiro plano (como uma pessoa ou um modelo de nave espacial) de um plano de fundo, para que a imagem recortada possa ser composta em uma placa de fundo, foi originalmente obtida filmando-se o objeto de primeiro plano contra um fundo azul ou verde uniforme.

Processos laboriosos de extração fotoquímica para um VFX filmado pela ILM para 'Return of the Jedi' (1983). Fonte: https://www.youtube.com/watch?v=qwMLOjqPmbQ

Processos laboriosos de extração fotoquímica para uma filmagem de efeitos visuais feita pela ILM para 'O Retorno de Jedi' (1983). Fonte: https://www.youtube.com/watch?v=qwMLOjqPmbQ

Na filmagem resultante, a cor de fundo seria subsequentemente isolada quimicamente e usada como modelo para reimprimir o objeto (ou pessoa) em primeiro plano em um impressora óptica como um objeto 'flutuante' em uma célula de filme transparente.

O processo era conhecido como sobreposição de separação de cores (CSO) - embora esse termo acabasse se tornando mais associado ao petróleo bruto 'Chromakey' efeitos de vídeo na produção de televisão de baixo orçamento das décadas de 1970 e 1980, que foram alcançados com meios analógicos em vez de químicos ou digitais.

Uma demonstração de sobreposição de separação de cores em 1970 para o programa infantil britânico 'Blue Peter'. Fonte: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

Em qualquer caso, seja para filmes ou elementos de vídeo, a partir daí a filmagem extraída pode ser inserida em qualquer outra filmagem.

Embora a Disney seja notavelmente mais cara e proprietária processo de vapor de sódio (que digitou em amarelo, especificamente, e também foi usava para o terror de Alfred Hitchcock de 1963 Os pássaros) deu melhor definição e foscos mais nítidos, a extração fotoquímica permaneceu meticulosa e não confiável.

O processo de extração de vapor de sódio proprietário da Disney exigia fundos próximos ao extremo amarelo do espectro. Aqui, Angela Lansbury é suspensa por fios durante a produção de uma sequência de VFX para 'Bedknobs and Broomsticks' (1971). Fonte

O processo patenteado de extração de vapor de sódio da Disney exigia fundos próximos à extremidade amarela do espectro. Aqui, Angela Lansbury está suspensa em fios durante a produção de uma sequência repleta de efeitos visuais para "Bedknobs and Broomsticks" (1971). fonte

Além da cobertura digital

Na década de 1990, a revolução digital dispensou os produtos químicos, mas não a necessidade de telas verdes. Agora era possível remover o fundo verde (ou qualquer cor) apenas procurando por pixels dentro de uma faixa de tolerância daquela cor, em software de edição de pixels como o Photoshop, e uma nova geração de suítes de composição de vídeo que podiam codificar automaticamente os fundos coloridos. Quase da noite para o dia, sessenta anos da indústria de impressão óptica ficaram para a história.

Os últimos dez anos de pesquisa de visão computacional acelerada por GPU estão conduzindo a extração de foscos para uma terceira era, incumbindo os pesquisadores do desenvolvimento de sistemas que possam extrair foscos de alta qualidade sem a necessidade de telas verdes. Somente no Arxiv, artigos relacionados a inovações na extração de primeiro plano baseada em aprendizado de máquina são publicados semanalmente.

Colocando-nos na foto

Esse locus de interesse acadêmico e da indústria na extração de IA já afetou o espaço do consumidor: implementações rudimentares, mas viáveis, são familiares para todos nós na forma de Zoom e Skype filtros que podem substituir nossos fundos de sala de estar por ilhas tropicais, e outros, em chamadas de videoconferência.

No entanto, os melhores mattes ainda requerem uma tela verde, como Zoom anotado última quarta-feira.

À esquerda, um homem em frente a uma tela verde, com cabelos bem extraídos por meio do recurso Virtual Background do Zoom. À esquerda, uma mulher em frente a uma cena doméstica normal, com cabelos extraídos algoritmicamente, com menos precisão e com maiores requisitos de computação. Fonte: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

À esquerda, um homem em frente a uma tela verde, com cabelos bem extraídos pelo recurso Fundo Virtual do Zoom. À direita, uma mulher em frente a uma cena doméstica normal, com cabelos extraídos algoritmicamente, com menos precisão e com requisitos de computação mais elevados. Fonte: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

A postar mais da plataforma Zoom Support adverte que a extração de tela não verde também requer maior poder de computação no dispositivo de captura.

A necessidade de cortá-lo

Melhorias na qualidade, portabilidade e economia de recursos para sistemas de extração de matte "na natureza" (ou seja, isolar pessoas sem a necessidade de telas verdes) são relevantes para muitos outros setores e atividades do que apenas filtros de videoconferência.

Para o desenvolvimento de conjuntos de dados, o reconhecimento facial, de cabeça e corpo inteiro aprimorados oferece a possibilidade de garantir que elementos de fundo estranhos não sejam treinados em modelos de visão computacional de sujeitos humanos; um isolamento mais preciso melhoraria muito segmentação semântica técnicas projetadas para distinguir e assimilar domínios (ou seja, 'gato', 'pessoa', 'barco'), e melhorar VAE e transformadorsistemas de síntese de imagens baseados em algoritmos, como o novo OpenAI DALL-E2; e melhores algoritmos de extração reduziriam a necessidade de manuais caros rotoscopia em dispendiosos pipelines VFX.

Na verdade, a ascendência multimodal Metodologias (geralmente texto/imagem), nas quais um domínio como "gato" é codificado como uma imagem e com referências textuais associadas, já estão se expandindo no processamento de imagens. Um exemplo recente é o Text2Live arquitetura, que usa treinamento multimodal (texto/imagem) para criar vídeos de, entre inúmeras outras possibilidades, cisnes de cristal e girafas de vidro.

IA sensível à cena Matting

Muitas pesquisas sobre matting automático baseado em IA se concentraram no reconhecimento de limites e na avaliação de agrupamentos baseados em pixels dentro de uma imagem ou quadro de vídeo. No entanto, uma nova pesquisa da China oferece um canal de extração que melhora o delineamento e a qualidade fosca, aproveitando descrições baseadas em texto de uma cena (uma abordagem multimodal que ganhou força no setor de pesquisa de visão computacional nos últimos 3-4 anos), alegando ter melhorado os métodos anteriores de várias maneiras.

Um exemplo de extração SPG-IM (última imagem, canto inferior direito), comparada com métodos concorrentes anteriores. Fonte: https://arxiv.org/pdf/2204.09276.pdf

O desafio colocado para o subsetor de pesquisa de extração é produzir fluxos de trabalho que exijam um mínimo de anotação manual e intervenção humana – idealmente, nenhuma. Além das implicações de custo, os pesquisadores do novo artigo observam que anotações e segmentações manuais realizadas por crowdworkers terceirizados em várias culturas podem fazer com que as imagens sejam rotuladas ou mesmo segmentadas de maneiras diferentes, levando a algoritmos inconsistentes e insatisfatórios.

Um exemplo disso é a interpretação subjetiva do que define um "objeto de primeiro plano":

Do novo artigo: os métodos anteriores LFM e MODNet ('GT' significa Ground Truth, um resultado 'ideal' frequentemente alcançado manualmente ou por métodos não algorítmicos), têm abordagens diferentes e eficazes na definição de conteúdo de primeiro plano, enquanto o novo O método SPG-IM delineia de forma mais eficaz o 'conteúdo próximo' por meio do contexto da cena.

Do novo artigo: métodos anteriores LFM e MODNet ('GT' significa Ground Truth, um resultado 'ideal' geralmente obtido manualmente ou por métodos não algorítmicos), têm abordagens diferentes e variadamente eficazes na definição do conteúdo de primeiro plano, enquanto o novo método SPG-IM delineia de forma mais eficaz o 'conteúdo próximo' por meio do contexto da cena.

Para resolver isso, os pesquisadores desenvolveram um pipeline de dois estágios intitulado Imagem Guiada por Percepção Situacional Matting (SPG-IM). A arquitetura do codificador/decodificador de dois estágios compreende a Destilação de Percepção Situacional (SPD) e o Fosco Guiado por Percepção Situacional (SPGM).

A arquitetura SPG-IM.

Primeiro, o SPD pré-treina transformações de recursos visuais para textuais, gerando legendas apropriadas para suas imagens associadas. Depois disso, a previsão da máscara de primeiro plano é habilitada conectando o pipeline a um novo previsão de saliência técnica.

Em seguida, o SPGM gera um alpha matte estimado com base na entrada da imagem RGB bruta e na máscara gerada obtida no primeiro módulo.

O objetivo é a orientação da percepção situacional, em que o sistema tem uma compreensão contextual do que é a imagem, permitindo enquadrar – por exemplo – o desafio de extrair cabelos complexos de um fundo contra características conhecidas de uma tarefa tão específica.

No exemplo abaixo, o SPG-IM entende que os cabos são intrínsecos a um 'pára-quedas', onde o MODNet falha em reter e definir esses detalhes. Da mesma forma acima, a estrutura completa do aparato do playground é arbitrariamente perdida no MODNet.

No exemplo abaixo, o SPG-IM entende que os cabos são intrínsecos a um "paraquedas", enquanto o MODNet não consegue reter e definir esses detalhes. Da mesma forma acima, a estrutura completa do aparato do playground é arbitrariamente perdida no MODNet.

O novo papel é intitulado Imagem Guiada por Percepção Situacional Matting, e vem de pesquisadores do OPPO Research Institute, PicUp.ai e Xmotors.

Mates Automatizados Inteligentes

O SPG-IM também oferece uma Rede de Refinamento de Transformação Focal Adaptativa (AFT) que pode processar detalhes locais e contexto global separadamente, facilitando 'materiais inteligentes'.

Compreender o contexto da cena, neste caso, 'menina com cavalo', pode potencialmente tornar a extração do primeiro plano mais fácil do que os métodos anteriores.

Entender o contexto da cena, neste caso 'garota com cavalo', pode tornar a extração do primeiro plano mais fácil do que os métodos anteriores.

O artigo afirma:

'Acreditamos que as representações visuais da tarefa visual para textual, por exemplo A legendagem de imagens, por sua vez, concentra-se em sinais semanticamente mais abrangentes entre a) objeto e b) objeto e o ambiente, gerando descrições que possam abranger tanto informações globais quanto detalhes locais. Além disso, em comparação com a dispendiosa anotação de pixels da matização de imagens, rótulos textuais podem ser coletados em larga escala a um custo muito baixo.

O ramo SPD da arquitetura é pré-treinado em conjunto com a Universidade de Michigan Virtex decodificador textual baseado em transformador, que aprende representações visuais de legendas semanticamente densas.

O VirTex treina conjuntamente um ConvNet e Transformers por meio de dísticos de legenda de imagem e transfere os insights obtidos para tarefas de visão downstream, como detecção de objetos. Fonte: https://arxiv.org/pdf/2006.06666.pdf

Entre outros testes e estudos de ablação, os pesquisadores testaram o SPG-IM contra o estado da arte mapa trimestralmétodos baseados em Deep Image Matting (DIM), IndexNet, Matting de imagem sensível ao contexto (CAM), Atenção Contextual Orientada (GCA) FBA, e Mapeamento Semântico de Imagens (SIM).

Outras estruturas anteriores testadas incluíram abordagens sem trimap LFM, HAttMatting e MODNet. Para uma comparação justa, os métodos de teste foram adaptados com base nas diferentes metodologias; onde o código não estava disponível, as técnicas do artigo foram reproduzidas a partir da arquitetura descrita.

O novo papel afirma:

Nosso SPG-IM supera todos os métodos concorrentes sem trimapa ([LFM], [HAttMatting] e [MODNet]) por uma ampla margem. Ao mesmo tempo, nosso modelo também demonstra notável superioridade sobre os métodos de última geração (SOTA) baseados em trimapa e guiados por máscara em termos de todas as quatro métricas nos conjuntos de dados públicos (ou seja, Composição-1K, Distinção-646 e Humano-2K) e nosso benchmark Multi-Objeto-1K.

E continua:

"Pode-se observar claramente que nosso método preserva detalhes finos (por exemplo, pontas de cabelo, texturas transparentes e limites) sem a orientação do trimap. Além disso, em comparação com outros modelos concorrentes sem trimap, nosso SPG-IM consegue reter melhor completude semântica global."

Publicado pela primeira vez em 24 de abril de 2022.

Tópicos relacionados:síntese de imagem pesquisa transformador