Entre em contato

Edição consistente de conteúdo de vídeo AI com entrada guiada por texto

Inteligência artificial

Edição consistente de conteúdo de vídeo AI com entrada guiada por texto

mm

Embora a comunidade profissional de efeitos visuais esteja intrigada - e ocasionalmente se sinta um pouco ameaçada - pelas novas inovações em síntese de imagem e vídeo, a falta de continuidade temporal na maioria dos projetos de edição de vídeo baseados em IA relega muitos desses esforços à esfera "psicodélica", com cintilante e que se altera rapidamente texturas e estruturas, efeitos inconsistentes e o tipo de disputa tecnológica grosseira que lembra o era fotoquímica de efeitos visuais.

Se você quiser alterar algo muito específico em um vídeo que não se enquadre no conceito de deepfakes (por exemplo, impor uma nova identidade a uma filmagem existente de uma pessoa), a maioria das soluções atuais opera sob limitações bastante severas em termos da precisão necessária para efeitos visuais com qualidade de produção.

Uma exceção é o trabalho contínuo de uma associação informal de acadêmicos do Weizmann Institute of Science. Em 2021, três de seus pesquisadores, em associação com a Adobe, anunciou um novo método para decompor vídeo e sobrepor um mapeamento interno consistente - um atlas neural em camadas – em uma saída composta, completa com canais alfa e saída temporalmente coesa.

Do artigo de 2021: uma estimativa da travessia completa da estrada no clipe de origem é editada por meio de uma rede neural de uma maneira que tradicionalmente exigiria extensa rotoscopia e movimentação de correspondência. Como os elementos do plano de fundo e do primeiro plano são manipulados por redes diferentes, as máscaras são verdadeiramente "automáticas". Fonte: https://layered-neural-atlases.github.io/

Do artigo de 2021: uma estimativa da travessia completa da estrada no clipe de origem é editada por meio de uma rede neural, o que tradicionalmente exigiria rotoscopia e movimentação de correspondência extensivas. Como os elementos de fundo e primeiro plano são manipulados por redes diferentes, as máscaras são verdadeiramente "automáticas". Fonte: https://layered-neural-atlases.github.io/

Embora caia em algum lugar no reino coberto por Fluxo optico Em pipelines de efeitos visuais, o atlas em camadas não tem equivalente direto nos fluxos de trabalho tradicionais de CGI, visto que constitui essencialmente um "mapa de textura temporal" que pode ser produzido e editado por meio de métodos de software tradicionais. Na segunda imagem da ilustração acima, o fundo da superfície da estrada é representado (figurativamente) ao longo de todo o tempo de execução do vídeo. Alterar essa imagem base (terceira imagem da esquerda para a direita na ilustração acima) produz uma mudança consistente no fundo.

As imagens do atlas 'desdobrado' acima representam apenas quadros individuais interpretados; mudanças consistentes em qualquer quadro de vídeo de destino são mapeadas de volta ao quadro original, retendo quaisquer oclusões necessárias e outros efeitos de cena necessários, como sombras ou reflexos.

A arquitetura principal usa um Multilayer Perceptron (MLP) para representar os atlas desdobrados, canais alfa e mapeamentos, todos otimizados em conjunto e inteiramente em um espaço 2D, eliminando o conhecimento prévio do estilo NeRF de pontos de geometria 3D, mapas de profundidade, e armadilhas de estilo CGI semelhantes.

O atlas de referência de objetos individuais também pode ser alterado de forma confiável:

Mudança consistente para um objeto em movimento sob a estrutura de 2021. Fonte: https://www.youtube.com/watch?v=aQhakPFC4oQ

Mudança consistente para um objeto em movimento sob a estrutura de 2021. Fonte: https://www.youtube.com/watch?v=aQhakPFC4oQ

Essencialmente, o sistema 2021 combina alinhamento de geometria, correspondência de movimento, mapeamento, retexturização e rotoscopia em um processo neural discreto.

Text2Live

Os três pesquisadores originais do artigo de 2021, juntamente com a pesquisa da NVIDIA, estão entre os colaboradores de uma nova inovação na técnica que combina o poder dos atlas em camadas com o tipo de tecnologia CLIP guiada por texto que voltou à tona esta semana com o OpenAI liberar da estrutura DALL-E 2.

A nova arquitetura, intitulada Text2Live, permite que um usuário final crie edições localizadas para conteúdo de vídeo real com base em prompts de texto:

Dois exemplos de edição em primeiro plano. Para melhor resolução e definição, confira os vídeos originais em https://text2live.github.io/sm/pages/video_results_atlases.html

Dois exemplos de edição em primeiro plano. Para melhor resolução e definição, confira os vídeos originais em https://text2live.github.io/sm/pages/video_results_atlases.html

O Text2Live oferece edição semântica e altamente localizada sem o uso de um gerador pré-treinado, fazendo uso de um banco de dados interno específico para o videoclipe afetado.

Transformações de plano de fundo e primeiro plano (objeto) em Text2Live. Fonte: https://text2live.github.io/sm/pages/video_results_atlases.html

Transformações de plano de fundo e primeiro plano (objeto) em Text2Live. Fonte: https://text2live.github.io/sm/pages/video_results_atlases.html

A técnica não requer máscaras fornecidas pelo usuário, como rotoscopia típica ou fluxo de trabalho de tela verde, mas sim estimativas mapas de relevância através de uma técnica de bootstrap baseada em Pesquisa 2021 da Escola de Ciência da Computação da Universidade de Tel Aviv e Facebook AI Research (FAIR).

Mapas de saída gerados por meio de um modelo de atenção genérico baseado em transformador.

Mapas de saída gerados por meio de um modelo de atenção genérico baseado em transformador.

O novo papel é intitulado Text2LIVE: Edição de imagem e vídeo em camadas com base em texto. A equipe original de 2021 é acompanhada por Omer Bar-Tal, da Weizmann, e Yoni Kasten, da NVIDIA Research.

Plataforma

Text2Live compreende um gerador treinado em uma única imagem de entrada e prompts de texto de destino. Um modelo de Pré-treinamento de Linguagem-Imagem Contrastiva (CLIP) pré-treinado em 400 milhões de pares de texto/imagem fornece material visual associado a partir do qual as transformações de entrada do usuário podem ser interpretadas.

O gerador aceita uma imagem de entrada (quadro) e gera uma camada de destino RGBA contendo informações de cor e opacidade. Essa camada é então composta na filmagem original com aumentos adicionais.

O canal alfa na camada RGBA gerada fornece uma função de composição interna sem recorrer a pipelines tradicionais envolvendo software baseado em pixel, como o After Effects.

O canal alfa na camada RGBA gerada fornece uma função de composição interna sem recorrer a pipelines tradicionais envolvendo software baseado em pixel, como o After Effects.

Ao treinar em imagens internas relevantes para o vídeo ou imagem de destino, o Text2Live evita a necessidade de invertido a imagem de entrada no espaço latente de uma Generative Adversarial Network (GAN), uma prática que é atualmente longe de ser exato o suficiente para requisitos de edição de vídeo de produção, ou então use um modelo de difusão que seja mais preciso e configurável, mas não pode manter a fidelidade para o vídeo de destino.

Diversas edições de transformação baseadas em prompt do Text2Live.

Diversas edições de transformação baseadas em prompt do Text2Live.

Abordagens anteriores usaram métodos baseados em propagação or baseado em fluxo óptico abordagens. Uma vez que essas técnicas são, de alguma forma ou de outra forma, baseadas em quadros, nenhuma delas é capaz de criar uma aparência temporal consistente de alterações no vídeo de saída. Um atlas de camadas neurais, em vez disso, fornece um único espaço para abordar as alterações, que podem permanecer fiéis à alteração confirmada à medida que o vídeo avança.

Sem alucinações aleatórias ou 'escaldantes': Text2Live obtém uma interpretação do prompt de texto 'jeep enferrujado' e a aplica uma vez ao atlas neural em camadas do carro no vídeo, em vez de reiniciar a transformação para cada quadro interpretado.

Sem alucinações aleatórias ou "chiadas": o Text2Live obtém uma interpretação do prompt de texto "jipe enferrujado" e a aplica uma vez ao atlas de camadas neurais do carro no vídeo, em vez de reiniciar a transformação para cada quadro interpretado.

Fluxo de trabalho da transformação consistente do Text2Live de um Jeep em uma relíquia enferrujada.

Fluxo de trabalho da transformação consistente do Text2Live de um Jeep em uma relíquia enferrujada.

Text2Live está mais perto de um avanço na composição baseada em IA, em vez do espaço fértil de texto para imagem que atraiu tanta atenção esta semana com o lançamento do segunda geração da estrutura DALL-E da OpenAI (que pode incorporar imagens alvo como parte do processo de transformação, mas permanece limitada em sua capacidade de intervir diretamente em uma foto, além de censura de dados de treinamento de origem e imposição de filtros, projetado para evitar o abuso do usuário).

Em vez disso, o Text2Live permite que o usuário final extraia um atlas e o edite de uma só vez em ambientes baseados em pixels de alto controle, como o Photoshop (e, sem dúvida, estruturas de síntese de imagens ainda mais abstratas, como NeRF), antes de alimentá-lo de volta em um ambiente orientado corretamente que, no entanto, não depende de estimativa 3D ou abordagens baseadas em CGI retrospectivas.

Além disso, o Text2Live, afirmam os autores, é a primeira estrutura comparável a obter mascaramento e composição de maneira totalmente automática.

 

Publicado pela primeira vez em 7 de abril de 2022.

Escritor sobre machine learning, especialista em domínio em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa na Metaphysic.ai.
Site pessoal: martinanderson.ai
Contato: [email protected]
Twitter: @manders_ai