Inteligência Geral Artificial

AI de geração de vídeo: explorando o modelo Sora inovador da OpenAI

Publicado

meses 2 atrás

1 de março de 2024

Sora, o inovador gerador de texto para vídeo da OpenAI

OpenAI revelou sua mais recente criação de IA – Sora, um revolucionário gerador de texto para vídeo capaz de produzir vídeos coerentes e de alta fidelidade com até 1 minuto de duração a partir de simples instruções de texto. Sora representa um grande salto em IA de vídeo generativo, com capacidades que superam em muito os modelos de última geração anteriores.

Neste post, forneceremos um mergulho técnico abrangente no Sora – como ele funciona nos bastidores, as novas técnicas que a OpenAI aproveitou para alcançar as incríveis habilidades de geração de vídeo do Sora, seus principais pontos fortes e limitações atuais, e o imenso potencial que Sora representa para o futuro da criatividade da IA.

Visão geral de Sora

Em um nível superior, Sora recebe um prompt de texto como entrada (por exemplo, “dois cachorros brincando em um campo”) e gera um vídeo de saída correspondente completo com imagens, movimentos e áudio realistas.

Alguns recursos principais do Sora incluem:

Gerando vídeos de até 60 segundos em alta resolução (1080p ou superior)
Produzindo vídeos coerentes e de alta fidelidade com objetos, texturas e movimentos consistentes
Suporta diversos estilos de vídeo, proporções e resoluções
Condicionamento em imagens e vídeos para ampliar, editar ou fazer transição entre eles
Exibindo habilidades de simulação emergentes, como consistência 3D e permanência de objetos a longo prazo

Nos bastidores, Sora combina e amplia duas inovações importantes em IA – modelos de difusão e transformadores – para alcançar capacidades de geração de vídeo sem precedentes.

Fundamentos Técnicos de Sora

Sora baseia-se em duas técnicas inovadoras de IA que demonstraram imenso sucesso nos últimos anos – modelos de difusão profunda e transformadores:

Modelos de Difusão

Os modelos de difusão são uma classe de modelos generativos profundos que podem criar modelos altamente realistas. imagens e vídeos sintéticos. Eles trabalham coletando dados reais de treinamento, adicionando ruído para corrompê-lo, e então treinar um rede neural para remover esse ruído passo a passo para recuperar os dados originais. Isso treina o modelo para gerar amostras diversas e de alta fidelidade que capturam os padrões e detalhes dos dados visuais do mundo real.

Sora utiliza um tipo de modelo de difusão chamado modelo probabilístico de difusão com eliminação de ruído (DDPM). Os DDPMs dividem o processo de geração de imagem/vídeo em várias etapas menores de remoção de ruído, facilitando o treinamento do modelo para reverter o processo de difusão e gerar amostras claras.

Especificamente, Sora usa uma variante de vídeo do DDPM chamada DVD-DDPM que é projetada para modelar vídeos diretamente no domínio do tempo, ao mesmo tempo em que alcança forte consistência temporal entre quadros. Esta é uma das chaves para a capacidade de Sora de produzir vídeos coerentes e de alta fidelidade.

transformadores

Os transformadores são um tipo revolucionário de arquitetura de rede neural que passou a dominar o processamento de linguagem natural nos últimos anos. Os transformadores processam dados em paralelo em blocos baseados em atenção, permitindo-lhes modelar dependências complexas de longo alcance em sequências.

Sora adapta transformadores para operar em dados visuais, passando patches de vídeo tokenizados em vez de tokens textuais. Isso permite que o modelo entenda as relações espaciais e temporais em toda a sequência de vídeo. A arquitetura do transformador de Sora também permite coerência de longo alcance, permanência de objetos e outras habilidades de simulação emergentes.

Ao combinar essas duas técnicas – aproveitando o DDPM para síntese de vídeo de alta fidelidade e transformadores para compreensão e coerência global – Sora expande os limites do que é possível em IA de vídeo generativo.

Limitações e desafios atuais

Embora altamente capaz, Sora ainda tem algumas limitações importantes:

Falta de compreensão física – Sora não tem uma compreensão inata robusta de física e causa e efeito. Por exemplo, objetos quebrados podem “curar” ao longo de um vídeo.
Incoerência por longos períodos – Artefatos visuais e inconsistências podem se acumular em amostras com mais de 1 minuto. Manter a coerência perfeita para vídeos muito longos continua sendo um desafio em aberto.
Defeitos esporádicos de objetos – Sora às vezes gera vídeos onde os objetos mudam de localização de forma não natural ou aparecem/desaparecem espontaneamente de quadro a quadro.
Dificuldade com avisos fora de distribuição – Prompts altamente novos, muito fora da distribuição de treinamento do Sora, podem resultar em amostras de baixa qualidade. As capacidades do Sora são mais fortes perto dos seus dados de treinamento.

Maior ampliação dos modelos, dados de treinamento, e novas técnicas serão necessárias para resolver essas limitações. IA de geração de vídeo ainda tem um longo caminho pela frente.

Desenvolvimento Responsável de IA de Geração de Vídeo

Tal como acontece com qualquer tecnologia que avança rapidamente, existem riscos potenciais a considerar juntamente com os benefícios:

Desinformação sintética – Sora torna a criação de vídeos manipulados e falsos mais fácil do que nunca. Serão necessárias salvaguardas para detectar vídeos gerados e limitar o uso indevido prejudicial.
Vieses de dados – Modelos como Sora refletem preconceitos e limitações de seus dados de treinamento, que precisam ser diversos e representativos.
Conteúdo prejudicial – Sem controles apropriados, a IA de texto para vídeo pode produzir conteúdo violento, perigoso ou antiético. São necessárias políticas de moderação de conteúdo bem pensadas.
Preocupações com a propriedade intelectual – O treinamento sobre dados protegidos por direitos autorais sem permissão levanta questões legais em torno de trabalhos derivados. O licenciamento de dados precisa ser considerado cuidadosamente.

A OpenAI precisará tomar muito cuidado ao lidar com esses problemas ao eventualmente implantar o Sora publicamente. No geral, porém, usado com responsabilidade, Sora representa uma ferramenta incrivelmente poderosa para criatividade, visualização, entretenimento e muito mais.

O futuro da IA de geração de vídeo

Sora demonstra que avanços incríveis em IA de vídeo generativo estão no horizonte. Aqui estão algumas direções interessantes que esta tecnologia pode seguir à medida que continua a progredir rapidamente:

Amostras de maior duração – Os modelos poderão em breve ser capazes de gerar horas de vídeo em vez de minutos, mantendo a coerência. Isso expande tremendamente as possíveis aplicações.
Controle total do espaço-tempo – Além de texto e imagens, os usuários podem manipular diretamente os espaços latentes de vídeo, permitindo poderosas habilidades de edição de vídeo.
Simulação controlável – Modelos como o Sora poderiam permitir a manipulação de mundos simulados por meio de instruções e interações textuais.
Vídeo personalizado – A IA pode gerar conteúdo de vídeo personalizado exclusivamente para espectadores ou contextos individuais.
Fusão multimodal – Uma maior integração de modalidades como linguagem, áudio e vídeo poderia permitir experiências de mídia mista altamente interativas.
Domínios especializados – Modelos de vídeo específicos de domínio podem se destacar em aplicações personalizadas, como imagens médicas, monitoramento industrial, mecanismos de jogos e muito mais.

Conclusão

Com o Sora, a OpenAI deu um salto explosivo em IA de vídeo generativo, demonstrando capacidades que pareciam estar a décadas de distância no ano passado. Embora ainda haja trabalho para enfrentar os desafios em aberto, os pontos fortes de Sora mostram o imenso potencial desta tecnologia para um dia imitar e expandir a imaginação visual humana em grande escala.

Outros modelos da DeepMind, Google, Meta e outros também continuarão ampliando os limites neste espaço. O futuro do vídeo gerado por IA parece incrivelmente brilhante. Podemos esperar que esta tecnologia expanda as possibilidades criativas e encontre aplicações incrivelmente úteis nos próximos anos, ao mesmo tempo que necessita de uma governação cuidadosa para mitigar os riscos.

É um momento emocionante para desenvolvedores e profissionais de IA, pois modelos de geração de vídeo como Sora desbloqueiam novos horizontes para o que é possível. Os impactos que estes avanços podem ter nos meios de comunicação, no entretenimento, na simulação, na visualização e muito mais estão apenas começando a se revelar.

Tópicos relacionados:LLM processamento de linguagem natural OpenAI Sora gerador de texto para vídeo

A seguir

Poderíamos alcançar AGI dentro de 5 anos? O CEO da NVIDIA, Jensen Huang, acredita que é possível

Não Perca

Explorando o Gemini 1.5: como o mais recente modelo de IA multimodal do Google eleva o cenário da IA além de seu antecessor

Aayush Mittal

Passei os últimos cinco anos mergulhando no fascinante mundo do Machine Learning e Deep Learning. Minha paixão e experiência me levaram a contribuir para mais de 50 projetos diversos de engenharia de software, com foco particular em AI/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.