Inteligência artificial

Os Modelos de Mundo de IA Podem Realmente Entender Leis Físicas?

Published November 26, 2024

Updated April 27, 2026

Martin Anderson

Image produced by ChatGPT-4o, depicting diverse objects exhibiting aberrant physical properties. The prompt was developed conversationally

A grande esperança para os modelos de visão-linguagem de IA é que eles um dia se tornarão capazes de uma maior autonomia e versatilidade, incorporando princípios de leis físicas de maneira semelhante à que desenvolvemos uma compreensão inata desses princípios por meio da experiência inicial.

Por exemplo, os jogos de bola das crianças tendem a desenvolver uma compreensão da cinética do movimento, e do efeito do peso e da textura da superfície na trajetória. Da mesma forma, interações com cenários comuns, como banhos, bebidas derramadas, o oceano, piscinas e outros corpos líquidos diversos, instilarão em nós uma compreensão versátil e escalável das maneiras como o líquido se comporta sob a gravidade.

Até mesmo os postulados de fenômenos menos comuns – como combustão, explosões e distribuição de peso arquitetônico sob pressão – são absorvidos inconscientemente por meio da exposição a programas de TV e filmes, ou vídeos do social media.

Quando estudamos os princípios por trás desses sistemas, em um nível acadêmico, estamos meramente ‘retrofitando’ nossos modelos mentais intuitivos (mas não informados) deles.

Mestres de Um

Atualmente, a maioria dos modelos de IA é, em contraste, mais ‘especializada’, e muitos deles são ou afinados ou treinados do zero em conjuntos de dados de imagem ou vídeo que são bastante específicos para certos casos de uso, em vez de serem projetados para desenvolver uma compreensão geral das leis que governam.

Outros podem apresentar a aparência de uma compreensão das leis físicas; mas eles podem estar reproduzindo amostras de seus dados de treinamento, em vez de realmente entender os fundamentos de áreas como a física do movimento de uma maneira que possa produzir depictions verdadeiramente novas (e cientificamente plausíveis) a partir de prompts do usuário.

Neste momento delicado na productização e comercialização de sistemas de IA gerativos, cabe a nós, e ao escrutínio dos investidores, distinguir o marketing habilidoso de novos modelos de IA da realidade de suas limitações.

Um dos artigos mais interessantes de novembro, liderado pela Bytedance Research, abordou essa questão, explorando a lacuna entre as capacidades aparentes e reais de modelos gerativos ‘de propósito geral’ como Sora.

O trabalho concluiu que, no estado atual da arte, a saída gerada por modelos desse tipo é mais provável de estar imitando exemplos de seus dados de treinamento do que realmente demonstrando uma compreensão completa das restrições físicas subjacentes que operam no mundo real.

O artigo afirma*:

‘[Esses] modelos podem ser facilmente tendenciosos por “exemplos enganosos” do conjunto de treinamento, levando-os a generalizar de uma maneira “baseada em casos” sob certas condições. Esse fenômeno, também observado em grandes modelos de linguagem, descreve a tendência de um modelo a referenciar casos de treinamento semelhantes ao resolver novas tarefas.

‘Por exemplo, considere um modelo de vídeo treinado em dados de uma bola se movendo em movimento linear uniforme. Se a ampliação de dados for realizada girando horizontalmente os vídeos, introduzindo assim o movimento em direção oposta, o modelo pode gerar um cenário em que uma bola de baixa velocidade muda de direção após os primeiros quadros, mesmo que esse comportamento não seja fisicamente correto.’

Vamos dar uma olhada mais de perto no artigo – intitulado Avaliando Modelos de Mundo com LLM para Tomada de Decisão – em breve. Mas primeiro, vamos olhar para o contexto dessas limitações aparentes.

Lembrança de Coisas Passadas

Sem generalização, um modelo de IA treinado é pouco mais do que uma planilha cara de referências a seções de seus dados de treinamento: encontre o termo de busca apropriado, e você pode invocar uma instância desses dados.

Nesse cenário, o modelo está efetivamente agindo como um ‘mechanismo de busca neural’, pois não pode produzir interpretações abstratas ou ‘criativas’ da saída desejada, mas em vez disso reproduz alguma variação menor de dados que viu durante o processo de treinamento.

Isso é conhecido como memorização – um problema controverso que surge porque modelos de IA verdadeiramente flexíveis e interpretativos tendem a falta de detalhes, enquanto modelos verdadeiramente detalhados tendem a falta de originalidade e flexibilidade.

A capacidade de modelos afetados por memorização de reproduzir dados de treinamento é um obstáculo legal potencial, nos casos em que os criadores do modelo não tinham direitos desimpedidos para usar esses dados; e onde os benefícios desses dados podem ser demonstrados por meio de um número crescente de métodos de extração.

Devido à memorização, vestígios de dados não autorizados podem persistir, encadeados, por meio de vários sistemas de treinamento, como uma marca d’água indelével e não intencional – mesmo em projetos em que o praticante de aprendizado de máquina tenha tomado cuidado para garantir que ‘dados seguros’ sejam usados.

Modelos de Mundo

No entanto, a questão central de uso com a memorização é que ela tende a transmitir a ilusão de inteligência, ou sugerir que o modelo de IA tem generalizado leis ou domínios fundamentais, quando, na verdade, é o grande volume de dados memorizados que fornece essa ilusão (ou seja, o modelo tem tantos exemplos de dados potenciais para escolher que é difícil para um humano determinar se ele está regurgitando conteúdo aprendido ou se tem uma compreensão verdadeiramente abstrata dos conceitos envolvidos na geração).

Essa questão tem ramificações para o interesse crescente em modelos de mundo – a perspectiva de sistemas de IA altamente diversificados e caros que incorporam várias leis conhecidas e são ricos em exploração.

Modelos de mundo são de particular interesse no espaço de imagem e vídeo gerativos. Em 2023, a RunwayML começou uma iniciativa de pesquisa sobre o desenvolvimento e a viabilidade de tais modelos; a DeepMind recentemente contratou um dos originadores do aclamado modelo de vídeo gerativo Sora para trabalhar em um modelo desse tipo; e startups como a Higgsfield estão investindo significativamente em modelos de mundo para síntese de imagem e vídeo.

Combinações Difíceis

Uma das promessas dos novos desenvolvimentos em sistemas de IA gerativos de vídeo é a perspectiva de que eles possam aprender leis físicas fundamentais, como movimento, cinemática humana (como características da marcha), dinâmica de fluidos, e outros fenômenos físicos conhecidos que são, pelo menos, visualmente familiares para os humanos.

Se a IA gerativa pudesse alcançar essa meta, ela poderia se tornar capaz de produzir efeitos visuais hiper-realistas que retratam explosões, inundações e colisões plausíveis em múltiplos tipos de objetos.

Se, por outro lado, o sistema de IA simplesmente foi treinado em milhares (ou centenas de milhares) de vídeos que retratam tais eventos, ele poderia ser capaz de reproduzir os dados de treinamento de forma convincente quando foi treinado em um ponto de dados semelhante à consulta do usuário; no entanto, falhar se a consulta combina muitos conceitos que, nessa combinação, não são representados em todos os dados.

Além disso, essas limitações não seriam imediatamente aparentes, até que se empurrasse o sistema com combinações desafiadoras desse tipo.

Isso significa que um novo sistema gerativo pode ser capaz de gerar conteúdo de vídeo viral que, embora impressionante, pode criar uma falsa impressão das capacidades e da profundidade de compreensão do sistema, porque a tarefa que ele representa não é um desafio real para o sistema.

Por exemplo, um evento relativamente comum e bem difundido, como ‘um prédio é demolido’, pode estar presente em vários vídeos em um conjunto de dados usado para treinar um modelo que supostamente tem algum entendimento de física. Portanto, o modelo poderia presumivelmente generalizar esse conceito bem e até produzir saídas genuinamente novas dentro dos parâmetros aprendidos a partir de vídeos abundantes.

Isso é um exemplo dentro da distribuição, onde o conjunto de dados contém muitos exemplos úteis para o sistema de IA aprender.

No entanto, se alguém solicitasse um exemplo mais bizarro ou espúrio, como ‘A Torre Eiffel é destruída por invasores alienígenas’, o modelo seria solicitado a combinar domínios diversos, como ‘propriedades metalúrgicas’, ‘características de explosões’, ‘gravidade’, ‘resistência ao vento’ – e ‘nave espacial alienígena’.

Isso é um exemplo fora da distribuição (OOD), que combina tantos conceitos entrelaçados que o sistema provavelmente falhará em gerar um exemplo convincente ou defaultará para o exemplo semântico mais próximo que foi treinado – mesmo que esse exemplo não atenda ao prompt do usuário.

Exceto que o conjunto de dados de origem do modelo contivesse efeitos visuais CGI baseados em Hollywood que retratam o mesmo ou um evento semelhante, tal representação absolutamente exigiria que ele alcance uma compreensão bem generalizada e flexível das leis físicas.

Restrições Físicas

O novo artigo – uma colaboração entre Bytedance, Tsinghua University e Technion – sugere não apenas que modelos como Sora não realmente internalizam leis físicas determinísticas dessa forma, mas que aumentar a escala dos dados (uma abordagem comum nos últimos 18 meses) parece, na maioria dos casos, não produzir nenhuma melhoria real nesse aspecto.

O artigo explora não apenas os limites da extrapolação de leis físicas específicas – como o comportamento de objetos em movimento quando colidem, ou quando seu caminho é obstruído – mas também a capacidade do modelo de generalização combinatória – instâncias em que as representações de dois princípios físicos diferentes são mescladas em uma única saída gerativa.

Um resumo de vídeo do novo artigo. Fonte: https://x.com/bingyikang/status/1853635009611219019

Os três princípios físicos selecionados para estudo pelos pesquisadores foram movimento parabólico; movimento linear uniforme; e colisão perfeitamente elástica.

Como pode ser visto no vídeo acima, os resultados indicam que modelos como Sora não internalizam realmente as leis físicas, mas tendem a reproduzir os dados de treinamento.

Além disso, os autores encontraram que aspectos como cor e forma se tornam tão entrelaçados no momento da inferência que uma bola gerada provavelmente se transformará em um quadrado, aparentemente porque um movimento semelhante em um exemplo de dados apresentava um quadrado e não uma bola (veja exemplo no vídeo incorporado acima).

O artigo, que notoriamente engajou o setor de pesquisa nas mídias sociais, conclui:

‘Nosso estudo sugere que a escala sozinha é insuficiente para que os modelos de geração de vídeo descubram leis físicas fundamentais, apesar de seu papel no sucesso mais amplo do Sora…

‘…[Achados] indicam que a escala sozinha não pode abordar o problema de fora da distribuição, embora melhore o desempenho em outros cenários.

‘Nossa análise aprofundada sugere que a generalização do modelo de vídeo depende mais de referenciar exemplos de treinamento semelhantes do que de aprender regras universais. Observamos uma ordem de prioridade de cor > tamanho > velocidade > forma nesse comportamento “baseado em casos”.

‘[Nosso] estudo sugere que a escala ingênua é insuficiente para que os modelos de geração de vídeo descubram leis físicas fundamentais.’

Perguntado se a equipe de pesquisa havia encontrado uma solução para a questão, um dos autores do artigo comentou:

‘Infelizmente, não. Na verdade, isso provavelmente é a missão de toda a comunidade de IA.’

Método e Dados

Os pesquisadores usaram um Variational Autoencoder (VAE) e DiT arquiteturas para gerar amostras de vídeo. Nesse conjunto, as representações latentes comprimidas produzidas pelo VAE funcionam em conjunto com a modelagem do processo de desruído do DiT.

Os vídeos foram treinados sobre o VAE da Stable Diffusion V1.5. O esquema foi deixado fundamentalmente inalterado, com apenas aprimoramentos arquitetônicos de final de processo:

‘[Retemos] a maioria do convolucional 2D original, normalização de grupo e mecanismos de atenção nas dimensões espaciais.

‘Para inflar essa estrutura em um auto-encoder espacial-temporal, convertemos os últimos blocos de downsampling 2D do codificador e os primeiros blocos de upsampling 2D do decodificador em 3D, e empregamos várias camadas extras 1D para melhorar a modelagem temporal.’

Para permitir a modelagem de vídeo, o VAE modificado foi treinado em conjunto com dados de imagem e vídeo de alta qualidade, com o componente GAN 2D nativo da arquitetura SD1.5 aumentado para 3D.

O conjunto de dados de imagem usado foi a fonte original da Stable Diffusion, LAION-Aesthetics, com filtragem, além de DataComp. Para dados de vídeo, um subconjunto foi curado a partir do Vimeo-90K, Panda-70m e HDVG datasets.

Os dados foram treinados por um milhão de passos, com recorte aleatório e flip horizontal aleatório aplicados como processos de aumento de dados.

Virando Para Fora

Como observado acima, o processo de aumento de dados de flip horizontal aleatório pode ser uma limitação ao treinar um sistema projetado para produzir movimento autêntico. Isso ocorre porque a saída do modelo treinado pode considerar ambas direções de um objeto e causar reversões aleatórias ao tentar negociar esses dados conflitantes (veja vídeo incorporado acima).

Por outro lado, se alguém desativa o flip horizontal desliga, o modelo é mais provável de produzir saída que adere a apenas uma direção aprendida com os dados de treinamento.

Portanto, não há solução fácil para a questão, exceto que o sistema realmente assimila a totalidade de possibilidades de movimento de ambas as versões nativa e flipada – uma facilidade que as crianças desenvolvem facilmente, mas que é mais um desafio, aparentemente, para os modelos de IA.

Testes

Para o primeiro conjunto de experimentos, os pesquisadores formularam um simulador 2D para produzir vídeos de movimento de objetos e colisões que se conformam às leis da mecânica clássica, o que forneceu um volume alto e um conjunto de dados controlado que excluiu as ambiguidades de vídeos do mundo real, para a avaliação dos modelos. O Box2D physics game engine foi usado para criar esses vídeos.

Os três cenários fundamentais listados acima foram o foco dos testes: movimento linear uniforme, colisões perfeitamente elásticas e movimento parabólico.

Conjuntos de dados de tamanhos crescentes (variando de 30.000 a três milhões de vídeos) foram usados para treinar modelos de diferentes tamanhos e complexidades (DiT-S para DiT-L), com os primeiros três quadros de cada vídeo usados para condicionamento.

Detalhes dos vários modelos treinados no primeiro conjunto de experimentos. Fonte: https://arxiv.org/pdf/2411.02385

Os pesquisadores encontraram que os resultados de dentro da distribuição (ID) escalaram bem com quantidades crescentes de dados, enquanto as gerações de fora da distribuição (OOD) não melhoraram, indicando deficiências na generalização.

Resultados do primeiro round de testes.

Os autores observam:

‘Esses achados sugerem a incapacidade de escalar para realizar raciocínio em cenários de fora da distribuição.’

Em seguida, os pesquisadores testaram e treinaram sistemas projetados para exibir proficiência em generalização combinatória, na qual dois movimentos contrastantes são combinados para (esperançosamente) produzir um movimento coeso que é fiel à lei física por trás de cada um dos movimentos separados.

Para essa fase dos testes, os autores usaram o PHYRE simulador, criando um ambiente 2D que retrata múltiplos objetos de formas diversas em queda livre, colidindo uns com os outros em uma variedade de interações complexas.

As métricas de avaliação para esse segundo teste foram Fréchet Video Distance (FVD); Structural Similarity Index (SSIM); Peak Signal-to-Noise Ratio (PSNR); Learned Perceptual Similarity Metrics (LPIPS); e um estudo humano (denotado como ‘anormal’ nos resultados).

Três escalas de conjuntos de dados de treinamento foram criadas, em 100.000 vídeos, 0,6 milhão de vídeos e 3-6 milhões de vídeos. Modelos DiT-B e DiT-XL foram usados, devido à complexidade aumentada dos vídeos, com o primeiro quadro usado para condicionamento.

Os modelos foram treinados por um milhão de passos em resolução 256×256, com 32 quadros por vídeo.

Resultados do segundo round de testes.

O resultado desse teste sugere que aumentar apenas a quantidade de dados é uma abordagem inadequada:

O artigo afirma:

‘Esses resultados sugerem que tanto a capacidade do modelo quanto a cobertura do espaço de combinação são cruciais para a generalização combinatória. Essa percepção implica que as leis de escala para a geração de vídeo devem se concentrar em aumentar a diversidade de combinação, em vez de simplesmente aumentar o volume de dados.’

Finalmente, os pesquisadores conduziram testes adicionais para tentar determinar se um modelo de geração de vídeo pode realmente assimilar leis físicas ou se ele simplesmente memoriza e reproduz dados de treinamento no momento da inferência.

Aqui, eles examinaram o conceito de ‘generalização baseada em casos’, onde os modelos tendem a imitar exemplos de treinamento específicos ao enfrentar situações novas, bem como exemplos de movimento uniforme – especificamente, como a direção do movimento nos dados de treinamento influencia as previsões do modelo treinado.

Dois conjuntos de dados de treinamento, para movimento uniforme e colisão, foram curados, cada um consistindo em vídeos de movimento uniforme que retratam velocidades entre 2,5 e 4 unidades, com os primeiros três quadros usados como condicionamento. Valores latentes, como velocidade, foram omitidos, e, após o treinamento, testes foram realizados em cenários vistos e não vistos.

Abaixo, vemos os resultados para o teste de geração de movimento uniforme:

Resultados para testes de geração de movimento uniforme, onde a variável ‘velocidade’ é omitida durante o treinamento.

Os autores afirmam:

‘[Com] uma grande lacuna no conjunto de treinamento, o modelo tende a gerar vídeos em que a velocidade é alta ou baixa para se assemelhar aos dados de treinamento quando os primeiros quadros mostram velocidades de faixa média.’

Para os testes de colisão, muitas mais variáveis estão envolvidas, e o modelo é solicitado a aprender uma função não linear bidimensional.

Colisão: resultados do terceiro e último round de testes.

Os autores observam que a presença de ‘exemplos enganosos’, como movimento reverso (ou seja, uma bola que ricocheteia em uma superfície e muda de direção), pode enganar o modelo e fazê-lo gerar previsões fisicamente incorretas.

Conclusão

Se um algoritmo não de IA (ou seja, um método ‘baked’, procedimental) contém regras matemáticas para o comportamento de fenômenos físicos, como fluidos, ou objetos sob gravidade, ou sob pressão, há um conjunto de constantes imutáveis disponíveis para renderização precisa.

No entanto, as descobertas do novo artigo indicam que nenhuma relação equivalente ou compreensão intrínseca das leis físicas clássicas é desenvolvida durante o treinamento de modelos gerativos, e que aumentar a quantidade de dados não resolve o problema, mas em vez disso o obscurece – porque um número maior de vídeos de treinamento está disponível para o sistema imitar no momento da inferência.

* Minha conversão das citações em linha dos autores para links.

Publicado pela primeira vez na terça-feira, 26 de novembro de 2024