Inteligência artificial
Os modelos mundiais de IA podem realmente entender as leis da física?

A grande esperança para os modelos de IA de visão e linguagem é que um dia eles se tornem capazes de maior autonomia e versatilidade, incorporando princípios de leis físicas da mesma forma que desenvolvemos uma compreensão inata desses princípios por meio de experiências iniciais.
Por exemplo, os jogos de bola para crianças tendem a desenvolver uma compreensão da cinética do movimento, e do efeito do peso e da textura da superfície na trajetória. Da mesma forma, interações com cenários comuns como banhos, bebidas derramadas, o oceano, piscinas e outros corpos líquidos diversos incutirão em nós uma compreensão versátil e escalável das maneiras como o líquido se comporta sob a gravidade.
Mesmo os postulados de fenômenos menos comuns – como combustão, explosões e distribuição de peso arquitetônico sob pressão – são absorvidos inconscientemente pela exposição a programas de TV e filmes, ou vídeos de mídia social.
Quando estudamos o princípios por trás desses sistemas, em nível acadêmico, estamos apenas 'adaptando' nossos modelos mentais intuitivos (mas desinformados) deles.
Mestres de Um
Atualmente, a maioria dos modelos de IA são, por outro lado, mais "especializados" e muitos deles são ajustado ou treinados do zero em conjuntos de dados de imagem ou vídeo que são bastante específicos para certos casos de uso, em vez de projetados para desenvolver uma compreensão geral das leis vigentes.
Outros podem apresentar o aparência de uma compreensão das leis físicas; mas eles podem estar, na verdade, reproduzindo amostras de seus dados de treinamento, em vez de realmente entender os conceitos básicos de áreas como a física do movimento de uma forma que possa produzir representações verdadeiramente novas (e cientificamente plausíveis) a partir das instruções dos usuários.
Neste momento delicado na produção e comercialização de sistemas de IA generativa, cabe a nós, e ao escrutínio dos investidores, distinguir o marketing elaborado de novos modelos de IA da realidade de suas limitações.
Um dos de novembro artigos mais interessantes, liderado pela Bytedance Research, abordou esta questão, explorando a lacuna entre as capacidades aparentes e reais de modelos generativos "para todos os fins", como Sora.
O trabalho concluiu que, no estado atual da arte, a saída gerada a partir de modelos deste tipo tem maior probabilidade de ser imitando exemplos de seus dados de treinamento do que realmente demonstrar total compreensão das restrições físicas subjacentes que operam no mundo real.
O jornal afirma*:
'[Esses] modelos podem ser facilmente enviesados por exemplos “enganosos” do conjunto de treinamento, levando-os a generalizar de uma maneira “baseada em casos” sob certas condições. Esse fenômeno, também observado em grandes modelos de linguagem, descreve a tendência de um modelo de referenciar casos de treinamento semelhantes ao resolver novas tarefas.
Por exemplo, considere um modelo de vídeo treinado com dados de uma bola de alta velocidade movendo-se em movimento linear uniforme. Se o aumento de dados for realizado invertendo os vídeos horizontalmente, introduzindo assim o movimento na direção reversa, o modelo pode gerar um cenário em que uma bola de baixa velocidade inverte a direção após os quadros iniciais, mesmo que esse comportamento não seja fisicamente correto.
Analisaremos mais de perto o artigo – intitulado Avaliando modelos mundiais com LLM para tomada de decisão – em breve. Mas primeiro, vamos analisar o contexto por trás dessas aparentes limitações.
Lembrança das Coisas Passadas
Sem generalização, um modelo de IA treinado é pouco mais do que uma planilha cara de referências a seções de seus dados de treinamento: encontre o termo de pesquisa apropriado e você poderá invocar uma instância desses dados.
Nesse cenário, o modelo está efetivamente agindo como um 'mecanismo de busca neural', uma vez que não pode produzir interpretações abstratas ou 'criativas' da saída desejada, mas sim replica alguma variação menor de dados que viu durante o processo de treinamento.
Isso é conhecido como memorização – um problema controverso que surge porque modelos de IA verdadeiramente dúcteis e interpretativos tendem a carecer de detalhes, enquanto modelos verdadeiramente detalhados tendem a carecer de originalidade e flexibilidade.
A capacidade dos modelos afetados pela memorização de reproduzir dados de treinamento é um obstáculo legal potencial, nos casos em que os criadores do modelo não tinham direitos irrestritos para usar esses dados; e onde os benefícios desses dados podem ser demonstrados por meio de um número crescente de métodos de extração.
Devido à memorização, podem ser deixados vestígios de dados não autorizados. persistir, encadeado, por meio de vários sistemas de treinamento, como uma marca d'água indelével e não intencional – mesmo em projetos em que o profissional de aprendizado de máquina tomou cuidado para garantir que dados "seguros" sejam usados.
Modelos mundiais
No entanto, o problema central do uso da memorização é que ela tende a transmitir a ilusão de inteligência, ou sugerir que o modelo de IA generalizou leis ou domínios fundamentais, quando na verdade é o alto volume de dados memorizados que fornece essa ilusão (ou seja, o modelo tem tantos exemplos de dados potenciais para escolher que é difícil para um humano dizer se ele está regurgitando conteúdo aprendido ou se tem uma compreensão verdadeiramente abstrata dos conceitos envolvidos na geração).
Esta questão tem ramificações para o interesse crescente em modelos mundiais – a perspectiva de sistemas de IA altamente diversos e com treinamento dispendioso que incorporam múltiplas leis conhecidas e são ricamente exploráveis.
Os modelos mundiais são de particular interesse no espaço de imagem e vídeo generativo. Em 2023, a RunwayML iniciou uma iniciativa de pesquisa no desenvolvimento e viabilidade de tais modelos; DeepMind recentemente contratado um dos criadores do aclamado vídeo generativo Sora para trabalhar em um modelo desse tipo; e startups como Higgsfield estão investindo significativamente em modelos mundiais para síntese de imagens e vídeos.
Combinações Difíceis
Uma das promessas dos novos desenvolvimentos em sistemas de IA de vídeo generativos é a perspectiva de que eles possam aprender leis físicas fundamentais, como movimento, cinemática humana (como características da marcha), dinâmica de fluidos, e outros fenômenos físicos conhecidos que são, no mínimo, visualmente familiares aos humanos.
Se a IA generativa pudesse atingir esse marco, ela poderia se tornar capaz de produzir efeitos visuais hiper-realistas que retratam explosões, inundações e eventos de colisão plausíveis em vários tipos de objetos.
Se, por outro lado, o sistema de IA tiver sido simplesmente treinado em milhares (ou centenas de milhares) de vídeos que retratam tais eventos, ele poderá ser capaz de reproduzir os dados de treinamento de forma bastante convincente quando for treinado em um ponto de dados semelhante à consulta de destino do usuário; ainda falhar se a consulta combinar muitos conceitos que, em tal combinação, não são representados nos dados.
Além disso, essas limitações não seriam imediatamente aparentes até que o sistema fosse forçado com combinações desafiadoras desse tipo.
Isso significa que um novo sistema generativo pode ser capaz de gerar conteúdo de vídeo viral que, embora impressionante, pode criar uma falsa impressão das capacidades e da profundidade de compreensão do sistema, porque a tarefa que ele representa não é um desafio real para o sistema.
Por exemplo, um evento relativamente comum e bem difundido, como 'um edifício é demolido', pode estar presente em vários vídeos em um conjunto de dados usado para treinar um modelo que supostamente tem algum entendimento de física. Portanto, o modelo poderia presumivelmente generalizar bem esse conceito, e até mesmo produzir uma saída genuinamente nova dentro dos parâmetros aprendidos de vídeos abundantes.
Esta é uma em distribuição exemplo, onde o conjunto de dados contém muitos exemplos úteis para o sistema de IA aprender.
No entanto, se alguém quisesse pedir um exemplo mais bizarro ou especioso, como 'A Torre Eiffel foi explodida por invasores alienígenas', o modelo precisaria combinar diversos domínios, como 'propriedades metalúrgicas', 'características de explosões', 'gravidade', 'resistência ao vento' – e 'naves alienígenas'.
Esta é uma fora de distribuição Exemplo (OOD), que combina tantos conceitos emaranhados que o sistema provavelmente não conseguirá gerar um exemplo convincente ou usará como padrão o exemplo semântico mais próximo com o qual foi treinado, mesmo que esse exemplo não siga o prompt do usuário.
Exceto se o conjunto de dados de origem do modelo contivesse efeitos visuais baseados em CGI no estilo de Hollywood representando o mesmo evento ou um evento semelhante, tal representação exigiria absolutamente que ele alcançasse uma compreensão bem generalizada e dúctil das leis físicas.
Restrições físicas
O novo artigo – uma colaboração entre a Bytedance, a Universidade de Tsinghua e a Technion – sugere não só que modelos como o Sora não não realmente internalizam leis físicas determinísticas dessa maneira, mas essa ampliação dos dados (uma abordagem comum nos últimos 18 meses) parece, na maioria dos casos, não produzir nenhuma melhoria real nesse aspecto.
O artigo explora não apenas os limites da extrapolação de leis físicas específicas – como o comportamento de objetos em movimento quando colidem ou quando seu caminho é obstruído – mas também a capacidade de um modelo para generalização combinatória – casos em que as representações de dois princípios físicos diferentes são fundidas em uma única saída generativa.
Um resumo em vídeo do novo artigo. Fonte: https://x.com/bingyikang/status/1853635009611219019
As três leis físicas selecionadas para estudo pelos pesquisadores foram movimento parabólico; movimento linear uniforme; e colisão perfeitamente elástica.
Como pode ser visto no vídeo acima, as descobertas indicam que modelos como o Sora não internalizam realmente as leis físicas, mas tendem a reproduzir dados de treinamento.
Além disso, os autores descobriram que facetas como cor e forma se tornam tão emaranhadas no momento da inferência que uma bola gerada provavelmente se transformaria em um quadrado, aparentemente porque um movimento semelhante em um exemplo de conjunto de dados apresentava um quadrado e não uma bola (veja o exemplo no vídeo incorporado acima).
O artigo, que tem notavelmente engajado o setor de pesquisa em mídias sociais, conclui:
'Nosso estudo sugere que a escala por si só é insuficiente para que os modelos de geração de vídeo descubram leis físicas fundamentais, apesar de seu papel no sucesso mais amplo do Sora...
'…[As descobertas] indicam que a escalabilidade por si só não pode resolver o problema do OOD, embora melhore o desempenho em outros cenários.
'Nossa análise aprofundada sugere que a generalização do modelo de vídeo depende mais de referências a exemplos de treinamento semelhantes do que do aprendizado de regras universais. Observamos uma ordem de priorização de cor > tamanho > velocidade > forma neste comportamento "baseado em caso".
'[Nosso] estudo sugere que a escala ingênua é insuficiente para que modelos de geração de vídeo descubram leis físicas fundamentais.'
Questionado se a equipe de pesquisa havia encontrado uma solução para o problema, um dos autores do artigo comentou:
"Infelizmente, não. Na verdade, essa é provavelmente a missão de toda a comunidade de IA."
Método e dados
Os pesquisadores usaram um Autoencoder Variacional (VAE) e DiT arquiteturas para gerar amostras de vídeo. Nesta configuração, o compactado representações latentes produzido pelo VAE trabalha em conjunto com a modelagem do DiT do denoising processo.
Os vídeos foram treinados sobre o Stable Diffusion V1.5-VAE. O esquema foi deixado fundamentalmente inalterado, com apenas melhorias arquitetônicas de fim de processo:
[Nós mantemos] a maioria da convolução 2D original, normalização de grupo e mecanismos de atenção nas dimensões espaciais.
'Para inflar essa estrutura em um autocodificador espaço-temporal, convertemos os últimos blocos de redução de amostragem 2D do codificador e os primeiros blocos de aumento de amostragem 2D do decodificador em 3D, e empregamos várias camadas 1D extras para aprimorar a modelagem temporal.'
Para permitir a modelagem de vídeo, o VAE modificado foi treinado em conjunto com dados de imagem e vídeo HQ, com o componente 2D Generative Adversarial Network (GAN) nativo da arquitetura SD1.5 aumentado para 3D.
O conjunto de dados de imagens utilizado foi a fonte original da Stable Diffusion, LAION-Estética, com filtragem, além de Comp de Dados. Para dados de vídeo, um subconjunto foi selecionado a partir do Vimeo-90K, Panda-70m e ferrolhos de sobrepor podem ser usados para proteger uma porta de embutir pelo lado de fora. Alguns kits de corrente de segurança também permitem travamento externo com chave ou botão giratório. HDVG conjuntos de dados.
Os dados foram treinados para um milhão de etapas, com corte redimensionado aleatoriamente e inversão horizontal aleatória aplicada como aumento de dados processos.
Lançando fora
Conforme observado acima, o aumento de dados de inversão horizontal aleatória processo pode ser uma desvantagem no treinamento de um sistema projetado para produzir movimento autêntico. Isso ocorre porque a saída do modelo treinado pode considerar ambos direções de um objeto e causar reversões aleatórias à medida que ele tenta negociar esses dados conflitantes (veja o vídeo incorporado acima).
Por outro lado, se alguém virar horizontalmente a inversão WOW!, o modelo tem então maior probabilidade de produzir resultados que estejam de acordo com apenas uma direção aprendido com os dados de treinamento.
Portanto, não há uma solução fácil para o problema, exceto que o sistema realmente assimila a totalidade das possibilidades de movimento tanto da versão nativa quanto da invertida — uma habilidade que as crianças desenvolvem facilmente, mas que é mais desafiadora, aparentemente, para modelos de IA.
Testes
Para o primeiro conjunto de experimentos, os pesquisadores formularam um simulador 2D para produzir vídeos de movimento de objetos e colisões que estejam de acordo com as leis da mecânica clássica, o que forneceu um conjunto de dados controlado e de alto volume que excluiu as ambiguidades dos vídeos do mundo real, para a avaliação dos modelos. Caixa2D O motor de jogo de física foi usado para criar esses vídeos.
Os três cenários fundamentais listados acima foram o foco dos testes: movimento linear uniforme, colisões perfeitamente elásticas e movimento parabólico.
Conjuntos de dados de tamanho crescente (variando de 30,000 a três milhões de vídeos) foram usados para treinar modelos de diferentes tamanhos e complexidades (DiT-S a DiT-L), com os três primeiros quadros de cada vídeo usados para condicionamento.

Detalhes dos vários modelos treinados no primeiro conjunto de experimentos. Fonte: https://arxiv.org/pdf/2411.02385
Os pesquisadores descobriram que os resultados na distribuição (ID) foram bem dimensionados com quantidades crescentes de dados, enquanto as gerações OOD não melhoraram, indicando deficiências na generalização.

Resultados da primeira rodada de testes.
Os autores observam:
'Essas descobertas sugerem a incapacidade da escala para realizar raciocínio em cenários de OOD.'
Em seguida, os pesquisadores testaram e treinaram sistemas projetados para exibir proficiência em generalização combinatória, em que dois movimentos contrastantes são combinados para (com sorte) produzir um movimento coeso que seja fiel à lei física por trás de cada um dos movimentos separados.
Para esta fase dos testes, os autores utilizaram o PHYRE simulador, criando um ambiente 2D que retrata objetos múltiplos e de formatos diversos em queda livre, colidindo uns com os outros em uma variedade de interações complexas.
As métricas de avaliação para este segundo teste foram Distância do vídeo Fréchet (FVD); Índice de similaridade estrutural (SSIM); Relação sinal-ruído de pico (PSNR); Métricas de similaridade perceptual aprendidas (LPIPS); e um estudo humano (denominado como "anormal" nos resultados).
Três escalas de conjuntos de dados de treinamento foram criadas, em 100,000 vídeos, 0.6 milhões de vídeos e 3-6 milhões de vídeos. Os modelos DiT-B e DiT-XL foram usados, devido à maior complexidade dos vídeos, com o primeiro quadro usado para condicionamento.
Os modelos foram treinados para um milhão de passos com resolução de 256×256, com 32 quadros por vídeo.

Resultados da segunda rodada de testes.
O resultado deste teste sugere que apenas aumentar o volume de dados é uma abordagem inadequada:
O artigo afirma:
Esses resultados sugerem que tanto a capacidade do modelo quanto a cobertura do espaço de combinação são cruciais para a generalização combinatória. Essa percepção implica que as leis de escala para geração de vídeo devem se concentrar em aumentar a diversidade de combinações, em vez de apenas aumentar o volume de dados.
Por fim, os pesquisadores conduziram mais testes para tentar determinar se um modelo de geração de vídeo pode realmente assimilar leis físicas ou se ele simplesmente memoriza e reproduz dados de treinamento no momento da inferência.
Aqui, eles examinaram o conceito de generalização "baseada em casos", em que os modelos tendem a imitar exemplos de treinamento específicos ao confrontar situações novas, além de examinar exemplos de movimento uniforme – especificamente, como a direção do movimento nos dados de treinamento influencia as previsões do modelo treinado.
Dois conjuntos de dados de treinamento, para Movimento uniforme e ferrolhos de sobrepor podem ser usados para proteger uma porta de embutir pelo lado de fora. Alguns kits de corrente de segurança também permitem travamento externo com chave ou botão giratório. colisão, foram curados, cada um consistindo de vídeos de movimento uniforme representando velocidades entre 2.5 a 4 unidades, com os três primeiros quadros usados como condicionamento. Valores latentes como velocidade foram omitidos e, após o treinamento, os testes foram realizados em cenários vistos e não vistos.
Abaixo vemos os resultados do teste de geração de movimento uniforme:

Resultados para testes de geração de movimento uniforme, onde a variável 'velocidade' é omitida durante o treinamento.
Os autores declaram:
'[Com] uma grande lacuna no conjunto de treinamento, o modelo tende a gerar vídeos em que a velocidade é alta ou baixa para se assemelhar aos dados de treinamento quando os quadros iniciais mostram velocidades de médio alcance.'
Para os testes de colisão, muito mais variáveis estão envolvidas, e o modelo é necessário para aprender uma estrutura bidimensional função não linear.

Colisão: resultados da terceira e última rodada de testes.
Os autores observam que a presença de exemplos "enganosos", como movimento reverso (ou seja, uma bola que quica em uma superfície e inverte seu curso), pode enganar o modelo e fazer com que ele gere previsões fisicamente incorretas.
Conclusão
Se um algoritmo não-IA (ou seja, um método procedural 'assado') contiver regras matemáticas para o comportamento de fenômenos físicos, como fluidos ou objetos sob gravidade ou pressão, há um conjunto de constantes imutáveis disponíveis para renderização precisa.
Entretanto, as descobertas do novo artigo indicam que nenhuma relação equivalente ou compreensão intrínseca das leis físicas clássicas é desenvolvida durante o treinamento de modelos generativos, e que quantidades crescentes de dados não resolvem o problema, mas sim o obscurecem, porque um número maior de vídeos de treinamento está disponível para o sistema imitar no momento da inferência.
* Minha conversão das citações inline dos autores em hiperlinks.
Primeira publicação terça-feira, 26 de novembro de 2024












