Inteligência Geral Artificial
A próxima lei de escalabilidade da IA: não mais dados, mas melhores modelos do mundo real.

Durante anos, a indústria da inteligência artificial seguiu uma regra simples e brutal: quanto maior, melhor. Treinamos modelos em conjuntos de dados massivos, aumentamos o número de parâmetros e aplicamos imenso poder computacional ao problema. Essa fórmula funcionou na maior parte do tempo. Do GPT-3 ao GPT-4, e de chatbots rudimentares a mecanismos de raciocínio, a “lei de escala"Sugeriu-se que, se continuássemos a alimentar a máquina com mais texto, ela acabaria por se tornar inteligente."
Mas agora estamos batendo de frente com uma paredeA internet é finita. Os dados públicos de alta qualidade estão se esgotando, e os retornos de simplesmente aumentar o tamanho dos modelos são... diminuindoOs principais pesquisadores de IA argumentar A crença de que o próximo grande salto na inteligência artificial não virá apenas da leitura de mais textos, mas sim da compreensão da realidade por trás deles, sinaliza uma mudança fundamental no foco da IA, inaugurando a era do Modelo Mundial.
Os Limites da Previsão do Próximo Token
Para entender por que precisamos de uma nova abordagem, primeiro devemos analisar o que os sistemas de IA atuais realmente fazem. Apesar de suas capacidades impressionantes, modelos como ChatGPT ou Claude são fundamentalmente motores estatísticosEles preveem a próxima palavra em uma sequência com base na probabilidade do que veio antes. Eles não entendem que um copo que cai se estilhaça; eles simplesmente sabem que, em milhões de histórias, a palavra "estilhaçar" geralmente segue a frase "copo que caiu".
Esta abordagem, conhecida como modelagem autorregressivaA teoria da correlação, por exemplo, apresenta uma falha crítica. Ela se baseia inteiramente em correlação, e não em causalidade. Se você treinar um modelo de linguagem baseado em mil descrições de um acidente de carro, ele aprenderá a linguagem dos acidentes. Mas jamais aprenderá a física do momento linear, do atrito ou da fragilidade. Ele será um espectador, não um participante.
Essa limitação está se tornando a “Mural de DadosJá coletamos praticamente toda a internet pública. Para expandir ainda mais usando o método atual, precisaríamos de uma quantidade exponencialmente maior de dados do que a existente. Dados sintéticos (ou seja, texto gerado por IA) oferecem uma solução temporária, mas geralmente levam a...colapso do modeloonde o sistema amplifica seus próprios vieses e erros. Não podemos alcançar a Inteligência Artificial Geral (IAG) usando apenas texto, porque o texto é uma compressão de baixa largura de banda do mundo. Ele descreve a realidade, mas não é a realidade em si.
Por que os modelos mundiais são importantes
AI líderes Como Yann LeCun, há muito argumentam que os sistemas de IA atuais carecem de um aspecto fundamental da cognição humana que até mesmo crianças pequenas possuem naturalmente. Trata-se da nossa capacidade de manter um modelo interno de como o mundo funciona, o que eles geralmente chamam de... Modelo MundialUm Modelo de Mundo não se limita a prever a próxima palavra; ele constrói um mapa mental interno de como o ambiente físico funciona. Quando vemos uma bola rolar atrás de um sofá, sabemos que ela ainda está lá. Sabemos que ela aparecerá do outro lado, a menos que seja parada. Não precisamos ler um livro didático para entender isso; executamos uma simulação mental baseada em nosso "modelo de mundo" interno de física e permanência do objeto.
Para que a IA avance, ela precisa passar da imitação estatística para esse tipo de simulação interna. Ela precisa compreender as causas subjacentes dos eventos, e não apenas suas descrições textuais.
A Arquitetura preditiva de incorporação conjunta (JEPA) é um excelente exemplo dessa mudança de paradigma. Ao contrário dos Modelos de Aprendizagem Baseados em Lógica (LLMs), que tentam prever cada pixel ou palavra individualmente (um processo computacionalmente dispendioso e ruidoso), o JEPA prevê representações abstratas. Ele ignora detalhes imprevisíveis, como o movimento de folhas individuais em uma árvore, e se concentra em conceitos de alto nível, como a árvore, o vento e a estação do ano. Ao aprender a prever como esses estados de alto nível mudam ao longo do tempo, a IA aprende a estrutura do mundo em vez de se ater aos detalhes superficiais.
Da previsão à simulação
Já estamos vendo os primeiros indícios dessa transição nos modelos de geração de vídeo. Quando a OpenAI lançou o Sora, descreveu-o não apenas como uma ferramenta de vídeo, mas como uma “simulador mundial. "
Essa distinção é vital. Um gerador de vídeo padrão pode criar um vídeo de uma pessoa caminhando prevendo quais pixels coloridos geralmente ficam próximos uns dos outros. Um simulador de mundo, no entanto, tenta manter a consistência 3D, a iluminação e a permanência dos objetos ao longo do tempo. Ele "entende" que, se a pessoa passar por trás de uma parede, ela não deve desaparecer da existência.
Embora os modelos de vídeo atuais ainda estejam longe da perfeição, eles representam o novo campo de treinamento. O mundo físico contém muito mais informações do que o mundo textual. Um único segundo de vídeo contém milhões de pontos de dados visuais sobre física, luz e interação. Ao treinar modelos com base nessa realidade visual, podemos ensinar à IA o "senso comum" que os modelos de aprendizado de máquina atuais não possuem.
Isso cria uma nova lei de escalabilidade. O sucesso não será mais medido pela quantidade de trilhões de tokens que um modelo leu. Ele será medido pela fidelidade de sua simulação e por sua capacidade de prever estados futuros do ambiente. Uma IA capaz de simular com precisão as consequências de uma ação sem precisar executá-la é uma IA capaz de planejar, raciocinar e agir com segurança.
Eficiência e o Caminho para a Inteligência Artificial Geral (IAG)
Essa mudança também aborda a questão da insustentabilidade. custos de energia Os modelos de lógica de camada única (LLMs) atuais são ineficientes porque precisam prever cada detalhe para gerar uma saída coerente. Um Modelo Mundial é mais eficiente porque é seletivo. Assim como um motorista humano se concentra na estrada e ignora o padrão das nuvens no céu, um Modelo Mundial se concentra nos fatores causais relevantes de uma tarefa.
LeCun argumentou que essa abordagem permite que os modelos aprendam muito mais rápido. Um sistema como V-JEPA A arquitetura preditiva de incorporação conjunta de vídeo (Video-Joint Embedding Predictive Architecture) demonstrou ser capaz de convergir para uma solução com muito menos iterações de treinamento do que os métodos tradicionais. Ao aprender a "forma" dos dados em vez de memorizá-los, os Modelos Mundiais constroem uma forma de inteligência mais robusta, que generaliza melhor para novas situações nunca vistas antes.
Este é o elo perdido para a IAG (Inteligência Artificial Geral). A verdadeira inteligência requer navegação. Requer que um agente observe um objetivo, simule diferentes caminhos para alcançá-lo usando seu modelo interno do mundo e, em seguida, escolha o caminho com a maior probabilidade de sucesso. Geradores de texto não conseguem fazer isso; eles só conseguem escrever um plano, não conseguem compreender as restrições para executá-lo.
Concluindo!
A indústria de IA está em um ponto de virada. A estratégia de "simplesmente adicionar mais dados" está chegando ao seu fim lógico. Estamos passando da era dos chatbots para a era dos simuladores.
A próxima geração de escalabilidade da IA não se baseará na leitura de toda a internet. Trata-se de observar o mundo, compreender suas regras e construir uma arquitetura interna que espelhe a realidade. Isso não é apenas uma atualização técnica; é uma mudança fundamental no que consideramos "aprendizado".
Para empresas e pesquisadores, o foco precisa mudar. Precisamos parar de nos preocupar excessivamente com a quantidade de parâmetros e começar a avaliar o quão bem nossos sistemas entendem causa e efeito. A IA do futuro não apenas dirá o que aconteceu; ela mostrará o que poderia acontecer e por quê. Essa é a promessa dos Modelos Mundiais, e é o único caminho a seguir.












