Líderes de pensamento

O Fracasso dos LLMs em Matemática e Como Resolver Isso

Published December 5, 2024

Updated April 27, 2026

Peter Relan, Chairman of MathGPT.ai

A matemática sempre representou um desafio significativo para os modelos de IA. Dominar a matemática exige habilidades de raciocínio complexas, e para a IA, essa tarefa é qualquer coisa menos direta. Isso cria um enorme problema, considerando a importância da proficiência matemática para o sucesso profissional, pessoal e acadêmico.

Apesar de suas habilidades notáveis, os grandes modelos de linguagem (LLMs) frequentemente lutam com tarefas matemáticas complexas, como geometria, que exigem habilidades de raciocínio avançadas. Isso nos leva à questão crítica: quanto da capacidade matemática de um modelo de IA vem de um raciocínio genuíno versus a mera lembrança dos dados de treinamento?

Descobertas recentes da Apple mostram que, mesmo quando se concentram em problemas de matemática do ensino fundamental, os modelos mais sofisticados não são completamente impulsionados por “raciocínio”.

Levando isso um passo adiante, a equipe de P&D da MathGPT.ai lançou nova luz sobre áreas de álgebra a cálculo de nível de matemática que requerem a maior melhoria.

Esses dados exploraram como variações no contexto do problema e na linguagem afetam o desempenho do modelo em diferentes LLMs, incluindo os modelos o1-preview e o1-mini mais recentes da OpenAI. As descobertas revelaram uma tendência preocupante: a precisão declinou consistentemente à medida que os problemas se desviavam das perguntas originais disponíveis nos dados de treinamento dos LLMs, com o desempenho caindo acentuadamente em benchmarks matemáticos mais desafiadores acima do nível de matemática do ensino fundamental.

O Dilema entre Lembrança e Raciocínio

A investigação se concentrou em três fatores-chave:

Usar benchmarks matemáticos mais desafiadores do que a matemática do ensino fundamental
Explorar um “prompt de 1-tiro” com extrema proximidade com o problema de teste
Implementar uma estratégia de “melhor de n” para n tentativas no mesmo problema – efetivamente um voto majoritário para eliminar anomalias estatísticas, no momento da inferência.

Os resultados foram intrigantes e preocupantes. As fronteiras da variação do problema foram empurradas, o que mostrou uma declínio consistente no desempenho do modelo de IA à medida que as equações matemáticas se tornavam mais complexas.

O Desafio do Conjunto de Dados MATH

O conjunto de dados MATH foi implantado, conhecido por seus problemas desafiadores de nível de ensino médio, em oposição ao conjunto de dados Grade School Math 8K, que contém 8.500 problemas de nível elementar linguisticamente diversificados. O conjunto de dados MATH apresenta problemas de nível de ensino médio mais desafiadores para examinar o desempenho do modelo em diferentes níveis de dificuldade, desde pré-álgebra até teoria dos números. Essa escolha permitiu que a MathGPT.ai examinasse melhor o desempenho do modelo em diferentes níveis de dificuldade.

No teste, enquanto os valores numéricos e as respostas finais permaneciam inalterados, variamos a linguagem, as variáveis e o contexto dos problemas. Por exemplo, um cenário de “caminhada de cachorro” pode ser transformado em um problema de “lava-louças”. Esse método ajudou a mitigar o aumento da complexidade do conjunto de dados MATH, enquanto ainda desafiava as habilidades de raciocínio dos modelos.

Resultados Reveladores

Os resultados foram impressionantes. Mesmo os modelos mais avançados lutaram quando enfrentaram variações de problemas que provavelmente haviam encontrado em seus dados de treinamento. Por exemplo, a precisão do modelo o1-mini caiu de 93,66% em perguntas originais para 88,54% na variação mais desafiadora. O modelo o1-preview experimentou uma declínio semelhante, caindo de 91,22% para 82,93% – uma queda acentuada o suficiente para destacar lacunas críticas em sua robustez.

Essas descobertas alinham-se e construíram sobre a pesquisa anterior da Apple, demonstrando que as limitações do raciocínio matemático da IA se tornam mais aparentes à medida que os problemas crescem mais complexos e exigem uma compreensão mais profunda em vez de reconhecimento de padrões.

O Caminho para o Futuro

À medida que continuamos a empurrar os limites do raciocínio dos LLMs, é crucial reconhecer tanto seu potencial incrível quanto suas limitações atuais. Nova pesquisa destaca a necessidade de inovação contínua no desenvolvimento de modelos de IA capazes de ir além do reconhecimento de padrões para alcançar habilidades de resolução de problemas mais robustas e generalizáveis.

Isso ocorre em um momento crítico, especialmente no ensino superior, onde a IA está sendo usada cada vez mais como uma ajuda do instrutor na sala de aula, enquanto as escolas continuam a ver altas taxas de falha entre os alunos de matemática que não estão preparados para os cursos.

Alcançar capacidades cognitivas humanas ou inteligência geral na IA exige não apenas avanços tecnológicos, mas também uma compreensão sutil de como pontuar a lacuna entre a lembrança e o raciocínio verdadeiro.

Se formos bem-sucedidos nesse caminho, estou confiante de que podemos mudar a vida de milhões de alunos e até profissionais para colocar suas vidas em uma trajetória completamente nova.

Unite.AI

O Fracasso dos LLMs em Matemática e Como Resolver Isso

O Dilema entre Lembrança e Raciocínio

O Desafio do Conjunto de Dados MATH

Resultados Reveladores

O Caminho para o Futuro

You may like