Entre em contato

Quando pensar mais torna a IA mais burra: o paradoxo da escala inversa

Inteligência artificial

Quando pensar mais torna a IA mais burra: o paradoxo da escala inversa

mm

A inteligência artificial foi construída com base na ideia de que dar às máquinas mais tempo, dados e poder de computação melhora seu desempenho. Essa crença tem guiado a direção da pesquisa e do desenvolvimento em IA por muitos anos. A principal premissa subjacente a essa crença é que modelos maiores e mais recursos criariam sistemas mais inteligentes. No entanto, recentes pesquisa começou a questionar essa abordagem. Grandes modelos de linguagem, como Série o1 da OpenAI, Claude do Antrópico e R1 do DeepSeek, foram construídos para resolver problemas passo a passo, assim como o raciocínio humano. Os pesquisadores esperavam que dar a esses modelos mais tempo para pensar e processar informações melhoraria sua tomada de decisão. No entanto, novos estudos mostram que o oposto pode acontecer. Quando esses modelos têm mais tempo para pensar, às vezes apresentam desempenho pior, especialmente em tarefas simples. Esse efeito é chamado de escalonamento inverso. Ele desafia a crença de que mais poder computacional e raciocínio mais profundo sempre levam a melhores resultados. Essas descobertas têm consequências significativas para a forma como projetamos e usamos a IA em situações do mundo real.

Compreendendo o fenômeno da escala inversa

O "escala inversaO fenômeno foi descoberto inicialmente por meio de experimentos controlados por pesquisadores da Anthropic. Ao contrário das leis tradicionais de escalonamento, que afirmam que mais computação melhora o desempenho, esses estudos descobriram que dar mais tempo para a IA raciocinar pode reduzir sua precisão em diferentes tarefas.

A equipe de pesquisa criou tarefas em quatro Áreas: contagem simples com distrações, regressão com recursos irrelevantes, dedução com rastreamento de restrições e cenários complexos de segurança de IA. Os resultados foram surpreendentes. Em alguns casos, modelos que inicialmente deram respostas corretas começaram a dar respostas erradas após mais tempo para processamento.

Por exemplo, em uma tarefa simples de contagem como "Quantas frutas você tem se tiver uma maçã e uma laranja?", os modelos Claude frequentemente se distraíam com detalhes extras quando tinham mais tempo para raciocinar. Eles não conseguiam dar a resposta correta, que é dois. Nesses casos, os modelos estavam pensando demais e acabavam cometendo erros.

Recente da Apple pesquisa também corroboraram essas descobertas. Eles realizaram seus experimentos em ambientes controlados de quebra-cabeça, como a Torre de Hanói e a Travessia do Rio, em vez de em benchmarks padrão. Seus estudos mostraram três padrões: em tarefas simples, os modelos de IA padrão tiveram melhor desempenho do que os modelos de raciocínio; em tarefas médias, os modelos de raciocínio tiveram vantagem; e em tarefas muito complexas, ambos os tipos de modelos falharam.

As cinco maneiras pelas quais o raciocínio da IA falha

Pesquisadores descobriram cinco maneiras comuns pelas quais os modelos de IA podem falhar quando raciocinam por períodos mais longos:

  1. Distração pela Irrelevância: Quando os modelos de IA pensam por muito tempo, muitas vezes se distraem com detalhes irrelevantes. É como um aluno que não consegue entender o ponto principal de um problema enquanto pensa profundamente nele.
  2. Sobreajuste para quadros problemáticos: Alguns modelos, como a série O da OpenAI, focam demais na apresentação do problema. Embora evitem distrações, não são flexíveis e dependem da formulação do problema.
  3. Mudança de correlação espúria: Com o tempo, os modelos de IA podem deixar de fazer suposições razoáveis e passar a depender de correlações enganosas. Por exemplo, em tarefas de regressão, os modelos consideram primeiro as características relevantes, mas, quando recebem mais tempo para pensar, podem começar a se concentrar em características irrelevantes e gerar resultados incorretos.
  4. Degradação do Foco:À medida que as tarefas se tornam mais complexas, os modelos de IA têm mais dificuldade em manter seu raciocínio claro e focado.
  5. Amplificado em relação aos comportamentos: Mais tempo para raciocinar pode piorar comportamentos negativos. Por exemplo, o Soneto 4 de Claude demonstrou tendências mais fortes de autopreservação quando se tem mais tempo para pensar em cenários de desligamento.

Como o raciocínio da IA aborda a complexidade dos problemas

Pesquisadores da Apple introduziram o termo “ilusão de pensar” para explicar o que acontece quando modelos de raciocínio enfrentam tarefas com diferentes níveis de complexidade. Em vez de se concentrarem em problemas matemáticos ou testes de codificação, eles testaram modelos de raciocínio de IA em ambientes controlados de quebra-cabeças como Tower of Hanoi, Checker Jumping, River Crossing e Blocks World. Ao aumentar gradualmente a dificuldade desses quebra-cabeças, eles puderam ver o desempenho dos modelos em cada nível. Esse método os ajudou a examinar não apenas as respostas finais, mas também como os modelos chegaram a essas respostas. O estudo encontrou três padrões claros no desempenho dos modelos com base na complexidade do problema:

  • Para quebra-cabeças simples como a Torre de Hanói, com um ou dois discos, os modelos padrão de grande linguagem (LLMs) forneciam respostas corretas com mais eficiência. Os modelos de raciocínio de IA frequentemente complicavam demais as coisas devido às suas longas cadeias de raciocínio, o que frequentemente resultava em respostas incorretas.
  • Em quebra-cabeças moderadamente complexos, o raciocínio da IA tem melhor desempenho. Eles conseguiram dividir os problemas em etapas claras, o que os ajudou a resolver desafios com várias etapas de forma mais eficaz do que os LLMs tradicionais.
  • Em quebra-cabeças muito complexos, como a Torre de Hanói com muitos discos, ambos os tipos de modelos tiveram dificuldades. Os modelos de raciocínio frequentemente reduziam seu esforço de raciocínio à medida que o quebra-cabeça se tornava mais difícil, mesmo tendo recursos computacionais suficientes. Esse comportamento de "desistir" demonstra uma fraqueza fundamental na escalabilidade do raciocínio.

O Desafio da Avaliação de IA

O fenômeno da escala inversa demonstra problemas significativos na forma como avaliamos modelos de IA. Muitos benchmarks atuais medem apenas a precisão das respostas finais, não a qualidade do processo de raciocínio. Isso pode levar a uma falsa noção das reais capacidades de um modelo. Um modelo pode ter um bom desempenho em testes, mas ainda assim falhar com problemas novos ou incomuns.

A escala inversa também aponta fragilidades nos benchmarks de raciocínio e na forma como os utilizamos. Muitos modelos utilizam atalhos e reconhecimento de padrões em vez de raciocínio verdadeiro. Isso pode fazer com que pareçam mais inteligentes do que realmente são, mas seu desempenho frequentemente cai em situações do mundo real. Esse problema está relacionado a problemas maiores com a IA, como alucinações e confiabilidade. À medida que os modelos se aprimoram na produção de explicações que soam convincentes, torna-se mais difícil diferenciar o raciocínio real de respostas inventadas.

O futuro do raciocínio de IA

O paradoxo da escala inversa representa um desafio e uma oportunidade para a IA. Ele demonstra que adicionar mais poder computacional nem sempre torna a IA mais inteligente. Precisamos repensar como projetamos e treinamos sistemas de IA que possam lidar com problemas com complexidades variadas. Novos modelos podem precisar decidir quando parar e pensar e quando responder rapidamente. Nesse sentido, a IA poderia se beneficiar de arquiteturas cognitivas como teoria do processo dual como princípios orientadores. Essas arquiteturas explicam como o pensamento humano combina reações rápidas e instintivas com raciocínios lentos e cuidadosos. A escala inversa também nos lembra que precisamos entender completamente como a IA toma decisões antes de usá-la em áreas críticas. À medida que a IA é cada vez mais utilizada para a tomada de decisões em áreas como saúde, direito e negócios, torna-se ainda mais crucial garantir que esses sistemas raciocinem corretamente.

Concluindo!

O paradoxo da escala inversa nos ensina uma lição essencial no desenvolvimento da IA. Mais tempo e poder computacional nem sempre tornam a IA mais competente ou confiável. O verdadeiro progresso vem da compreensão de quando a IA deve raciocinar e do conhecimento de seus limites. Para organizações e pesquisadores, é essencial usar a IA como uma ferramenta, não como um substituto para o julgamento humano. É necessário escolher o modelo certo para cada tarefa. À medida que a IA se torna parte de decisões importantes, devemos avaliar cuidadosamente seus pontos fortes e fracos. O futuro da IA depende de pensar corretamente, não apenas de pensar mais.

mm

Tehseen Zia é professor associado titular na COMSATS University Islamabad, com doutorado em IA pela Universidade de Tecnologia de Viena, Áustria. Especializado em Inteligência Artificial, Aprendizado de Máquina, Ciência de Dados e Visão Computacional, ele fez contribuições significativas com publicações em revistas científicas de renome. Tehseen também liderou vários projetos industriais como investigador principal e atuou como consultor de IA.