Inteligência artificial

DeepMind’s Michelangelo Benchmark: Revelando os Limites dos LLMs de Longo Contexto

Published October 17, 2024

Updated April 27, 2026

Dr. Assad Abbas

DeepMind Michelangelo Benchmark LLM limits

À medida que a Inteligência Artificial (IA) continua a avançar, a capacidade de processar e entender longas sequências de informações torna-se cada vez mais vital. Os sistemas de IA são agora utilizados para tarefas complexas, como analisar longos documentos, manter conversas estendidas e processar grandes quantidades de dados. No entanto, muitos modelos atuais lutam com o raciocínio de longo contexto. À medida que as entradas se tornam mais longas, eles frequentemente perdem o rastreamento de detalhes importantes, levando a resultados menos precisos ou coerentes.

Este problema é especialmente problemático nos setores de saúde, serviços jurídicos e finanças, onde as ferramentas de IA devem lidar com documentos detalhados ou discussões longas, enquanto fornecem respostas precisas e conscientes do contexto. Um desafio comum é a deriva de contexto, onde os modelos perdem de vista das informações anteriores à medida que processam novas entradas, resultando em resultados menos relevantes.

Para abordar essas limitações, a DeepMind desenvolveu o Michelangelo Benchmark. Essa ferramenta testa rigorosamente como os modelos de IA gerenciam o raciocínio de longo contexto. Inspirado no artista Michelangelo, conhecido por revelar esculturas complexas a partir de blocos de mármore, o benchmark ajuda a descobrir como os modelos de IA podem extrair padrões significativos de grandes conjuntos de dados. Ao identificar onde os modelos atuais falham, o Michelangelo Benchmark leva a melhorias futuras na capacidade da IA de raciocinar sobre contextos longos.

Entendendo o Raciocínio de Longo Contexto em IA

O raciocínio de longo contexto é sobre a capacidade de um modelo de IA de permanecer coerente e preciso sobre longas sequências de texto, código ou conversa. Modelos como GPT-4 e PaLM-2 performam bem com entradas curtas ou de comprimento moderado. No entanto, eles precisam de ajuda com contextos mais longos. À medida que o comprimento da entrada aumenta, esses modelos frequentemente perdem o rastreamento de detalhes essenciais das partes anteriores. Isso leva a erros de compreensão, resumo ou tomada de decisões. Esse problema é conhecido como a limitação da janela de contexto. A capacidade do modelo de reter e processar informações diminui à medida que o contexto cresce.

Esse problema é significativo em aplicações do mundo real. Por exemplo, nos serviços jurídicos, os modelos de IA analisam contratos, estudos de caso ou regulamentações que podem ter centenas de páginas. Se esses modelos não conseguem efetivamente reter e raciocinar sobre tais documentos longos, eles podem perder cláusulas essenciais ou interpretar mal termos jurídicos. Isso pode levar a conselhos ou análises imprecisos. Na saúde, os sistemas de IA precisam sintetizar registros de pacientes, históricos médicos e planos de tratamento que abrangem anos ou até décadas. Se um modelo não consegue lembrar com precisão informações críticas de registros anteriores, ele pode recomendar tratamentos inadequados ou diagnosticar mal os pacientes.

Embora esforços tenham sido feitos para melhorar os limites de token dos modelos (como o GPT-4 lidando com até 32.000 tokens, cerca de 50 páginas de texto), o raciocínio de longo contexto ainda é um desafio. O problema da janela de contexto limita a quantidade de entrada que um modelo pode lidar e afeta sua capacidade de manter uma compreensão precisa ao longo de toda a sequência de entrada. Isso leva à deriva de contexto, onde o modelo gradualmente esquece detalhes anteriores à medida que novas informações são introduzidas. Isso reduz sua capacidade de gerar saídas coerentes e relevantes.

O Michelangelo Benchmark: Conceito e Abordagem

O Michelangelo Benchmark aborda os desafios do raciocínio de longo contexto testando os LLMs em tarefas que exigem que eles retenham e processem informações sobre sequências estendidas. Diferentemente de benchmarks anteriores, que se concentram em tarefas de curto contexto, como completar frases ou responder a perguntas básicas, o Michelangelo Benchmark enfatiza tarefas que desafiam os modelos a raciocinar sobre sequências de dados longas, frequentemente incluindo distrações ou informações irrelevantes.

O Michelangelo Benchmark desafia os modelos de IA usando o Latent Structure Queries (LSQ) framework. Esse método exige que os modelos encontrem padrões significativos em grandes conjuntos de dados, filtrando informações irrelevantes, semelhante à forma como os humanos vasculham dados complexos para se concentrar no que é importante. O benchmark se concentra em duas áreas principais: linguagem natural e código, introduzindo tarefas que testam mais do que apenas recuperação de dados.

Uma tarefa importante é a Tarefa de Lista Latente. Nessa tarefa, o modelo é apresentado a uma sequência de operações de lista Python, como anexar, remover ou ordenar elementos, e então precisa produzir a lista final correta. Para torná-la mais difícil, a tarefa inclui operações irrelevantes, como reverter a lista ou cancelar etapas anteriores. Isso testa a capacidade do modelo de se concentrar em operações críticas, simulando como os sistemas de IA devem lidar com grandes conjuntos de dados de relevância mista.

Outra tarefa crítica é a Resolução de Co-referência em Múltiplas Rodadas (MRCR). Essa tarefa mede como o modelo pode rastrear referências em longas conversas com tópicos sobrepostos ou pouco claros. O desafio é para o modelo ligar referências feitas no final da conversa a pontos anteriores, mesmo quando essas referências estão escondidas sob detalhes irrelevantes. Essa tarefa reflete discussões do mundo real, onde os tópicos frequentemente mudam, e a IA deve rastrear e resolver referências com precisão para manter a comunicação coerente.

Além disso, o Michelangelo apresenta a Tarefa IDK, que testa a capacidade do modelo de reconhecer quando não tem informações suficientes para responder a uma pergunta. Nessa tarefa, o modelo é apresentado a texto que pode não conter as informações relevantes para responder a uma consulta específica. O desafio é para o modelo identificar casos em que a resposta correta é “Não sei” em vez de fornecer uma resposta plausível, mas incorreta. Essa tarefa reflete um aspecto crítico da confiabilidade da IA — reconhecer a incerteza.

Por meio de tarefas como essas, o Michelangelo vai além da simples recuperação para testar a capacidade do modelo de raciocinar, sintetizar e gerenciar entradas de longo contexto. Ele introduz um benchmark sintético, escalável e não vazado para o raciocínio de longo contexto, fornecendo uma medida mais precisa do estado atual e do potencial futuro dos LLMs.

Implicações para a Pesquisa e Desenvolvimento de IA

Os resultados do Michelangelo Benchmark têm implicações significativas para o desenvolvimento de IA. O benchmark mostra que os LLMs atuais precisam de melhor arquitetura, especialmente em mecanismos de atenção e sistemas de memória. Atualmente, a maioria dos LLMs confia em mecanismos de auto-atenção. Esses são eficazes para tarefas curtas, mas lutam quando o contexto cresce. É aqui que vemos o problema da deriva de contexto, onde os modelos esquecem ou misturam detalhes anteriores. Para resolver isso, os pesquisadores estão explorando modelos com memória aumentada. Esses modelos podem armazenar informações importantes de partes anteriores de uma conversa ou documento, permitindo que a IA recupere e use essas informações quando necessário.

Outra abordagem promissora é o processamento hierárquico. Esse método permite que a IA quebre entradas longas em partes menores e gerenciáveis, ajudando-a a se concentrar nos detalhes mais relevantes a cada etapa. Dessa forma, o modelo pode lidar com tarefas complexas melhor, sem ser sobrecarregado por muita informação de uma vez.

Melhorar o raciocínio de longo contexto terá um impacto considerável. Na saúde, isso poderia significar uma melhor análise de registros de pacientes, onde a IA pode rastrear a história de um paciente ao longo do tempo e oferecer recomendações de tratamento mais precisas. Nos serviços jurídicos, esses avanços poderiam levar a sistemas de IA que podem analisar contratos longos ou leis com maior precisão, fornecendo insights mais confiáveis para advogados e profissionais jurídicos.

No entanto, com esses avanços vêm preocupações éticas críticas. À medida que a IA melhora em reter e raciocinar sobre contextos longos, há o risco de expor informações sensíveis ou privadas. Essa é uma preocupação genuína para setores como saúde e atendimento ao cliente, onde a confidencialidade é crítica.

Se os modelos de IA reterem muita informação de interações anteriores, eles podem inadvertidamente revelar detalhes pessoais em conversas futuras. Além disso, à medida que a IA se torna melhor em gerar conteúdo de longo prazo convincente, há o perigo de que ela possa ser usada para criar informações mais avançadas ou desinformação, complicando ainda mais os desafios em torno da regulação da IA.

O Resumo

O Michelangelo Benchmark descobriu insights sobre como os modelos de IA gerenciam tarefas complexas de longo contexto, destacando suas forças e limitações. Esse benchmark avança a inovação à medida que a IA se desenvolve, incentivando melhor arquitetura de modelo e sistemas de memória aprimorados. O potencial para transformar setores como saúde e serviços jurídicos é emocionante, mas vem com responsabilidades éticas.

Preocupações com privacidade, desinformação e justiça devem ser abordadas à medida que a IA se torna mais capaz de lidar com vastas quantidades de informações. O crescimento da IA deve permanecer focado em beneficiar a sociedade de forma pensada e responsável.

Dr. Assad Abbas

O Dr. Assad Abbas, um Professor Associado Titular da COMSATS University Islamabad, Paquistão, obteve seu Ph.D. na North Dakota State University, EUA. Sua pesquisa se concentra em tecnologias avançadas, incluindo computação em nuvem, névoa e borda, análise de big data e IA. O Dr. Abbas fez contribuições substanciais com publicações em jornais científicos e conferências respeitáveis. Ele também é o fundador de MyFastingBuddy.