Inteligência artificial
Os principais modelos de IA estão se perdendo em documentos longos

Um novo estudo de pesquisadores da LMU Munich, o Munich Center for Machine Learning e a Adobe Research expôs uma fraqueza nos modelos de linguagem de IA: eles têm dificuldade em entender documentos longos de maneiras que podem surpreender. As descobertas da equipe de pesquisa mostram que mesmo os modelos de IA mais avançados têm problemas para conectar informações quando não podem confiar em combinações simples de palavras.
O problema oculto com as habilidades de leitura de IA
Imagine tentar encontrar um detalhe específico em um longo artigo de pesquisa. Você pode folhear por ele, fazendo conexões mentais entre diferentes seções para juntar as informações de que precisa. Muitos modelos de IA, por outro lado, não funcionam dessa maneira. Em vez disso, eles muitas vezes dependem fortemente da busca por combinações exatas de palavras, semelhante a usar Ctrl+F no seu computador.
A equipe de pesquisa desenvolveu um novo benchmark chamado NOLIMA (No Literal Matching) para testar vários modelos de IA. Os resultados mostraram que, quando os modelos de IA lidam com textos mais longos que 2.000 palavras, seu desempenho cai dramaticamente. Quando atingem 32.000 palavras – cerca de o comprimento de um livro curto – a maioria dos modelos executa metade de sua capacidade usual. Isso incluiu testes de principais modelos como GPT-4o, Gemini 1.5 Pro e Llama 3.3 70B.
Considere um pesquisador médico usando IA para analisar registros de pacientes, ou uma equipe jurídica usando IA para revisar documentos de casos. Se a IA perder conexões cruciais porque as informações relevantes usam palavras diferentes da consulta de pesquisa, as consequências podem ser significativas.
Por que a combinação de palavras não é suficiente
Os modelos de IA atuais processam texto usando algo chamado de mecanismo de atenção. Esse sistema ajuda a IA a se concentrar em diferentes partes do texto para entender relações entre palavras e ideias. Quando trabalhando com textos mais curtos, isso funciona bem o suficiente. No entanto, a pesquisa mostra que esse mecanismo se torna sobrecarregado à medida que os textos ficam mais longos, especialmente quando não pode confiar em combinações exatas de palavras.
O teste NOLIMA revelou essa limitação, solicitando aos modelos de IA perguntas cujas respostas exigiam compreensão do contexto em vez de encontrar combinações de palavras. Os resultados foram reveladores. Embora os modelos tenham se saído bem com textos curtos, sua capacidade de fazer essas conexões caiu significativamente à medida que o comprimento do texto aumentou. Mesmo modelos especializados projetados para tarefas de raciocínio pontuaram abaixo de 50% de precisão ao lidar com documentos mais longos.
Sem o apoio da combinação de palavras, os modelos de IA tiveram dificuldade em:
- Conectar conceitos relacionados que usam terminologias diferentes
- Seguir caminhos de raciocínio multi-etapa
- Encontrar informações relevantes quando elas aparecem após o contexto-chave
- Ignorar combinações de palavras enganosas em seções irrelevantes
Os números contam a história
As descobertas da pesquisa pintam um quadro sombrio de como os modelos de IA lidam com textos mais longos. O GPT-4o mostrou o desempenho mais forte, mantendo a eficácia até cerca de 8.000 tokens (aproximadamente 6.000 palavras). No entanto, mesmo esse modelo de ponta mostrou declínio significativo com textos mais longos. A maioria dos outros modelos, incluindo Gemini 1.5 Pro e Llama 3.3 70B, experimentou quedas acentuadas no desempenho entre 2.000 e 8.000 tokens.
A queda no desempenho se tornou ainda mais pronunciada quando as tarefas exigiam várias etapas de raciocínio. Por exemplo, se um modelo precisasse fazer duas conexões lógicas – como entender que um personagem vive perto de um ponto de referência e que esse ponto de referência está em uma cidade específica – a taxa de sucesso caiu consideravelmente. A pesquisa mostrou que esse tipo de raciocínio multi-etapa se tornou particularmente desafiador em textos além de 16.000 tokens, mesmo usando técnicas projetadas para melhorar o raciocínio, como Chain-of-Thought prompting.
O que torna essas descobertas particularmente notáveis é que elas desafiam as alegações sobre a capacidade dos modelos de IA de lidar com contextos longos. Embora muitos modelos anunciam suporte para janelas de contexto extensas, o benchmark NOLIMA mostra que a compreensão eficaz cai bem antes de atingir esses limites teóricos.

Fonte: Modarressi et al.
Quando a IA perde a floresta para as árvores
Essas limitações têm implicações graves para como usamos a IA em aplicações do mundo real. Considere um sistema jurídico de IA que procura em leis. Ele pode perder precedentes relevantes simplesmente porque eles usam terminologias diferentes da consulta de pesquisa. O sistema pode, em vez disso, se concentrar em casos menos relevantes que acontecem a compartilhar mais palavras com os termos de pesquisa.
O impacto na busca e análise de documentos é particularmente preocupante. Os sistemas de busca atuais alimentados por IA muitas vezes dependem de uma técnica chamada Retrieval-Augmented Generation (RAG). Mesmo quando esses sistemas recuperam com sucesso um documento que contém as informações certas, a IA pode falhar em reconhecer sua relevância se a redação difere da consulta. Em vez disso, a IA pode se inclinar para documentos menos relevantes que compartilham semelhanças superficiais com os termos de pesquisa.
Para os usuários de IA, essas descobertas sugerem várias considerações importantes:
Primeiro, consultas e documentos mais curtos provavelmente produzirão resultados mais confiáveis. Ao trabalhar com textos mais longos, quebrá-los em segmentos menores e focados pode ajudar a manter o desempenho da IA.
Segundo, os usuários devem ser particularmente cuidadosos ao solicitar à IA que faça conexões em diferentes partes de um documento longo. A pesquisa mostra que os modelos de IA têm mais dificuldade quando precisam juntar informações de diferentes seções, especialmente quando a conexão não é óbvia por meio de vocabulário compartilhado.
Finalmente, essas limitações destacam a importância contínua da supervisão humana. Embora as ferramentas de IA possam ser incrivelmente úteis para muitas tarefas, elas não devem ser tratadas como substitutos completos para a análise humana de documentos complexos. A capacidade humana de manter o contexto e fazer conexões conceituais em textos longos permanece superior às capacidades atuais da IA.
As descobertas servem como um lembrete de que, apesar dos avanços rápidos na tecnologia de IA, esses sistemas ainda processam informações de maneira muito diferente da humana. Entender essas limitações é crucial para usar as ferramentas de IA de forma eficaz e saber quando o julgamento humano permanece essencial.
O que vem a seguir
Entender as limitações da capacidade dos modelos de IA atuais de processar textos longos abre importantes questões sobre o futuro do desenvolvimento de IA. A pesquisa por trás do benchmark NOLIMA revelou que nossas abordagens atuais para o processamento de texto de IA podem precisar de refinamento significativo, particularmente em como os modelos lidam com informações em passagens mais longas.
As soluções atuais mostraram apenas sucesso parcial. O Chain-of-Thought prompting, que encoraja os modelos de IA a quebrar seu raciocínio em etapas, ajuda a melhorar o desempenho um pouco. Por exemplo, ao usar essa técnica, o Llama 3.3 70B mostrou uma melhor capacidade de lidar com contextos mais longos. No entanto, essa abordagem ainda deixa a desejar quando lida com textos além de 16.000 tokens, sugerindo que precisamos de soluções mais fundamentais.
O mecanismo de atenção, que forma a espinha dorsal de como os modelos de IA atuais processam texto, precisa ser repensado. Pense nisso como tentar manter uma conversa em uma sala lotada – quanto mais longa a conversa, mais difícil se torna manter o controle de todos os pontos importantes mencionados anteriormente. Nossos modelos de IA atuais enfrentam um desafio semelhante, mas em uma escala muito maior.
Olhando para o futuro, os pesquisadores estão explorando várias direções promissoras. Uma abordagem envolve desenvolver novas maneiras para a IA organizar e priorizar informações em textos longos, movendo-se além da combinação simples de palavras para entender conexões conceituais mais profundas. Isso pode funcionar mais como a forma como os humanos criam mapas mentais de informações, conectando ideias com base no significado em vez de apenas no vocabulário compartilhado.
Outra área de desenvolvimento se concentra em melhorar como os modelos de IA lidam com o que os pesquisadores chamam de “latent hops” – os passos lógicos necessários para conectar diferentes peças de informação. Os modelos atuais têm dificuldade com essas conexões, especialmente em textos mais longos, mas novas arquiteturas podem ajudar a preencher essa lacuna.
Para aqueles que trabalham com ferramentas de IA hoje, essas descobertas sugerem várias abordagens práticas:
Considere quebrar documentos mais longos em segmentos significativos ao trabalhar com IA. Isso ajuda a criar seções lógicas que preservam o contexto importante. Por exemplo, se analisar um artigo de pesquisa, você pode manter as seções de metodologia e resultados juntas, pois elas geralmente contêm informações relacionadas.
Ao solicitar à IA que analise textos mais longos, seja específico sobre as conexões que você deseja que ela faça. Em vez de fazer perguntas amplas, oriente a IA em direção às relações específicas que você está interessado em explorar. Isso ajuda a compensar as limitações atuais do modelo em fazer essas conexões de forma independente.
Talvez o mais importante, mantenha expectativas realistas sobre as capacidades da IA com textos longos. Embora essas ferramentas possam ser incrivelmente úteis para muitas tarefas, elas não devem ser tratadas como substitutos completos para a análise humana de documentos complexos. A capacidade humana de manter o contexto e fazer conexões conceituais em textos longos permanece superior às capacidades atuais da IA.
O caminho à frente para o desenvolvimento de IA nessa área é tanto desafiador quanto emocionante. À medida que melhoramos nossa compreensão dessas limitações, podemos trabalhar em direção a sistemas de IA que verdadeiramente compreendam textos longos em vez de apenas processá-los. Até lá, usar a IA de forma eficaz significa trabalhar com suas limitações atuais enquanto apreciamos suas forças.












