Ângulo de Anderson
A Inteligência Artificial Está Dividindo a Busca na Web em Três Realidades Diferentes

Pesquisa recente descobriu que o Google agora usa três sistemas de informação diferentes dentro de seu próprio império de busca, com a Busca regular, as Visões Gerais de IA e o Gemini, todos favorecendo fontes, classificações e conteúdos diferentes.
O reducionismo reina. Nos últimos doze meses, o ‘Deixe-me procurar no Google para você’ meme foi superado por uma nova ‘Deixe-me resumir a busca do Google para você’ tendência, na qual visões gerais de IA nos resultados de busca cada vez mais poupam os leitores do incômodo de clicar em links de busca (arguivelmente desfinanciando os sites de origem no processo), condensando resultados de busca inteiros em alguns parágrafos gerados.
Alguém poderia pensar que o conhecimento fundamental superfície e a escolha de sites de onde extrair esse conhecimento seriam relativamente semelhantes em todos os três métodos mais populares de procurar informações na internet: na busca tradicional web; nas visões gerais de IA (AIOs) que agora encabeçam a maioria dos resultados de busca; e por meio do uso crescente de LLMs como ChatGPT como oráculos da web (com ou sem chamadas RAG externas).
No entanto, uma pesquisa recente nos EUA indica que isso está longe de ser o caso; e que, mesmo dentro da própria trindade de oráculos do Google – SERPS*, resumos de IA e interação direta com a série LLM Gemini –, parece haver discrepâncias significativas e interessantes, para cada rota.
Divisão em Três
Em um novo artigo claro e extenso, intitulado Como a IA Geradora Disrupta a Busca: Um Estudo Empírico da Busca do Google, Gemini e Visões Gerais de IA, seis pesquisadores do New Jersey Institute of Technology descrevem as maneiras pelas quais os três métodos de busca estão se divergindo e oferecem algumas teorias possíveis para essas fraturas na abordagem.
O artigo afirma:
‘[Primeiro, descobrimos] que para 51,5% de consultas representativas de usuários reais, as visões gerais de IA são geradas e exibidas acima dos resultados de busca orgânicos. Questões controversas frequentemente resultam em uma visão geral de IA.
‘Em segundo lugar, mostramos que as fontes recuperadas são substancialmente diferentes para cada mecanismo de busca (<0,2 de similaridade média de Jaccard). A busca tradicional do Google é significativamente mais provável de recuperar informações de sites populares ou institucionais em governo ou educação, enquanto os mecanismos de busca geradora são significativamente mais prováveis de recuperar conteúdo de propriedade do Google.
‘Terceiro, observamos que os sites que bloqueiam o rastreador de IA do Google são significativamente menos prováveis de serem recuperados por visões gerais de IA, apesar de terem acesso ao conteúdo.’
Já que o artigo é um espetáculo de insights fascinantes, em vez de se conformar ao fluxo de trabalho linear e dirigido, vamos dar uma olhada mais de perto nesses e outros insights surpreendentes e iluminadores.
O Velho ‘Dois-Um’
Uma das descobertas interessantes no estudo indica que as visões gerais de IA do Google tendem a ser suprimidas para eventos de notícias de última hora, desde que as fontes mais antigas e mais disponíveis podem não ser as mais precisas.
Esse sistema não funciona sempre: no exemplo abaixo, observado pelos pesquisadores, uma visão geral de IA do Google sobre o resultado de uma luta de boxe atribuiu a vitória ao boxeador errado, mesmo que a única fonte que afirmasse esse resultado (incorreto) fosse uma feed de esportes satírica no Facebook:

Uma das razões pelas quais as visões gerais de IA do Google evitam resumos de tempo crítico é que as informações iniciais podem ser incompletas ou completamente imprecisas. Nesse caso, o boxeador Jake Paul realmente perdeu a luta. Fonte
Os autores observam que as visões gerais de IA tendem a aparecer quando um evento tem pelo menos cinco dias de idade, o que qualifica isso como uma anomalia – mas, no entanto, uma que os pesquisadores conseguiram facilmente.
As visões gerais de IA foram encontradas para serem mais prováveis de serem geradas quando a consulta era fechada com um ponto de interrogação, e que a intenção da consulta era um fator na apresentação de uma visão geral de IA:

Porcentagem de incidentes em que um resumo de busca de IA foi produzido em uma rodada de testes dos pesquisadores. Aqui ‘informativo’ indica perguntas diretas, que tendem a produzir visões gerais de IA mais do que qualquer outro tipo de interação.
Além disso, o artigo afirma que consultas mais longas tendem a ser mais prováveis de produzir um resumo de IA em vez de apenas resultados de busca diretos, embora os autores não forneçam ainda uma teoria para explicar isso.
Um Reino Dividido
Talvez o resultado mais surpreendente do novo trabalho seja a pequena sobreposição nos resultados de qualidade/tipo entre os três plataformas de busca do Google.
O artigo mostra repetidamente que a Busca regular do Google, as visões gerais de IA e o Gemini (LLM) recuperam fontes strikingly diferentes para a mesma consulta, com pontuações de sobreposição baixas o suficiente para implicar três lógicas de recuperação concorrentes dentro de uma empresa, enquanto os usuários poderiam supor que o Google tem um índice autoritativo e uma filosofia de classificação:

Mesmo dentro do ecossistema do Google, a sobreposição entre a Busca tradicional, as Visões Gerais de IA e o Gemini provou ser surpreendentemente pequena, com a mesma consulta frequentemente produzindo listas de fontes substancialmente diferentes dependendo de qual sistema do Google lidou com a solicitação. Nesta comparação, vemos como os três sistemas se aproximam entre si em milhares de consultas de busca, desde tópicos de compras e debates até buscas locais e perguntas de conhecimento geral, com pontuações mais baixas indicando menos concordância entre as fontes selecionadas.
Quanto a essa seção de sua análise, os autores afirmam†:
‘[A tabela acima] apresenta a similaridade média entre a lista de fontes retornadas pela AIO, Gemini e Busca tradicional para cada consulta no conjunto de dados de referência.
‘A principal conclusão é que independentemente do subconjunto de consulta e de qual par de mecanismos de busca é comparado, as listas recuperadas são dissimilares, apesar de todos os três terem sido desenvolvidos pelo Google.’
Os pesquisadores afirmam ainda que nenhum método de busca testado provou ter uma sobreposição de classificação (RBO) acima de 0,27, o que é uma pontuação muito baixa. Eles observam ainda que Amazon Retail e consultas localizadas (i.e., ‘lojas perto de mim’) tiveram a menor similaridade entre os métodos de busca.
Eles atribuem a baixa concordância à ‘inconsistência fundamental entre os mecanismos de busca’, observando que nem a aleatoriedade nem qualquer outro fator óbvio pode ser feito para explicar essa des-sincronização.
Uma explicação intuitiva, arguivelmente, é que os pontos de dados de treinamento são atribuídos classificação de uma maneira muito diferente dos métodos que o Google desenvolveu para PageRank e seus sucessores nos últimos vinte anos. Além disso, se o algoritmo de busca do Google tiver uma agenda secreta, esse tipo de interferência ou ‘jogo’ é muito mais difícil de implementar consistentemente em AIs baseadas em difusão como o Gemini (mesmo por meio de filtragem, prompts de sistema e os vários outros métodos de contenção que são impostos em modelos comerciais).
Autoatendimento..?
Certos sites, ou categorias de sites, parecem ter sido afetados pelo advento de resumos de IA e a invasão de busca baseada em LLM no espaço de busca tradicional – tanto adversamente quanto positivamente, dependendo do caso:

Em comparação com a Busca tradicional do Google, as Visões Gerais de IA e o Gemini reduziram as citações de muitos sites importantes, enquanto aumentaram a visibilidade para um número menor de domínios favorecidos. O YouTube provou ser um dos maiores beneficiários em ambos os sistemas, enquanto o Reddit, a Wikipedia, o Facebook e muitas fontes institucionais apareceram menos frequentemente na recuperação gerada por IA.
Os autores observam que algumas preferências inesperadas surgem entre os três métodos, durante os testes:
‘Temos três principais conclusões do [gráficos acima]. Primeiro, os sites grandes e conhecidos são os mais afetados (tanto positiva quanto negativamente). Isso é intuitivo, pois os sites grandes têm a reputação e a diversidade de conteúdo para ser relevante para muitas consultas diferentes.
‘Segundo, a esmagadora maioria desses sites recebe menos citações gerais e menos citações nos três primeiros lugares com mecanismos de busca geradora (indicado por barras vermelhas e números negativos nos [gráficos acima]). Isso sugere que a busca geradora tende a buscar informações de fontes mais nichos do que os mecanismos de busca tradicionais.
‘Terceiro, as visões gerais de IA do Google favorecem os sites do Google (i.e., domínios google.com e youtube.com).
‘O Gemini também favorece o YouTube em comparação com a Busca tradicional do Google, mas a diferença absoluta é menor.’
Alguns ‘Bloqueadores’..?
O estudo também descobriu que os editores que bloqueiam o rastreador de IA da web do Google – o robô automatizado que raspa dados do seu site, a menos que você o diga para não fazer com um arquivo robots.txt – tendem a não aparecer em resumos de IA.
Isso pode parecer uma ferida autoinfligida, mas, na verdade, o Google afirmou publicamente que o conteúdo de plataformas que bloqueiam os rastreadores de IA não será impedido de aparecer em resumos de IA; em vez disso, os editores simplesmente não terão seus dados raspados, curados em uma coleção e executados na próxima rodada de treinamento de IA para o Gemini e outros projetos de IA do Google.
No entanto, essa não foi a conclusão a que os pesquisadores do novo artigo chegaram, descobrindo, em vez disso, que os editores populares que banem a IA eram muito raramente citados pelo Gemini, seja na LLM ou na encarnação de resultados de busca mais ágil. Os editores ‘efetivamente banidos’ foram relatados no artigo como NYTimes, CNN, BBC, ScienceDirect, Reuters, Wiley, Nature, ESPN, Business Insider, CNBC, NPR, WIRED, USA Today, NBC News, Genius, National Geographic, The Conversation, U.S. News & World Report, Scientific American, Consumer Reports e STAT.

Alguns dos banimentos de raspagem de IA de robots.txt efetuados pelos editores listados acima. Mas isso levou a uma censura mais ampla pelo Google?
Os autores afirmam:
‘Em nossas análises dos domínios mais afetados, descobrimos que 21 editores populares (que são recuperados para pelo menos 20 consultas únicas pela Busca do Google e pelas visões gerais de IA) nunca foram citados pelo Gemini.
‘Vários sites de mídia social (Facebook, Instagram, Tiktok) e sites de revisão (IMDb, Yelp, Tripadvisor) também receberam zero citações do Gemini. Ao investigar mais a fundo, descobrimos que todos esses sites bloqueiam o robô Google-Extended em seus arquivos robots.txt.’
Se essa descoberta for verificada em outros lugares e for persistente, alguém pode especular que essas empresas estão sendo pressionadas pelo Google a se render e cooperar com suas operações de IA por meio de uma lista de exclusão parcial. À primeira vista, os resultados parecem punitivos – mas, então, as descobertas do novo trabalho são mais indicativas de caos do que premeditação; portanto, o único comentário razoável que se pode fazer é que esses resultados parecem superficialmente ‘vindictivos’, independentemente do que realmente os esteja causando.
Conclusão
Opinião Este é um artigo claro e conciso, cujas dez páginas primárias se desdobram em uma cascata quase avassaladora de descobertas adicionais. Como tivemos tempo de cobrir apenas uma pequena seção delas, recomendo o PDF de origem, mesmo para o leitor casual (um evento raro).
Embora uma disposição ‘amarela’ possa lançar muitas interpretações negativas sobre as descobertas dos autores, o trabalho é talvez melhor tratado como indicativo de um líder global de tecnologia tentando obter e manter a liderança global em busca baseada em IA, usando plataformas altamente contrastantes que se desenvolveram em circunstâncias e eras muito diferentes.
Enquanto três métodos de busca são examinados no artigo, a verdadeira contenda é entre os resultados de busca tradicionais, classificados por métodos proprietários, e os métodos de seleção baseados em distribuição que dominam a curadoria de dados e o treinamento de IA.
IA Como em 1999
Antes do advento do Google, era possível ‘jogar’ os resultados de busca por meio do volume puro, e dessa forma, alguém poderia frequentemente alcançar a colocação na primeira página do SERPS com um esforço mínimo (frequentemente automatizado). Esse ‘jogo de números’ foi efetivamente encerrado por volta de 2002 pelo algoritmo de classificação de busca do Google mais sofisticado e secreto. Mas, como as apostas eram significativas, o conteúdo de alto volume e baixa qualidade nunca desapareceu de forma significativa.
Portanto, quando coleções de grande escala, como Common Crawl, estabeleceram as fundações da revolução de IA moderna, a proeminência dos dados estava destinada a ser dominada pela extensão na qual os processos automatizados poderiam filtrar e classificar a qualidade dos dados de entrada, e (muito menos provável), a extensão na qual o dinheiro estava disponível para pagar as pessoas para classificar esses dados.
Havia muito de dados ruins ou de baixa qualidade nessas coleções enormes e indiscriminadas; dados que podem não ter incluído nudez ou palavrões ou tropos racistas, ou qualquer outra coisa que seja relativamente fácil de filtrar dos conjuntos de dados de treinamento – mas que, no entanto, eram auto-serviços e volumosos, como os resultados da busca na internet por volta de 1999-2001.
Porque esses processos de indução de dados ainda não são grandes, é muito difícil, mesmo para o Google, fazer com que a IA atue de forma comercial, desde que as decisões do PageRank do Gemini sejam ditadas não pelos engenheiros de política do Google, mas por uma compreensão imperfeita de como os dados de grande escala se transformam em distribuições de dados e incorporações latentes durante o treinamento de um modelo de IA.
* Páginas de resultados de busca.
† Ênfase dos autores, não minha. No entanto, substituí o itálico por negrito, pois a ênfase itálica não funciona bem em citações que já são principalmente itálicas.
Publicado pela primeira vez na quarta-feira, 13 de maio de 2026












