Ângulo de Anderson
O Canário que Revela o Tráfego de IA

Em um novo estudo, pesquisadores esconderam frases únicas em sites e capturaram chatbots de IA repetindo-as, exposto pipelines de raspagem ocultos e, aparentemente, práticas enganosas de algumas das maiores empresas de IA.
As empresas de IA estão lutando para obter vantagem em uma corrida que é prevista para ser brutalmente redutiva; portanto, elas realmente, realmente querem raspar seu site para treinar seus modelos de IA. Às vezes constantemente; frequentemente em violação das suas vontades expressas; e frequentemente disfarçadas de leitores humanos casuais, ou como bots “mais amigáveis” como o GoogleBot, em vez de revelar sua verdadeira identidade como raspadores de dados de IA.
Atualmente, estima-se que os raspadores de IA automatizados projetados para sugar novos dados de treinamento e responder às demandas imediatas dos usuários via RAG superarão os humanos em um ano.
Essa busca de dados voraz e implacável está acontecendo parcialmente devido à necessidade de cada entidade de IA ter sua própria cópia atualizada da internet, em vez de repositórios cada vez mais desatualizados, como Common Crawl; e, talvez, porque as empresas temem a chegada de restrições legais e precisam começar a lavagem de IP o mais cedo possível.
Além disso, ao sondar constantemente tantos sites quanto possível, as empresas de IA podem esperar melhorar sua capacidade atualmente não muito boa de responder de forma informativa e precisa a situações emergentes.
Em qualquer caso, parece haver algum mérito na afirmação de que essas práticas têm sido descontroladas e ingovernáveis por algum tempo.
O problema é que não é fácil provar até que ponto as empresas de IA estão dispostas a ir para saciar sua sede de dados.
Siga os Dados
Uma sugestão, proposta em um novo artigo nos EUA, oferece uma variação de um método antigo de descobrir espiões, informantes e outros supostos malfeitores: expor informações personalizadas que ninguém mais conhece e ver se e onde essas informações aparecem. Se ninguém mais sabia sobre essas informações, então a fonte do vazamento é comprovada:

A ideia central dos pesquisadores, delineada no novo artigo, é dar a cada bot visitante uma versão ligeiramente diferente da mesma página, então perguntar aos chatbots sobre essa página e ver qual versão retorna, tornando possível rastrear quais buscas ocultas na web forneceram a resposta. Fonte
Essa abordagem popular é talvez mais conhecida através das medidas anti-pirataria adotadas pelo comitê do Oscar nos anos 2000, em que os DVDs de pré-visualização distribuídos aos membros votantes começaram a ser impressos digitalmente com IDs únicos que poderiam ser reatribuídos ao destinatário original se o filme em questão fosse vazado para a internet. Na espionagem, a técnica é conhecida como barium meal, após a prática de usar um líquido de isótopo radioativo para iluminar vasos sanguíneos em um exame médico e identificar bloqueios.
(Ironicamente, a metáfora do “canário” escolhida não é muito apropriada para o cenário que o artigo aborda, embora seja mais reconhecível do que qualquer um dos tropos mencionados anteriormente)
No caso do novo estudo, os autores criaram vinte domínios web “armadilhas” e serviram tokens únicos a cada visitante único, para que cada um recebesse fatos diferentes (veja a segunda coluna da esquerda na imagem acima).
O objetivo era revelar a verdadeira identidade e comportamento dos raspadores de IA (LLM). Em 22 sistemas LLM de produção, a técnica foi capaz de identificar confiavelmente quais raspadores estavam alimentando quais LLM, desde que – com um pouco de paciência após “plantar” os signatários de dados únicos – apenas fazer as perguntas certas à IA um mês ou dois depois renderia os tokens únicos.
Jogo Sujo
Claro, nada disso seria necessário se não estivéssemos ainda na fase “faroeste” da IA V3, e se as empresas realmente obedecessem aos pequenos arquivos de texto que os domínios podem usar para dizer às empresas de IA para não raspar seus dados.
Como se revelou nos testes dos pesquisadores, apenas uma empresa de IA pareceu respeitar seu próprio comportamento e princípios declarados: o DuckDuckbot da DuckDuckGo foi o único agente a se representar com precisão e a parar de relatar os “dados secretos” assim que o domínio alvo foi desligado (outras empresas de IA recorreram a versões em cache e outros truques) ou o arquivo robots.txt do domínio foi alterado para recusar a raspagem de IA.
Muitos dos principais jogadores, em vez disso, impersonaram IDs de navegador genéricos (o mesmo que um site veria se você ou eu visitássemos) e – de acordo com a liderança da Perplexity em 2025 nessa prática – impersonaram o GoogleBot, que há muito tempo desfrutou de um “passe de ouro” para os dados do site porque retornava (nota: tempo passado, porque isso está mudando) tráfego em troca de dados.
O pior infrator, de acordo com o artigo, foi o raspador que alimentava o ecossistema Kimi AI:
‘Kimi parece ser o caso mais extremo desse comportamento: muitos agentes de usuário pareciam estar correlacionados com a saída de dados do Kimi. Inferimos que o Kimi gira por uma grande lista de strings de agente de usuário enquanto raspa, possivelmente para evitar a detecção de bot.’
O que torna esse problema um desafio maior é que, quando o ChatGPT ou ferramentas semelhantes “procuram algo”, esse processo é em grande parte invisível, com as empresas oferecendo apenas contas parciais ou auto-relatadas de como seus sistemas coletam informações ao vivo. Isso deixa os proprietários de sites sem uma maneira clara de saber quais bots estão visitando suas páginas, se essas visitas são diretas ou roteadas por meio de mecanismos de busca, ou como esses dados acabam em uma resposta final.
Os resultados do novo estudo indicam que os LLMs podem usar suas próprias entradas em cache de um domínio, suas próprias listas de SEO internas e que frequentemente usam informações dos resultados de mecanismos de busca de empresas com as quais, em muitos casos, não têm nenhuma associação pública e nenhum acordo de uso aparente.
Os autores acreditam que essa exposição é a primeira vez que um trabalho abordou a intrusão indesejada por sistemas RAG (chamadas ao vivo no tempo de inferência de LLMs que podem ou não ter um usuário humano trabalhando neles), em vez de bots de raspagem de dados em busca de material fresco para conjuntos de treinamento de dados.
O novo artigo é intitulado Identificando Raspadores da Web de IA Usando Tokens de Canário e vem de seis pesquisadores da Universidade Duke, da Universidade de Pittsburgh e da Carnegie Mellon.
Método
Os pesquisadores configuraram vinte domínios .com com sites amplamente semelhantes sob templates comuns, como um portfólio artístico ou um site de empresa. Cada template continha 10 espaços reservados que seriam eventualmente preenchidos com tokens únicos para o perfil percebido de cada visitante (com base em fatores como endereço IP, impressão digital de canvas e vários outros “métodos de detecção”):

Um exemplo do template e espaços reservados usados no experimento. Cada visitante único percebido receberia variáveis personalizadas e individuais.
Cada visitante único percebido receberia variáveis personalizadas. No caso em que o sistema detectou o retorno de um visitante anterior, as mesmas variáveis de antes seriam reapresentadas. As variáveis foram geradas com o uso da biblioteca Python Faker, bem como (não especificados) geradores de números aleatórios.
Os domínios “armadilhas” foram então submetidos a vários índices, como o Google e o Bing, e também foram vinculados a partir de outros domínios pré-existentes que os autores controlavam.
Dois meses foram permitidos para passar, como um intervalo necessário para permitir a frequência de varredura de uma ampla variedade de bots de mecanismos de busca e similares, bem como (possivelmente) visitas orgânicas. Nesse ponto, os pesquisadores estavam agora em uma posição para consultar os chatbots de IA alvo (listados abaixo):
|
|
Scripts foram construídos para consultar cada sistema, via API, quando possível. Quando isso não era possível, e quando soluções automatizadas como o Selenium eram bloqueadas pelas rotinas de detecção do portal de IA, interações manuais via as GUIs oficiais dos LLMs foram realizadas.
Após a troca inicial de templates (veja a imagem acima), os autores seguiram com um prompt secundário projetado para elicitar o nome de uma empresa ou pessoa em um token associado.
Os experimentos foram realizados em uma das três condições: um site totalmente acessível; o site desligado; e o site com uma restrição de robots.txt que repelia a raspagem. Esses experimentos foram realizados nessa sequência exata, um após o outro, desde que os estágios posteriores dependiam dos anteriores.
Finalmente, com todos os sites voltando online, a última etapa retestaria a saída do LLM em intervalos de uma semana.
Resultados
Quatro dos LLMs alvo provaram ser totalmente resistentes aos métodos dos pesquisadores, e nenhum resultado pôde ser obtido para DeepSeek, Hunyuan, GLM e Liquid.
Em relação à tendência de muitos bots de IA a se disfarçar de tráfego não-IA, os autores afirmam:
‘Além dos agentes declarados de primeira parte, vários sistemas de IA retornaram conteúdo associado a strings de agente de usuário genéricas. Observamos esse comportamento em seis dos 18 sistemas de IA para os quais obtivemos informações do agente de usuário.
‘Esse resultado sugere que alguns sistemas de IA podem obter conteúdo de site por meio de solicitações que parecem semelhantes ao tráfego de navegador comum, o que torna a bloqueio baseado em agente de usuário difícil.’
ERNIE retornou tanto Baiduspider quanto uma identidade Chrome; Grok combinou Googlebot com dois agentes de navegador; Solar usou apenas identidades de navegador; Qwen misturou Googlebot com Chrome; e Kimi foi vinculado a vários agentes de estilo de navegador.
Muitos sistemas pareciam confiar em raspadores de mecanismos de busca de terceiros, em relacionamentos nem sempre divulgados. Conteúdo vinculado ao Googlebot, Bingbot e Bravebot foi retornado por 10 dos 18 sistemas analisados, frequentemente em casos em que não há associação pública entre o provedor de IA e o mecanismo de busca – embora algumas ligações, como o uso do Brave pelo Claude, sejam documentadas.
Os autores defendem que isso reflete a ingestão de resultados de busca em vez de raspagem direta, desde que verificações de ASN indicaram que o tráfego originou-se das redes de mecanismos de busca esperadas, em vez de identidades falsificadas.
Isso sugere, afirma o artigo, uma camada adicional de opacidade na pipeline da web para a IA, onde bloquear raspadores de IA conhecidos pode não prevenir o uso de dados e evitar a inclusão pode exigir optar por não indexar os mecanismos de busca por completo – uma escolha indesejável enquanto a tensão entre SEO tradicional e busca baseada em LLM ainda está longe de ser resolvida.
Apenas Cache
Os autores então testaram se remover uma fonte afetaria a saída dos chatbots, desligando os sites de teste e consultando os sistemas novamente após um intervalo de uma semana. De acordo com o artigo, muitos chatbots continuaram a reproduzir o conteúdo “plantado” mesmo após uma semana de inatividade, indicando que as respostas estavam sendo extraídas de dados em cache, em vez de busca ao vivo.
Essa persistência foi mais evidente em sistemas vinculados a raspadores de mecanismos de busca, onde o conteúdo previamente indexado permaneceu disponível, apesar das páginas de origem não estarem mais acessíveis – embora um comportamento semelhante também tenha sido observado em sistemas associados a agentes de estilo de navegador, indicando que o cache pode se estender além das pipelines apoiadas por mecanismos de busca.
O artigo sugere que, uma vez que o conteúdo entre em um cache, seja mantido pelo chatbot ou acessado por meio de índices de busca, remover a página original não remove necessariamente esse conteúdo das saídas subsequentes.
Conclusão
Os autores admitem que algum “vazamento” ocorrerá dessa abordagem clássica “isolada”, desde que os tokens únicos destinados a um LLM possam acabar em resultados de busca (gerados pelos tokens “reais” donos), que são então ingeridos por um segundo LLM. No entanto, nesses esquemas, a difusão desse tipo é inevitável, e a vigilância para a primeira ocorrência é o momento crítico e decisivo.
O que ainda está por ser visto é a extensão com que tal esquema poderia ser implementado em escala, particularmente desde que, como os autores observam, alguém rapidamente esgotaria tokens contextualmente corretos.
No entanto, isso quase ignora o ponto, desde que pode haver um limite, mesmo para a ousadia das empresas de IA em ignorar evidências claras de suas próprias mentiras sobre suas políticas de raspagem. Além disso, a menos que essas empresas estejam dispostas a seguir o caminho potencialmente caro de rolar por endereços IP domésticos para mascarar sua identidade, bastará que uma organização identifique e publique uma lista negra de IPs ou ASNs de bots de IA desonestos; o processo não precisa ser industrializado para ser eficaz.
Publicado pela primeira vez na quinta-feira, 14 de maio de 2026












