Ángulo de Anderson
El canario que revela el tráfico de IA

En un nuevo estudio, los investigadores escondieron frases únicas en sitios web y atraparon a los chatbots de IA repitiéndolas, exponiendo pipelines de extracción ocultas y, aparentemente, prácticas engañosas de algunas de las empresas de IA más grandes.
Las empresas de IA están luchando por una ventaja en una carrera que se predice que será brutalmente reductiva; por lo tanto, realmente, realmente quieren raspar su sitio web/s para obtener datos de entrenamiento para alimentar a sus modelos de IA. A veces constantemente; a menudo en violación de sus deseos expresados; y con frecuencia en la apariencia de lectores humanos casuales, o como bots “más amigables” como GoogleBot, en lugar de revelar su verdadera identidad como raspadores de datos de IA.
Actualmente se estima que los raspadores de datos de IA automatizados diseñados para absorber nuevos datos de entrenamiento y responder a la demanda inmediata de los usuarios de las últimas noticias a través de RAG, superarán en número a los humanos en un año.
Esta extracción de datos rabiosa, implacable y repetitiva está sucediendo parcialmente debido a la necesidad de que cada entidad de IA tenga su propia copia actualizada de Internet, en lugar de repositorios cada vez más obsoletos como Common Crawl; y, quizás, porque las empresas temen la llegada de restricciones legales, y necesitan empezar a limpiar sus direcciones IP lo antes posible.
Además, al sondear constantemente tantos sitios (potencialmente fructíferos) como sea posible, las empresas de IA pueden esperar mejorar su capacidad actualmente no muy buena para responder de manera informativa y precisa a situaciones emergentes y en desarrollo.
En cualquier caso, parece haber algún mérito en la afirmación de que estas prácticas han estado fuera de control y sin gobernanza durante algún tiempo.
El problema es que no es fácil demostrar hasta qué punto las empresas de IA están dispuestas a llegar para saciar su sed de datos.
Sigue la pista de los datos
Una sugerencia, propuesta en un nuevo documento de EE. UU., ofrece una variación de un método antiguo para descubrir espías, informantes y otros supuestos malhechores: exponerlos a información personalizada que nadie más conoce, y ver si y dónde esa información aparece. Si nadie más conocía esa información, entonces la fuente de la filtración está demostrada:

La idea central de los investigadores, descrita en el nuevo documento, es dar a cada bot visitante una versión ligeramente diferente de la misma página, y luego preguntar a los chatbots sobre esa página y ver qué versión regresa, lo que permite rastrear qué búsquedas web ocultas suministraron la respuesta. Fuente
Este enfoque popular es quizás mejor conocido a través de las medidas anti-piratería adoptadas por el comité de los Premios de la Academia en la década de 2000, en las que los DVD de previsualización dados a los miembros votantes comenzaron a ser digitalmente marcados con IDs únicos que podrían ser reatribuidos al destinatario original si la película en cuestión se filtrara a Internet. En el espionaje, la técnica se conoce como barium meal, después de la práctica de utilizar un líquido de isótopo radiactivo para iluminar los vasos sanguíneos en un escaneo médico e identificar bloqueos.
(Irónicamente, la metáfora del “canario” elegida no es muy adecuada para el escenario que el documento aborda, aunque es más reconocible que cualquiera de los tropos anteriores)
En el caso del nuevo estudio, los autores crearon veinte dominios web “trampa” y sirvieron tokens únicos a cada visitante único, para que cada uno recibiera hechos diferentes (ver segunda columna de la izquierda en la imagen de arriba).
El objetivo era revelar la verdadera identidad y comportamiento de los raspadores de IA (LLM). A lo largo de 22 sistemas de LLM de producción, la técnica fue capaz de identificar de manera fiable qué raspadores estaban alimentando a qué LLM, ya que, con un poco de paciencia después de “plantar” los identificadores de datos únicos, simplemente hacer las preguntas adecuadas a la IA un mes o dos después produciría los tokens únicos.
Juego sucio
Por supuesto, nada de esto sería necesario si no estuviéramos todavía en la fase “salvaje oeste” de la IA V3, y si las empresas realmente respetaran los pequeños archivos de texto que los dominios pueden utilizar para decir a las empresas de IA que no raspen sus datos.
Como resultó en las pruebas de los investigadores, solo una empresa de IA parecía respetar su propio comportamiento y principios declarados: el DuckDuckbot de DuckDuckGo fue el único agente que se representó con precisión y dejó de informar los “datos secretos” tan pronto como el dominio objetivo se desactivó (otras empresas de IA recurrieron a versiones en caché y otros trucos) o el archivo robots.txt del dominio se cambió para rechazar el raspado de IA.
Muchos de los principales actores, en cambio, impersonaron identificadores de navegador genéricos (lo mismo que un sitio web vería si usted o yo lo visitáramos), y, de acuerdo con el liderazgo de Perplexity en 2025 sobre la práctica, impersonaron a GoogleBot, que ha disfrutado de un “pase de oro” para acceder a los datos de los sitios web porque devolvía (nota el tiempo pasado, porque esto está cambiando) tráfico a cambio de datos.
El peor infractor, según el documento, fue el raspador que alimentaba al ecosistema de IA Kimi:
‘Kimi parece ser el caso más extremo de este comportamiento: muchos agentes de usuario parecían estar correlacionados con los datos de salida de Kimi. Inferimos que Kimi rota a través de una gran lista de cadenas de agente de usuario mientras raspa, posiblemente para evitar la detección de bots.’
Lo que hace que este problema sea un desafío importante es que cuando ChatGPT o herramientas similares “buscan algo”, ese proceso es en gran medida invisible, con las empresas que ofrecen solo cuentas parciales o autoinformadas de cómo sus sistemas recopilan información en vivo. Esto deja a los propietarios de sitios sin una forma clara de saber qué bots están visitando realmente sus páginas, si esas visitas son directas o enrutadas a través de motores de búsqueda, o cómo esos datos terminan en una respuesta final.
Los hallazgos del nuevo estudio indican que los LLM pueden utilizar sus propias entradas en caché de un dominio, sus propias listas de estilo de SEO internas, y que con frecuencia utilizan información de los resultados de los motores de búsqueda de las empresas con las que, en muchos casos, no tienen una asociación pública, y no tienen acuerdos de uso aparentes.
Los autores creen que esta exposición es la primera vez que un trabajo ha abordado la intrusión no deseada por sistemas RAG (llamadas en vivo en el momento de la inferencia de los LLM que pueden o no tener un usuario humano trabajando en ellos), en lugar de bots de raspado de datos que buscan material fresco para conjuntos de datos de entrenamiento.
El nuevo documento se titula Identificando a los raspadores web de IA utilizando tokens de canario, y proviene de seis investigadores de la Universidad de Duke, la Universidad de Pittsburgh y la Universidad Carnegie Mellon.
Método
Los investigadores configuraron veinte dominios .com con sitios web ampliamente similares bajo plantillas comunes, como un portafolio artístico o un sitio web de empresa. Cada plantilla contenía 10 marcadores de posición que eventualmente serían poblados con tokens únicos para el perfil percibido de cada visitante (basado en factores como la dirección IP, la huella dactilar del lienzo y varios otros métodos de “olfateo”):

Un ejemplo de la plantilla y los marcadores de posición utilizados en el experimento. Cada visitante único percibido recibiría variables personalizadas.
Cada visitante único percibido recibiría variables personalizadas. En el caso de que el sistema detectara el regreso de un visitante anterior, se presentarían las mismas variables que antes. Las variables se generaron con el uso de la biblioteca Python Faker, así como (generadores de números aleatorios no especificados).
Los dominios de trampa se presentaron a varios índices como Google y Bing, y también se enlazaron desde otros dominios preexistentes que los autores controlaban.
Se permitieron pasar dos meses, como un intervalo de tiempo necesario para permitir la frecuencia de exploración de una amplia variedad de bots de motores de búsqueda y similares, así como (posiblemente) visitas orgánicas. En este punto, los investigadores estaban en una posición para consultar a los chatbots de IA objetivo (listados a continuación):
|
|
Se crearon scripts para consultar cada sistema, a través de API, cuando fue posible. Cuando esto no fue posible, y cuando las soluciones automatizadas como Selenium fueron bloqueadas por las rutinas de detección del portal de IA, se realizaron interacciones manuales a través de las GUI oficiales de los LLM.
Después del intercambio inicial con plantilla (ver imagen de arriba), los autores siguieron con una segunda pregunta diseñada para obtener el nombre de una empresa o una persona en un token asociado.
Los experimentos se llevaron a cabo en una de tres condiciones: un sitio web completamente accesible; el sitio web fuera de línea; y el sitio web con una restricción robots.txt que repelía el raspado. Estos experimentos se llevaron a cabo en ese orden exacto, uno después de otro, ya que las etapas posteriores dependían de las anteriores.
Finalmente, con todos los sitios en línea nuevamente, la última etapa volvería a probar la salida de LLM en intervalos de una semana.
Resultados
Cuatro de los LLM objetivo resultaron ser completamente resistentes a los métodos de los investigadores, y no se pudieron obtener resultados para DeepSeek, Hunyuan, GLM, y Liquid.
En cuanto a la tendencia de muchos bots de IA a impersonar tráfico no IA, los autores afirman:
‘Además de los agentes declarados de primera parte, varios sistemas de IA devolvieron contenido asociado con cadenas de agente de usuario genéricas. Observamos este comportamiento en seis de los 18 sistemas de IA para los que obtuvimos información del agente de usuario.
‘Este resultado sugiere que algunos sistemas de IA pueden obtener contenido de sitios web a través de solicitudes que parecen similares al tráfico de navegador ordinario, lo que hace que el bloqueo basado en el agente de usuario sea difícil.’
ERNIE devolvió tanto Baiduspider como una identidad de Chrome; Grok combinó Googlebot con dos agentes de navegador; Solar utilizó solo identidades de navegador; Qwen mezcló Googlebot con Chrome; y Kimi se vinculó a múltiples agentes de estilo de navegador.
Muchos sistemas parecían depender de raspadores de búsqueda de terceros, en relaciones no siempre divulgadas. El contenido vinculado a Googlebot, Bingbot y Bravebot fue devuelto por diez de los 18 sistemas analizados, a menudo en casos en los que no existe una asociación pública entre el proveedor de IA y el motor de búsqueda – aunque algunas conexiones, como el uso de Brave por Claude, están documentadas.
Los autores sostienen que esto refleja la ingesta de resultados de búsqueda en lugar de un raspado directo, ya que las comprobaciones de ASN indicaron que el tráfico provenía de las redes de motores de búsqueda esperadas, en lugar de identidades falsificadas.
Esto sugiere, afirma el documento, una capa adicional de opacidad en la tubería web-a-IA, donde bloquear a los raspadores de IA conocidos puede no prevenir el uso de datos, y evitar la inclusión puede requerir optar por no indexar en los motores de búsqueda por completo – una elección no deseable mientras la tensión entre el SEO tradicional y la búsqueda basada en LLM sigue lejos de resolverse.
Solo caché
Los autores luego probaron si eliminar una fuente afectaría la salida de los chatbots, tomando los sitios de prueba fuera de línea y consultando los sistemas nuevamente después de un intervalo de una semana. Según el documento, muchos chatbots continuaron reproduciendo el “contenido plantado” incluso después de una semana de inactividad, lo que indica que las respuestas se estaban obteniendo de datos en caché, en lugar de una recuperación en vivo.
Esta persistencia fue más evidente en los sistemas vinculados a los raspadores de búsqueda, donde el contenido previamente indexado permaneció disponible, a pesar de que las páginas de origen ya no estaban accesibles – aunque se observó un comportamiento similar en los sistemas asociados con agentes de estilo de navegador, lo que indica que la caché puede extenderse más allá de las tuberías respaldadas por búsqueda.
El documento sugiere que una vez que el contenido entra en una caché, ya sea mantenida por el chatbot o accesada a través de índices de búsqueda, eliminar la página original no elimina de manera fiable ese contenido de las salidas posteriores.
Conclusión
Los autores admiten que algunas “filtraciones” ocurrirán con este enfoque clásico “aislado”, ya que los tokens únicos destinados a un LLM pueden terminar en los resultados de búsqueda (generados por los tokens “reales” dueños), que luego son ingeridos por un segundo LLM. Sin embargo, en tales esquemas, la difusión de este tipo es inevitable, y la vigilancia para la primera ocurrencia es el momento crítico y decisivo.
Lo que queda por ver es hasta qué punto un esquema como este podría implementarse a gran escala, particularmente desde que, como observan los autores, uno se quedaría sin tokens contextualmente correctos muy rápidamente.
Sin embargo, esto pasa por alto el punto, ya que puede haber un límite incluso para la osadía de las empresas de IA para ignorar pruebas claras de sus propias mentiras sobre sus políticas de raspado. Además, a menos que estas empresas se comprometan a la ruta potencialmente costosa de rotar a través de direcciones IP nacionales para ocultar su identidad, solo tomará una organización identificar y publicar una lista negra al estilo de SpamHaus de IPs o ASNs de bots de IA deshonestos; el proceso no necesita ser industrializado para ser efectivo.
Publicado por primera vez el jueves 14 de mayo de 2026












