Connect with us

¿Qué es lo que lee la IA? Dentro de los mecanismos ocultos de las citas generativas

Informes

¿Qué es lo que lee la IA? Dentro de los mecanismos ocultos de las citas generativas

mm

A medida que la IA generativa redefine el panorama digital, surge una nueva pregunta en el centro de la creación y descubrimiento de contenido: ¿Qué exactamente lee la IA? Un estudio innovador titulado ¿Qué es lo que lee la IA de Generative Pulse por Muck Rack analizó más de 1 millón de citas de sistemas de IA importantes, incluyendo ChatGPT de OpenAI (4o y 4o-mini), Gemini de Google (Flash y Pro) y Claude de Anthropic (Soneto y Haiku), para descubrir la dinámica oculta detrás de los enlaces que estos modelos utilizan al generar respuestas.

Los hallazgos no solo son reveladores, sino también transformadores para cualquier persona en el ámbito del periodismo, las comunicaciones corporativas, el SEO o la estrategia de marca.

Las citas no son solo complementos, redefinen el comportamiento de la IA

Como es obvio para cualquier persona inmersa en el mundo de la IA, simplemente habilitar o deshabilitar la funcionalidad de citación cambia las respuestas en sí. Cuando las citas están deshabilitadas, las IA confían más en los datos de entrenamiento estáticos. Pero cuando las citas están habilitadas, los modelos generan salidas materialmente diferentes, directamente moldeadas por las fuentes en tiempo real que extraen.

Ejemplo clave: Al preguntar sobre el peor equipo de béisbol de las Grandes Ligas, una IA con citaciones deshabilitadas mencionó a los Mets de 1962. Pero con las citaciones habilitadas, actualizó la respuesta para incluir a los Medias Blancas de Chicago de 2024 con un récord de 41-121, citando explícitamente a CBS Sports.

La dominancia de los medios ganados

Más del 95% de todas las fuentes citadas provienen de medios no pagados. Esto incluye:

  • 27% de contenido periodístico (por ejemplo, Reuters, AP, Financial Times)
  • 18% de sitios de gobierno/ONG
  • 13% de fuentes académicas o de investigación
  • 10% de plataformas de agregación/enciclopédicas como Wikipedia o Visual Capitalist

Por contraste, el contenido pagado o publicitario representa menos del 5% de las citaciones, lo que hace claro que los modelos de IA están sistemáticamente sesgados en contra del contenido impulsado por marketing.

Sesgo de recencia: ¿Por qué el contenido nuevo gana?

La frescura es importante, particularmente para los modelos de OpenAI. En el contenido periodístico, 56% de las citaciones realizadas por ChatGPT se publicaron en los últimos 12 meses, en comparación con 36% para Claude. Esta tendencia, conocida como sesgo de recencia, se refiere a la preferencia por fuentes más nuevas y publicadas recientemente sobre fuentes más antiguas, incluso cuando las fuentes más antiguas pueden seguir siendo precisas o relevantes.

En el contexto de la IA generativa, el sesgo de recencia significa que los modelos de lenguaje, especialmente aquellos como ChatGPT que están conectados a datos en tiempo real, son más propensos a hacer referencia y confiar en material publicado recientemente, particularmente cuando responden a consultas que involucran eventos actuales, tecnologías emergentes o cambios de política. Para solicitudes de tiempo sensible como “avances más recientes en el tratamiento ambulatorio” o “innovaciones recientes en la grabación de sonido”, el modelo pondera fuertemente el contenido que se ha publicado en los últimos meses, asumiendo que lleva consigo conocimientos más relevantes o actualizados.

Esta es una idea crítica para los creadores de contenido y estrategas de marca: si su material está desactualizado, incluso por un año, es significativamente menos probable que aparezca en las respuestas generadas por la IA. Mantener su contenido fresco no es solo una buena SEO, es esencial para la visibilidad en la era de la IA.

Diferentes solicitudes activan diferentes fuentes

Los modelos de IA no citan fuentes al azar, eligen en función del tipo de pregunta que se hace. Diferentes estilos de solicitud llevan a diferentes tipos de fuentes que se citan:

  • Búsqueda de hechos y consultas enciclopédicas tienden a extraer de sitios de referencia estáticos como Wikipedia y Britannica, confiando en información bien establecida pero a menudo más antigua.
  • Preguntas sobre eventos recientes típicamente activan citaciones de grandes salas de prensa como AP, Reuters o Axios, donde la velocidad y la recencia son clave.
  • Solicitudes de asesoramiento o de opinión desplazan el modelo hacia fuentes más dinámicas y conversacionales como blogs, foros o plataformas como Reddit o Medium.
  • Tareas académicas o de investigación llevan a la IA a citar de revistas, servidores de preimpresión como arXiv, o repositorios respaldados por el gobierno como PubMed o NCBI.
  • Solicitudes creativas o instrucciones paso a paso frecuentemente presentan contenido generado por el usuario, tutoriales informales o hilos de discusión de la comunidad de plataformas como Quora o foros de tecnología de nicho.

Esta variación significa que la forma en que se formula una pregunta puede tener un impacto directo en qué dominios se elevan y cuáles se dejan atrás.

Claude, por ejemplo, es mucho menos probable que cite a grandes medios como Reuters que ChatGPT o Gemini, citando a Reuters 50 veces menos frecuentemente que ChatGPT.

La autoridad y el dominio importan, pero no de manera uniforme

Si bien los medios de alta autoridad dominan, no son los únicos jugadores. Solo 15% de las fuentes citadas en los primeros 10 aparecen en los primeros 10 en múltiples industrias. Esto significa que el contenido específico de nicho es recompensado. Por ejemplo:

  • En Finanzas, fuentes como Bankrate y NerdWallet son favoritas.
  • En Atención médica, los sitios del gobierno como CDC.gov y NIH.gov dominan.
  • En Tecnología, las plataformas de aprendizaje como Udemy, Coursera y Medium se elevan a la cima.

En página 15, un mapa de calor visual muestra que Claude exhibe la mayor diversidad de dominio específico, seleccionando frecuentemente fuentes únicas de la industria, mientras que ChatGPT y Gemini tienden a confiar más en los medios generalistas.

Conocimientos específicos de la industria: ¿Qué cita la IA por sector?

Finanzas y Seguros

  • El periodismo representa el 37% de las citaciones, más que cualquier otra industria.
  • Las 10 fuentes principales de Claude son 90% únicas, lo que indica una exploración de nichos más profunda.

Atención médica

  • Los sitios de gobierno y ONG se citan el 18% de las veces, más del doble que el promedio entre industrias.
  • Gemini lidera en diversidad de fuentes para este sector.

Viajes/Aerolíneas

  • Sorprendentemente, las citaciones académicas están casi ausentes (solo 0.7%).
  • Fuentes como FAA.gov y IATA.org dominan, con menos dependencia de los medios de comunicación.

Minoristas y Comercio electrónico

  • Los agregadores como Wikipedia son menos citados aquí que en otras industrias (36% vs. 28%).
  • Claude cita el contenido de nicho más.

Medios/Entretenimiento

  • El periodismo lidera nuevamente con 37%, con plataformas de nicho como TVTechnology y Radioking citadas con frecuencia por Claude.

Tecnología

  • Casi no se utilizan fuentes enciclopédicas o académicas.
  • Plataformas como Medium, Coursera y SproutSocial aparecen prominentemente, reflejando una inclinación hacia conocimientos basados en practicantes.

Implicaciones para los equipos de comunicaciones y SEO

Los hallazgos de este informe revelan que la Optimización de Motor Generativo (GEO) se está convirtiendo en tan importante como la SEO tradicional. La IA no solo resume bases de datos estáticas, sino que enlaza activamente a fuentes en tiempo real. Y esos enlaces están influenciados por:

  • Recencia: Actualice su contenido regularmente.
  • Autoridad de dominio: Construya enlaces de retroceso y confianza.
  • Relevancia de nicho: Cree contenido adaptado a su industria, no solo a temas generales.
  • Tipo de contenido: Enfóquese en el contenido ganado y la información en lugar de páginas de marketing puras.

Esto cambia el cálculo para los marketeros de contenido, profesionales de PR y editores. Si su objetivo es aparecer en los resultados generados por la IA, debe crear contenido que la IA considere valioso, no solo los usuarios o Google.

Conclusión: Las consecuencias de ser leído (o ignorado) por la IA

Este informe destaca un cambio fundamental en la forma en que se presenta la información en línea: los modelos de IA no solo recuperan contenido, sino que lo curan selectivamente. Y esa curación está redefiniendo la visibilidad en la era digital.

Para los editores, investigadores y marcas, ser citado por la IA significa ser parte de la próxima generación de búsqueda. Pone su contenido frente a los usuarios que pueden nunca visitar su sitio, pero confían en el modelo que lo referencia. Las fuentes que se citan se amplifican. Aquellas que no, independientemente de la calidad, corren el riesgo de ser excluidas de la conversación por completo.

Este cambio crea nuevos ganadores y perdedores. Los medios de alta autoridad y el contenido ganado y oportuno son favoritos. Mientras que el contenido pagado, los blogs ligeramente actualizados o las voces menos establecidas a menudo pasan desapercibidos, no solo para las personas, sino también para los sistemas que configuran lo que la gente ve.

A medida que la IA generativa continúa desempeñando un papel central en la forma en que se entrega el conocimiento, la pregunta clave se convierte en menos en cómo clasificar en la búsqueda y más en: ¿Cómo se convierte en parte de lo que la IA considera digno de citar?

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.