Connect with us

Inteligencia artificial

¿Cómo afecta la información sintética a las alucinaciones de la IA?

mm

Aunque la información sintética es una herramienta poderosa, solo puede reducir las alucinaciones de la inteligencia artificial en circunstancias específicas. En casi todos los demás casos, las amplificará. ¿Por qué sucede esto? ¿Qué significa este fenómeno para aquellos que han invertido en ella!

¿Cómo difiere la información sintética de la información real?

La información sintética es información que se genera mediante la IA. En lugar de recopilarse a partir de eventos o observaciones del mundo real, se produce artificialmente. Sin embargo, se asemeja al original lo suficiente como para producir una salida precisa y relevante. Esa es la idea, de todos modos.

Para crear un conjunto de datos artificial, los ingenieros de IA entrenan un algoritmo generativo en una base de datos relacional real. Cuando se les solicita, produce un segundo conjunto que se asemeja estrechamente al primero, pero no contiene información genuina. Mientras que las tendencias generales y las propiedades matemáticas permanecen intactas, hay suficiente ruido para enmascarar las relaciones originales.

Un conjunto de datos generado por la IA va más allá de la desidentificación, replicando la lógica subyacente de las relaciones entre los campos en lugar de simplemente reemplazar los campos con alternativas equivalentes. Dado que no contiene detalles identificativos, las empresas pueden utilizarlo para eludir las regulaciones de privacidad y derechos de autor. Más importante aún, pueden compartirlo o distribuirlo libremente sin temor a una violación.

Sin embargo, la información falsa se utiliza más comúnmente para la suplementación. Las empresas pueden utilizarla para enriquecer o expandir tamaños de muestra que son demasiado pequeños, haciéndolos lo suficientemente grandes como para entrenar sistemas de IA de manera efectiva.

¿Minimiza la información sintética las alucinaciones de la IA?

A veces, los algoritmos hacen referencia a eventos inexistentes o hacen sugerencias lógicamente imposibles. Estas alucinaciones a menudo son absurdas, engañosas o incorrectas. Por ejemplo, un modelo de lenguaje grande podría escribir un artículo de instrucciones sobre la domesticación de leones o convertirse en médico a los 6 años. Sin embargo, no todas son tan extremas, lo que puede hacer que reconocerlas sea un desafío.

Si se cura adecuadamente, los datos artificiales pueden mitigar estos incidentes. Una base de datos de entrenamiento relevante y auténtica es la base de cualquier modelo, por lo que tiene sentido que cuanto más detalles tenga alguien, más precisa será la salida de su modelo. Un conjunto de datos suplementario permite la escalabilidad, incluso para aplicaciones de nicho con información pública limitada.

La desviación de la bias es otra forma en que una base de datos sintética puede minimizar las alucinaciones de la IA. Según la Escuela de Gestión del MIT Sloan, puede ayudar a abordar los prejuicios porque no se limita al tamaño original de la muestra. Los profesionales pueden utilizar detalles realistas para llenar los vacíos donde las subpoblaciones selectas están subrepresentadas o sobrepresentadas.

¿Cómo la información artificial empeora las alucinaciones?

Dado que los algoritmos inteligentes no pueden razonar ni contextualizar la información, son propensos a alucinaciones. Los modelos generativos — en particular, los modelos de lenguaje grande preentrenados — son especialmente vulnerables. De alguna manera, los hechos artificiales agravan el problema.

Amplificación de la bias

Al igual que los humanos, la IA puede aprender y reproducir prejuicios. Si una base de datos artificial sobrevalúa algunos grupos mientras subrepresenta a otros — lo cual es alarmantemente fácil de hacer accidentalmente — su lógica de toma de decisiones se inclinará, afectando adversamente la precisión de la salida.

Un problema similar puede surgir cuando las empresas utilizan datos falsos para eliminar prejuicios del mundo real, porque ya no reflejará la realidad. Por ejemplo, dado que más del 99% de los cánceres de mama ocurren en mujeres, utilizar información suplementaria para equilibrar la representación podría sesgar los diagnósticos.

Alucinaciones interseccionales

La interseccionalidad es un marco sociológico que describe cómo las demografías como la edad, el género, la raza, la ocupación y la clase se intersectan. Analiza cómo las identidades sociales superpuestas de los grupos resultan en combinaciones únicas de discriminación y privilegio.

Cuando un modelo generativo se le pide que produzca detalles artificiales basados en lo que se entrenó, puede generar combinaciones que no existían en el original o son lógicamente imposibles.

Ericka Johnson, profesora de género y sociedad en la Universidad de Linköping, trabajó con un científico de aprendizaje automático para demostrar este fenómeno. Utilizaron una red adversaria generativa para crear versiones sintéticas de las cifras del censo de los Estados Unidos de 1990.

De inmediato, notaron un problema flagrante. La versión artificial tenía categorías tituladas “esposa y soltera” y “maridos que nunca se casaron”, ambas de las cuales eran alucinaciones interseccionales.

Sin una curación adecuada, la base de datos de réplica siempre sobrerepresentará las subpoblaciones dominantes en los conjuntos de datos, mientras subrepresenta — o incluso excluye — a los grupos subrepresentados. Los casos límite y los valores atípicos pueden ser ignorados por completo en favor de las tendencias dominantes.

Colapso del modelo

Una dependencia excesiva de patrones y tendencias artificiales conduce al colapso del modelo — donde el rendimiento de un algoritmo se deteriora drásticamente a medida que se vuelve menos adaptable a las observaciones y eventos del mundo real.

Este fenómeno es particularmente aparente en la IA generativa de próxima generación. Utilizar repetidamente una versión artificial para entrenarlos resulta en un bucle autoconsumidor. Un estudio encontró que su calidad y recuerdo disminuyen progresivamente sin suficientes cifras actuales y reales en cada generación.

Sobreajuste

Sobreajuste es una dependencia excesiva de los datos de entrenamiento. El algoritmo funciona bien inicialmente, pero alucinará cuando se le presenten nuevos puntos de datos. La información sintética puede agravar este problema si no refleja con precisión la realidad.

Las implicaciones del uso continuo de datos sintéticos

El mercado de datos sintéticos está en auge. Las empresas en esta industria de nicho recaudaron alrededor de $328 millones en 2022, en comparación con $53 millones en 2020 — un aumento del 518% en solo 18 meses. Es digno de destacar que esta es solo la financiación pública conocida, lo que significa que la cifra real puede ser aún mayor. Es seguro decir que las empresas están increíblemente invertidas en esta solución.

Si las empresas continúan utilizando una base de datos artificial sin una curación y desviación de la bias adecuadas, el rendimiento de su modelo disminuirá progresivamente, agriando su inversión en IA. Los resultados pueden ser más graves, dependiendo de la aplicación. Por ejemplo, en la atención médica, un aumento en las alucinaciones podría resultar en diagnósticos incorrectos o planes de tratamiento inadecuados, lo que lleva a peores resultados para los pacientes.

La solución no implicará regresar a los datos reales

Los sistemas de IA necesitan millones, si no miles de millones, de imágenes, texto y videos para el entrenamiento, gran parte de los cuales se extraen de sitios web públicos y se compilan en conjuntos de datos masivos y abiertos. Desafortunadamente, los algoritmos consumen esta información más rápido de lo que los humanos pueden generarla. ¿Qué sucede cuando aprenden todo?

Los líderes empresariales están preocupados por golpear el muro de datos — el punto en el que toda la información pública de Internet se ha agotado. Puede estar acercándose más rápido de lo que piensan.

Aunque la cantidad de texto plano en la página de crawl común promedio y el número de usuarios de Internet están creciendo anualmente entre el 2% y el 4%, los algoritmos se están quedando sin datos de alta calidad. Solo el 10% al 40% se puede utilizar para el entrenamiento sin comprometer el rendimiento. Si las tendencias continúan, el stock de información pública generada por humanos podría agotarse para 2026.

Es probable que el sector de la IA golpee el muro de datos incluso antes. El auge de la IA generativa de los últimos años ha aumentado las tensiones sobre la propiedad de la información y la infracción de derechos de autor. Más propietarios de sitios web están utilizando el Protocolo de Exclusión de Robots — un estándar que utiliza un archivo robots.txt para bloquear a los rastreadores web — o aclarando que su sitio está fuera de los límites.

Un estudio de 2024 publicado por un grupo de investigación liderado por el MIT reveló que las restricciones en el conjunto de datos Colossal Cleaned Common Crawl (C4) — un corpus de crawl web a gran escala — están en aumento. Más del 28% de las fuentes más activas y críticas en C4 estaban completamente restringidas. Además, el 45% de C4 está designado como fuera de los límites por los términos del servicio.

Si las empresas respetan estas restricciones, la frescura, la relevancia y la precisión de los hechos públicos del mundo real disminuirán, obligándolas a depender de bases de datos artificiales. Pueden no tener mucha elección si los tribunales dictaminan que cualquier alternativa es una infracción de derechos de autor.

El futuro de los datos sintéticos y las alucinaciones de la IA

A medida que las leyes de derechos de autor se actualizan y más propietarios de sitios web ocultan su contenido de los rastreadores web, la generación de conjuntos de datos artificiales se volverá cada vez más popular. Las organizaciones deben prepararse para enfrentar la amenaza de las alucinaciones.

Zac Amos es un escritor de tecnología que se enfoca en inteligencia artificial. También es el editor de características en ReHack, donde puedes leer más de su trabajo.