Connect with us

Monoculturas de datos en IA: Amenazas a la diversidad y la innovación

Inteligencia artificial

Monoculturas de datos en IA: Amenazas a la diversidad y la innovación

mm

La IA está cambiando el mundo, desde transformar la atención médica hasta reformar la educación. Está abordando desafíos de larga data y abriendo posibilidades que nunca pensamos que fueran posibles. Los datos están en el centro de esta revolución — el combustible que impulsa cada modelo de IA. Es lo que permite que estos sistemas hagan predicciones, encuentren patrones y entreguen soluciones que impactan nuestra vida diaria.

Pero, mientras que esta abundancia de datos está impulsando la innovación, el dominio de conjuntos de datos uniformes — a menudo denominados monoculturas de datos — plantea riesgos significativos para la diversidad y la creatividad en el desarrollo de la IA. Esto es similar a la agricultura de monocultivo, donde plantar el mismo cultivo en grandes campos deja el ecosistema frágil y vulnerable a plagas y enfermedades. En la IA, confiar en conjuntos de datos uniformes crea modelos rígidos, sesgados y a menudo poco fiables.

Este artículo se adentra en el concepto de monoculturas de datos, examinando qué son, por qué persisten, los riesgos que conllevan y los pasos que podemos tomar para construir sistemas de IA que sean más inteligentes, justos y más inclusivos.

Comprender las monoculturas de datos

Una monocultura de datos ocurre cuando un solo conjunto de datos o un conjunto limitado de fuentes de datos domina el entrenamiento de los sistemas de IA. El reconocimiento facial es un ejemplo bien documentado de monocultura de datos en la IA. Estudios del MIT Media Lab encontraron que los modelos entrenados principalmente con imágenes de personas de piel clara tenían dificultades con rostros de piel más oscura. Las tasas de error para mujeres de piel más oscura alcanzaron el 34,7%, en comparación con solo el 0,8% para hombres de piel clara. Estos resultados destacan el impacto de los datos de entrenamiento que no incluían suficiente diversidad en tonos de piel.

Problemas similares surgen en otros campos. Por ejemplo, los grandes modelos de lenguaje (LLM) como GPT de OpenAI y Bard de Google se entrenan con conjuntos de datos que dependen en gran medida de contenido en inglés procedente de contextos occidentales. Esta falta de diversidad los hace menos precisos para entender matices lingüísticos y culturales de otras partes del mundo. Países como la India están desarrollando LLM que reflejan mejor los idiomas y valores culturales locales.

Este problema puede ser crítico, especialmente en campos como la atención médica. Por ejemplo, una herramienta de diagnóstico médico entrenada principalmente con datos de poblaciones europeas puede funcionar mal en regiones con factores genéticos y ambientales diferentes.

Origen de las monoculturas de datos

Las monoculturas de datos en la IA ocurren por una variedad de razones. Conjuntos de datos populares como ImageNet y COCO son masivos, fácilmente accesibles y ampliamente utilizados. Pero a menudo reflejan una visión estrecha y centrada en Occidente. Recopilar datos diversos no es barato, por lo que muchas organizaciones más pequeñas dependen de estos conjuntos de datos existentes. Esta dependencia refuerza la falta de variedad.

La estandarización también es un factor clave. Los investigadores a menudo utilizan conjuntos de datos ampliamente reconocidos para comparar sus resultados, desanimando involuntariamente la exploración de fuentes alternativas. Esta tendencia crea un bucle de retroalimentación donde todos optimizan para las mismas pruebas en lugar de resolver problemas del mundo real.

A veces, estos problemas ocurren debido a una falta de atención. Los creadores de conjuntos de datos pueden dejar fuera involuntariamente ciertos grupos, idiomas o regiones. Por ejemplo, las primeras versiones de asistentes de voz como Siri no manejaban bien acentos no occidentales. La razón era que los desarrolladores no incluyeron suficientes datos de esas regiones. Estas omisiones crean herramientas que no satisfacen las necesidades de una audiencia global.

Por qué importa

A medida que la IA asume roles más prominentes en la toma de decisiones, las monoculturas de datos pueden tener consecuencias en el mundo real. Los modelos de IA pueden reforzar la discriminación cuando heredan sesgos de sus datos de entrenamiento. Un algoritmo de contratación entrenado con datos de industrias dominadas por hombres podría favorecer involuntariamente a los candidatos masculinos, excluyendo a mujeres cualificadas de la consideración.

La representación cultural es otro desafío. Los sistemas de recomendación como Netflix y Spotify a menudo han favorecido las preferencias occidentales, marginando el contenido de otras culturas. Esta discriminación limita la experiencia del usuario y frena la innovación al mantener las ideas estrechas y repetitivas.

Los sistemas de IA también pueden volverse frágiles cuando se entrenan con datos limitados. Durante la pandemia de COVID-19, los modelos médicos entrenados con datos pre-pandémicos fallaron al adaptarse a las complejidades de una crisis de salud global. Esta rigidez puede hacer que los sistemas de IA sean menos útiles cuando se enfrentan a situaciones inesperadas.

Las monoculturas de datos también pueden llevar a problemas éticos y legales. Empresas como Twitter y Apple han enfrentado reacciones adversas por algoritmos sesgados. La herramienta de recorte de imágenes de Twitter fue acusada de sesgo racial, mientras que el algoritmo de crédito de Apple Card presuntamente ofreció límites más bajos a las mujeres. Estas controversias dañan la confianza en los productos y plantean preguntas sobre la responsabilidad en el desarrollo de la IA.

Cómo solucionar las monoculturas de datos

Solucionar el problema de las monoculturas de datos exige ampliar el rango de datos utilizados para entrenar los sistemas de IA. Esta tarea requiere desarrollar herramientas y tecnologías que faciliten la recopilación de datos de fuentes diversas. Proyectos como Common Voice de Mozilla, por ejemplo, recopilan muestras de voz de personas de todo el mundo, creando un conjunto de datos más rico con diversos acentos y idiomas — de manera similar, iniciativas como Data for AI de la UNESCO se centran en incluir a comunidades subrepresentadas.

Establecer pautas éticas es otro paso crucial. Marcos como la Declaración de Toronto promueven la transparencia y la inclusividad para garantizar que los sistemas de IA sean justos por diseño. Políticas de gobernanza de datos sólidas inspiradas en regulaciones como el RGPD también pueden marcar una gran diferencia. Exigen una documentación clara de las fuentes de datos y responsabilizan a las organizaciones de garantizar la diversidad.

Las plataformas de código abierto también pueden hacer una diferencia. Por ejemplo, el Repositorio de conjuntos de datos de Hugging Face permite a los investigadores acceder y compartir datos diversos. Este modelo colaborativo promueve el ecosistema de la IA, reduciendo la dependencia de conjuntos de datos estrechos. La transparencia también juega un papel significativo. Utilizar sistemas de IA explicable y realizar controles regulares puede ayudar a identificar y corregir sesgos. Esta explicación es vital para mantener los modelos justos y adaptables.

Construir equipos diversos podría ser el paso más impactante y directo. Los equipos con antecedentes variados son mejores para detectar puntos ciegos en los datos y diseñar sistemas que funcionen para una amplia gama de usuarios. Los equipos inclusivos llevan a mejores resultados, haciendo que la IA sea más brillante y justa.

En resumen

La IA tiene un potencial increíble, pero su eficacia depende de la calidad de los datos. Las monoculturas de datos limitan este potencial, produciendo sistemas sesgados, inflexibles y desconectados de las necesidades del mundo real. Para superar estos desafíos, los desarrolladores, gobiernos y comunidades deben colaborar para diversificar los conjuntos de datos, implementar prácticas éticas y fomentar equipos inclusivos.

Al abordar estos problemas directamente, podemos crear una IA más inteligente y equitativa, que refleje la diversidad del mundo al que se dirige.

El Dr. Tehseen Zia es un profesor asociado titular en la Universidad COMSATS de Islamabad, con un doctorado en Inteligencia Artificial de la Universidad Técnica de Viena, Austria. Especializado en Inteligencia Artificial, Aprendizaje Automático, Ciencia de Datos y Visión por Computadora, ha hecho contribuciones significativas con publicaciones en revistas científicas reputadas. El Dr. Tehseen también ha liderado varios proyectos industriales como investigador principal y ha servido como consultor de Inteligencia Artificial.