Salud

Modelos de IA entrenados con datos sesgados por sexo tienen un peor desempeño al diagnosticar enfermedades

Published May 29, 2020

Updated April 28, 2026

Daniel Nelson

Recientemente, un estudio publicado en la revista PNAS y realizado por investigadores de Argentina, implicó que la presencia de datos de entrenamiento sesgados por sexo conduce a un peor desempeño del modelo al diagnosticar enfermedades y otros problemas médicos. Según informó Statnews, el equipo de investigadores experimentó con el entrenamiento de modelos donde los pacientes femeninos estaban notablemente subrepresentados o excluidos por completo, y encontró que el algoritmo se desempeñó sustancialmente peor al diagnosticarlos. Lo mismo también se aplicó a los incidentes en los que los pacientes masculinos estaban excluidos o subrepresentados.

En la última media década, a medida que los modelos de IA y el aprendizaje automático se han vuelto más ubicuos, se ha prestado más atención a los problemas de los conjuntos de datos sesgados y los modelos de aprendizaje automático sesgados que resultan de ellos. El sesgo de datos en el aprendizaje automático puede llevar a aplicaciones de IA incómodas, socialmente dañinas y exclusivas, pero cuando se trata de aplicaciones médicas, las vidas pueden estar en juego. Sin embargo, a pesar del conocimiento del problema, pocos estudios han intentado cuantificar cuán dañinos pueden ser los conjuntos de datos sesgados. El estudio realizado por el equipo de investigación encontró que el sesgo de datos podría tener efectos más extremos de lo que muchos expertos habían estimado anteriormente.

Uno de los usos más populares de la IA en los últimos años, en contextos médicos, ha sido el uso de modelos de IA para diagnosticar a los pacientes en función de imágenes médicas. El equipo de investigación analizó modelos utilizados para detectar la presencia de diversas afecciones médicas como la neumonía, la cardiomegalia o las hernias a partir de radiografías. El equipo de investigación estudió tres arquitecturas de modelos de código abierto: Inception-v3, ResNet y DenseNet-121. Los modelos se entrenaron con radiografías de tórax extraídas de dos conjuntos de datos de código abierto originarios de la Universidad de Stanford y los Institutos Nacionales de Salud. Aunque los conjuntos de datos en sí son bastante equilibrados en cuanto a la representación por sexo, los investigadores sesgaron artificialmente los datos dividiéndolos en subconjuntos con un desequilibrio de sexo.

El equipo de investigación creó cinco conjuntos de datos de entrenamiento diferentes, cada uno compuesto por diferentes proporciones de exploraciones de pacientes masculinos y femeninos. Los cinco conjuntos de entrenamiento se dividieron de la siguiente manera:

Todas las imágenes eran de pacientes masculinos
Todas las imágenes eran de pacientes femeninos
25% de pacientes masculinos y 75% de pacientes femeninos
75% de pacientes femeninos y 25% de pacientes masculinos
La mitad de pacientes masculinos y la mitad de pacientes femeninos

Después de que el modelo se entrenó en uno de los subconjuntos, se lo sometió a una prueba con una colección de exploraciones de pacientes masculinos y femeninos. Hubo una tendencia notable que estuvo presente en las diversas afecciones médicas, la precisión de los modelos era mucho peor cuando los datos de entrenamiento estaban significativamente sesgados por sexo. Algo interesante a tener en cuenta es que si un sexo estaba sobrerepresentado en los datos de entrenamiento, ese sexo no parecía beneficiarse de la sobrerepresentación. Independientemente de si el modelo se entrenó con datos sesgados para un sexo o el otro, no se desempeñó mejor en ese sexo en comparación con cuando se entrenó con un conjunto de datos inclusivo.

El autor principal del estudio, Enzo Ferrante, fue citado por Statnews explicando que el estudio subraya lo importante que es que los datos de entrenamiento sean diversos y representativos para todas las poblaciones que se pretenden probar con el modelo.

No está del todo claro por qué los modelos entrenados en un sexo tienden a tener un peor desempeño cuando se implementan en otro sexo. Algunas de las discrepancias podrían deberse a diferencias fisiológicas, pero también podrían deberse a factores sociales y culturales. Por ejemplo, las mujeres pueden recibir radiografías en una etapa diferente de progresión de su enfermedad en comparación con los hombres. Si esto fuera cierto, podría afectar las características (y por lo tanto los patrones aprendidos por el modelo) encontradas en las imágenes de entrenamiento. Si esto es el caso, hace que sea mucho más difícil para los investigadores desviar sus conjuntos de datos, ya que el sesgo estaría integrado en el conjunto de datos a través de los mecanismos de recolección de datos.

Incluso los investigadores que prestan mucha atención a la diversidad de los datos a veces no tienen más remedio que trabajar con datos sesgados o sesgados. Las situaciones en las que existe una disparidad en la forma en que se diagnostican las afecciones médicas a menudo conducen a datos desequilibrados. Por ejemplo, los datos sobre pacientes con cáncer de mama se recopilan casi en su totalidad de mujeres. De manera similar, el autismo se manifiesta de manera diferente entre mujeres y hombres, y como resultado, la afección se diagnostica a una tasa mucho más alta en niños que en niñas.

Sin embargo, es extremadamente importante que los investigadores controlen los datos sesgados y el sesgo de datos de cualquier manera que puedan. Con ese fin, futuros estudios ayudarán a los investigadores a cuantificar el impacto de los datos sesgados.

Daniel Nelson

Bloguero y programador con especialidades en Machine Learning y Deep Learning temas. Daniel espera ayudar a otros a utilizar el poder de la IA para el bien social.

Unite.AI

Modelos de IA entrenados con datos sesgados por sexo tienen un peor desempeño al diagnosticar enfermedades

You may like